AIHOT

最新精选

6月12日

22:12

MiniMax (official)@MiniMax_AI

精选81

MiniMax 发布开源权重模型 M3，约 428B 总参数、23B 激活参数，已上传 HuggingFace。该模型融合三种前沿能力：编码与智能体方面达 59.0% SWE-Bench Pro、66.0% Terminal Bench 2.1、34.8% SWE-fficiency、28.8% KernelBench Hard、74.2% MCP Atlas；采用 MiniMax 稀疏注意力将上下文窗口扩展至 1M token；原生多模态。同步上线 MiniMax Code 工具及 API 平台。权重与技术报告预计约 10 天后发布。

MiniMax (official): Introducing MiniMax M3: The First Open-Weights Model to Combine Three Frontier Capabilities - Coding & Agentic Frontier:...

Hugging Face多模态推理模型发布

推荐理由：开放权重模型首次把编码 Agent 和多模态拉满，SWE-bench Pro 59% 逼近专有前沿，附带稀疏注意力 1M 上下文。做代码工具和 Agent 的团队应该都盯上它了。

18:24

Kimi.ai@Kimi_Moonshot

精选70

Kimi 发布并开源最新代码模型 Kimi-K2.7-Code

Kimi 发布并开源最新代码模型 Kimi-K2.7-Code。相比 K2.6，其在 Kimi Code Bench v2 上提升 +21.8%，Program Bench 提升 +11.0%，MLS Bench Lite 提升 +31.5%。推理效率改进，推理 token 使用量降低 30%，长时编码任务中指令遵循和端到端成功率均提升。6x 高速模式即将推出，即日起可通过 Kimi API 和 Kimi Code 使用。

开源生态推理模型发布编码

推荐理由：月之暗面这次把编码模型做到 K2.7 还直接开源，Bench 提升不小，关键是把「想太多」的毛病治了，推理 token 省了三成，做 coding agent 的可以立刻换上试试。

01:20

Logan Kilpatrick@OfficialLoganK

精选81

Gemini Omni Flash 在图像到视频、文本到视频和视频编辑方面达到了 SATA ：）很高兴很快能将这一能力通过 API 提供给开发者！

Google图像生成多模态模型发布

推荐理由：视频生成正式进入全模态一体时代，Gemini Omni Flash 把图生视频、文生视频和剪辑整合在一个模型里，API 很快上线，做视频工具的可以提前琢磨对手在哪了。

6月11日

12:10

Midjourney：Updates（RSS）

精选64

Midjourney V8.1 已成为默认模型

Midjourney 已将默认模型从 V7 升级为 V8.1。V8.1 在智能性、连贯性、对详细提示的遵循度以及文本渲染效果上均有提升，HD 模式也已支持。

图像生成模型发布

关联讨论 1 条

推荐理由：虽然V8.1不是大版本，但设为默认后所有用户自动升级，尤其是文本和复杂提示词的理解增强，做设计的朋友值得重新测试一下关键词。

02:48

xAI@xai

精选74

Grok Voice 提供最先进的性能，具有类人的时机、语调和温暖感。而且价格仅为竞争对手的一小部分。查看详情：http：//x.ai/api/voice

ServiceNow AI Research: 🚀 Grok Voice Think Fast 1.0 (@xAI) lands on the Pareto frontier on EVA-Bench - no system in the eval beats it on accura...

xAI模型发布语音

推荐理由：语音AI的SOTA这次不是OpenAI了，Grok Voice在EVA-Bench上无死角领先，价格还打到对手十分之一，做语音产品的可以认真看看这个帕累托前沿选手。

00:40

Google DeepMind：Blog（RSS）

精选84

DiffusionGemma：文本生成速度提升4倍的开源扩散模型

Google DeepMind 发布开源实验模型 DiffusionGemma，采用文本扩散技术，突破自回归逐 token 生成方式，每次前向并行生成 256 个 token。该 26B MoE 模型推理时仅激活 3.8B 参数，量化后适配 18GB 显存消费级 GPU。在 H100 上达 1000+ tokens/s，RTX 5090 上 700+ tokens/s，速度提升 4 倍。具备双向注意力和自我修正能力，面向内联编辑、代码填充等本地交互工作流，以 Apache 2.0 许可证开放。

Hugging Face开源/仓库推理模型发布

关联讨论 8 条

推荐理由：DiffusionGemma 用扩散方式把推理速度拉到 4 倍，这是把本地部署的瓶颈从内存带宽转向了计算，对于实时编辑、代码补全这类场景，这个思路比单纯提升模型质量更有价值。

6月10日

16:28

IT之家（RSS）

精选72

摩尔线程开源 MusaCoder 代码大模型，9B/27B 参数基于国产 GPU 全链路训练

摩尔线程发布并开源 MusaCoder 代码大模型，含 9B 和 27B 两个参数规模，是业内首个基于国产 GPU 算力底座完成全链路训练与验证的开源模型。后训练流程在基于 MTT S5000 的夸娥智算集群上完成，支持从 PyTorch 标准算子自动生成高性能 CUDA/MUSA 原生 Kernel 代码。在 KernelBench 评测中，MusaCoder-27B-RL 以 Overall Pass@8 93.2%、Avg.@8 88.60% 超越 Claude Opus、DeepSeek-V4 Pro、GLM-5.1、Kimi K2.6 等主流 SOTA 代码模型。

开源生态模型发布编码

推荐理由：摩尔线程这个模型直接瞄准GPU底层算子，KernelBench分数压过了不少主流大模型，虽然场景窄，但在国产硬件自建软件生态的路上，迈出了挺关键一步。

04:55

Hugging Face：Blog（RSS）

精选73

Cohere发布North Mini Code：面向开发者的开源编码模型

Cohere发布North Mini Code，一款30B参数MoE模型（3B活跃参数），Apache 2.0开源。在Artificial Analysis Coding Index上得分33.4，超越Qwen3.5、Gemma 4等同类模型。后训练采用两阶段SFT和RLVR，在SWE-Bench Verified上pass@10达80.2%，Terminal-Bench v2上达55.1%。支持64K/128K上下文长度，专为智能体编码任务优化。

智能体开源生态模型发布编码

关联讨论 1 条

推荐理由：Cohere的新编码模型North Mini Code以30B参数MoE架构，在SWE-bench pass@1达到61%，Apache 2.0开源，是小模型在agent coding领域真正可用的信号。

01:04

Anthropic：Newsroom（网页）

精选90

Claude Fable 5 和 Claude Mythos 5

Anthropic 今日推出 Claude Fable 5（通用安全版）和 Claude Mythos 5（受限安全版）。Fable 5 在软件工程、知识工作、视觉、科研等几乎所有测试基准上达到 SOTA，Stripe 称其将数月工程压缩至数天，FrontierCode 评分居前沿模型之首，可仅凭截图重建网页应用源码。Mythos 5 在药物设计中实现约 10 倍加速，其分子生物学假说盲测获科学家偏好的概率约 80%。两模型售价均为 $10/百万输入 tokens、$50/百万输出 tokens，较 Claude Mythos Preview 降价过半。Fable 5 在部分敏感主题上回退至 Claude Opus 4.8，安全触发率低于 5% 的会话。Mythos 5 通过 Project Glasswing 向网络安全防御者开放。

Anthropic多模态安全/对齐模型发布

关联讨论 28 条

推荐理由：Anthropic把最危险的模型安全地放出来了，Fable 5在编码、科研上不是小数点级别的提升，价格还砍半，95%的请求直接跑满血版，必读。

6月9日

23:35

Google DeepMind@GoogleDeepMind

精选69

说 hello， hola，你好--欢迎 Gemini 3.5 Live Translate：我们最新的音频模型，专为快速跨语言交流而构建。🌐

Google模型发布语音

关联讨论 9 条

推荐理由：Google 这个实时翻译模型把语音+翻译+大模型拧成了一股绳，虽然具体怎么用还不清楚，但做跨境、做语音助手的同学可以把它当个方向标。

23:05

Chubby♨️@kimmonismus

精选77

确认，Claude Mythos 将在接下来几小时内揭晓。【引用 @steph_palazzolo】：独家：一个名为 Claude Fable 的精简版 Mythos 今天推出。它价格昂贵--是 Opus 的两倍--但或许不像人们从最初 Mythos 定价（Opus 的 5 倍）所想的那样昂贵。更多内容及 Apple WWDC 见 AI Agenda： https：//www.theinformation.com/newsletters/ai-agenda/anthropics-mythos-coming-today-apple-pursues-modest-goals-siri-revamp

Stephanie Palazzolo: Scoop: A neutered version of Mythos called Claude Fable is coming today. It's expensive-2x the price of Opus-but perhaps...

Anthropic模型发布

推荐理由：Mythos 终于来了，但首发的是阉割版 Claude Fable，价格是 Opus 的两倍。虽然不算便宜，但比起原版 Mythos 定价已经温柔很多，应该能让很多观望的人先尝尝鲜。

22:34

Google DeepMind：Blog（RSS）

精选81

Google DeepMind 发布 Gemma 4 12B：统一的无编码器多模态模型

Gemma 4 12B 是 Google DeepMind 最新推出的中等规模多模态模型，采用无编码器统一架构，原生支持音频输入。其基准测试性能接近 26B MoE 模型，但内存占用不到一半，仅需 16GB 显存或统一内存即可在消费级笔记本上本地运行。模型内置多 token 预测（MTP）drafter 以降低延迟，基于 Apache 2.0 开源许可发布，已累计超过 1.5 亿次下载。

多模态开源生态模型发布端侧

关联讨论 2 条

推荐理由：把多模态模型的视觉和音频编码器全砍了，仅靠12B就在笔记本上跑出接近26B的效果，而且Apache 2.0开源，做端侧Agent的现在有了一个高性价比的本地推理选项。

11:40

公众号：小米 MiMo

精选80

小米 MiMo 与 TileRT 联合发布 UltraSpeed 模式，1T 模型输出突破 1000 tokens/s

小米 MiMo 与 TileRT 联合发布 MiMo-V2.5-Pro-UltraSpeed 模式，使 1T 参数旗舰模型输出速度首次突破 1000 tokens/s。模型侧采用 FP4 混合量化（仅量化 MoE Expert）与 DFlash 块级 masked 并行推测解码（coding 场景平均接受长度 6.30 tokens）；系统侧 TileRT 引入常驻内核引擎与异构流水线协作。API 限时开放（2026 年 6 月 9 日至 23 日），定价为 MiMo-V2.5-Pro 的 3 倍，速度提升约 10 倍。FP4 权重与 DFlash 模型 checkpoint 已开源至 HuggingFace。

开源生态推理模型发布部署/工程

关联讨论 3 条

推荐理由：万亿模型首次在通用GPU上突破1000 tokens/s，不是专用硬件的胜利而是模型与系统Codesign的胜利，做实时AI应用的都应该盯紧这一套方案。

05:15

Apple Machine Learning Research（RSS）

精选79

苹果发布第三代 Apple Foundation Models（AFM）

苹果推出第三代 Apple Foundation Models（AFM）基础模型家族，与 Google 合作定制，包含五个模型，覆盖从设备端到基于 Private Cloud Compute 的服务器端模型。这些模型旨在驱动 Apple Intelligence 功能，包括全新 Siri 和智能工具，以用户为中心深度融合操作系统，隐私为核心设计原则。

Google多模态模型发布端侧

关联讨论 1 条

推荐理由：Apple与Google罕见联手推出的第三代基础模型，直接为下一代Siri和系统级AI功能铺路，标志着消费级AI的深度整合，产品经理和iOS开发者必须关注。

6月8日

22:46

OpenBMB@OpenBMB

精选75

VoxCPM2 技术报告发布

面壁智能 OpenBMB 发布 VoxCPM2 技术报告。该模型为最新语音生成模型，拥有 2B 参数，基于超 200 万小时多语言语音数据训练，支持 30 种语言和 9 种中文方言。具备自然语言语音设计、可控及高保真延续性语音克隆能力。技术报告涵盖架构设计、统一序列公式、AudioVAE 高保真语音重建、大规模训练评估，以及零样本和指令跟随 TTS 基准结果。采用 16kHz 语义编码 + 48kHz 波形重建，在公开 TTS 基准上达到 SOTA 或极具竞争力。模型权重、微调代码和推理工具以 Apache 2.0 开源。

多模态开源/仓库模型发布语音

推荐理由：面壁把语音生成压进2B参数，支持30种语言加方言克隆，还附完整技术报告和Apache 2.0开源，做语音产品的可以直接拉代码跑起来了。

14:20

IT之家（RSS）

精选73

全球首个：高德发布3D原生城市世界模型ABot-Earth0.5

阿里巴巴旗下高德发布全球首个3D原生城市世界模型ABot-Earth0.5，已建成覆盖190多个国家和地区的3D地图。用户输入卫星图或文字描述，10分钟即可在消费级GPU上生成公里级3D城市，输出可编辑3DGS格式，可直接导入Unity等引擎。制图成本为传统百分之一，效率提升约千倍，可为具身智能、低空经济、应急救援等提供支撑。目前已开放内测，可前往abot-earth.amap.com提交申请。

具身智能多模态模型发布

推荐理由：第一个把分钟级 3D 城市重建拉进消费级 GPU 的世界模型，成本打到了传统方案的百分之一，对具身智能和低空经济是底层能力补全，值得内测试试。

6月7日

14:34

MarkTechPost（RSS）

精选73

Harness-1：基于强化学习训练的有状态搜索20B检索子智能体

UIUC与Chroma联合推出Harness-1，一个20B参数的检索子智能体。它通过强化学习在一个有状态搜索框架中训练，该框架维护候选池、重要性标注集、证据图和验证记录，由策略决定搜索、筛选、验证及停止的时机。Harness-1在8个基准测试上达到0.730平均curated recall，比下一个最佳开源子智能体高出11.4个百分点，仅落后于Opus-4.6。模型权重和框架代码均已公开。

检索增强搜索模型发布

推荐理由：UIUC和Chroma放出的这个20B检索子代理，用RL训练出了0.73的平均召回，把开源竞品甩开11.4分，只比Opus-4.6低一点。权重、Harness全开源，搞RAG的可以真刀真枪试试了。

6月5日

15:40

Elon Musk@elonmusk

精选67

更新后的 Grok-build 模型（仍是 0.5T 那个）比以前好很多。它不那么偷懒、更自主、更准确。我们仍在改进长时任务。请期待并在我们漂亮的 TUI 中使用新的使用限制！🚀

Bill Yuchen Lin: The updated Grok-build model (still the 0.5T one) is much better than before. It's less lazy, more autonomous, and more ...

xAI模型发布

推荐理由：马斯克亲口确认Grok模型更新，虽然还是0.5T参数，但改进后更自主、更准确，做长期任务的开发者可以看看。

13:27

公众号：京东JoyAI

精选72

京东开源JoyAI-Echo长音视频生成框架

6月3日，京东开源JoyAI-Echo框架，解决长视频生成中角色身份崩坏、音色突变和生成缓慢三大难题。该框架通过跨模态音视频记忆库保持5分钟内角色外观与音色一致，记忆驱动后训练结合DMD技术带来约7.5倍推理加速。新增Director Agent支持自然语言对话式局部修订，无需重跑整条视频。配套轻量化实时超分模块，支持736×1280→1152×1920及1472×2560两档分辨率。评测集显示，语音内容准确率0.8646，用户偏好多项领先。代码与权重已开源至GitHub。

GitHub多模态模型发布

推荐理由：长视频生成一直被角色崩塌和龟速生成卡死，JoyAI-Echo 开源给出了角色一致性方案和 7.5 倍加速，Director Agent 对话式编辑的思路很先进，做 AI 视频的朋友可以直接去 GitHub 开跑。

03:43

Hugging Face：Blog（RSS）

精选78

Nemotron 3.5 Content Safety：面向全球企业AI的可定制多模态安全

Nemotron 3.5 Content Safety基于Gemma 3 4B IT，提供128K上下文窗口，支持用户提示、可选图像与助手响应的统一多模态安全评估。新增自定义策略执行，允许企业用自然语言定义专属安全规则；THINK模式可输出可审计的逐步推理痕迹。显式训练覆盖12种语言，并借助基座模型零样本泛化至约140种语言。输出提供低延迟二分类、带分类标签、THINK推理痕迹三种模式。安全分类遵循Aegis 2.0框架（13核心类别+10细分类别）。同步发布多模态、多语言安全数据集，可在8GB+ VRAM GPU上实时部署。

Hugging Face多模态安全/对齐开源/仓库

推荐理由：Nemotron 3.5 把内容安全从「单模态英文」拉到「多语言多模态可定制」，自定义策略和推理 trace 让企业能审计决策，做安全平台的值得细看。

02:54

Google AI Developers@googleaidevs

精选70

Google AI for Developers 宣布推出开放权重的实时音乐模型 Magenta RealTime 2 （MRT2）。该模型可通过 MIDI 键盘、实时文本提示甚至手势进行演奏。MRT2 在 MacBook 上原生运行，延迟低于 200ms，提供开放权重、开源推理引擎以及配套应用和插件套件。

Google Magenta Project: Introducing Magenta RealTime 2 (MRT2): the live music model you can play as an instrument. MRT2 offers MIDI and prompt c...

Google多模态开源生态模型发布

关联讨论 1 条

推荐理由：Magenta RealTime 2 把音乐生成从「后期制作」拉到了「实时演奏」，开放权重且延迟低于 200ms，音乐创作者值得立刻上手试试。

6月4日

23:15

SiliconFlow@SiliconFlowAI

精选72

Nex-N2-Pro 发布：基于 Qwen3.5 的 397B MoE 推理模型，性能达 GPT-5.5 水平

neolab 推出 Nex-N2-Pro，基于 Qwen3.5-397B-A17B，总参数 397B 的 MoE 推理模型，支持 262K 上下文与多模态（VLM），性能达到 GPT-5.5 和 Claude Opus 4.7 级别。模型可自动调节推理深度，减少 30-50% 思考 token 且无性能折损，在 Terminal Bench 2.1、GDPVal、SWE-Verified 上取得 SOTA。擅长智能体编码、深度搜索和工具使用，兼容 Claude Code、Cursor 等工具。硅基流动已提供 T+0 支持，前两周免费使用。

多模态推理模型发布编码

推荐理由：后训练模型能直追 GPT-5.5 和 Claude 4.7，免费两周，对做 agent 和 deep search 的人来说是难得的低成本试错机会。

09:28

xAI：News（网页）

精选75

xAI 发布 Grok Imagine 1.5 预览版（图像转视频模型）

xAI 通过 API 发布了图像转视频模型 `grok-imagine-video-1.5-preview`（Grok Imagine 1.5 预览版）。该模型能将单张静态图片转为流畅的电影感视频，用户提供起始帧和描述运动的提示词后，模型可生成包含相机移动、氛围和物理效果的动画，并保持对源图像的忠实。支持生成 720p 片段，可使用自然语言指令控制镜头、节奏和音效，并支持逐帧拼接成长场景。模型目前通过 xAI API 提供预览使用。

xAI多模态模型发布视频

关联讨论 1 条

推荐理由：xAI的新视频模型从单张图像生成电影级短片，支持自然语言控制运镜和氛围，对视频创作者和开发者是个值得一试的工具。

09:06

Elon Musk@elonmusk

精选72

Vercel 的 AI Gateway 上现已推出 Grok Imagine Video 1.5。该服务支持图生视频并同步音频，一次性完成。示例代码： `await generateVideo（{ model： 'xai/grok-imagine-video-1.5-preview'， prompt： 'a rabbit sprinting through nyc' }）；`

Vercel Developers: Grok Imagine Video 1.5 on AI Gateway. Image-to-video generation with synced audio in one pass. await generateVideo({ mod...

xAI图像生成模型发布视频

推荐理由：Grok Imagine Video 1.5 把同步音频塞进了图生视频，一条 prompt 直接出带声短片，做短视频和创意的可以换上这条流水线了。

09:06

Elon Musk@elonmusk

精选73

伊利亚特（特洛伊）预告片由刚刚发布的 Grok Imagine 1.5 制作

xAI多模态模型发布视频

推荐理由：Elon 亲自演示 Grok Imagine 1.5，生成的《伊利亚特》预告片质感让我觉得视频生成赛道又要卷一轮，做短片的可以盯一下。

01:49

Krea@krea_ai

精选74

介绍 Ideogram v4.0。原生 2K 分辨率，出色的文字渲染，支持 JSON 提示词。立即在 Krea 中体验。

图像生成模型发布

关联讨论 1 条

推荐理由：图像生成模型的军备竞赛又添一员，Ideogram v4.0的2k原生分辨率和JSON prompt对接工作流，做设计生成的同学可以直接上手试试。

00:50

Chubby♨️@kimmonismus

精选75

Miso One 正式发布，一个 8B 参数的开源权重语音模型（TTS），旨在模拟真实人类朗读的温暖与节奏。它支持一次语音克隆（只需短样本），推理延迟仅 110ms。模型权重已开源至 GitHub，无需 API 即可自托管，音频数据不离开本地。API 访问即将推出。演示已上线，可先试听再克隆仓库。

Aoden Teo: Today, we're excited to introduce Miso One, the most emotive voice model in the world. Miso One is an 8-billion-paramete...

开源生态模型发布语音

关联讨论 1 条

推荐理由：Miso One这种8B参数、110ms延迟的情感TTS模型，直接把声音克隆和自托管做成了开箱即用，做语音产品的可以马上 clone 一个玩玩，比等 API 爽多了。

6月3日

02:45

The Verge：AI（RSS）

精选78

微软首款高级推理AI模型MAI-Thinking-1发布

微软在Build 2026上发布了其首款高级推理AI模型MAI-Thinking-1。该模型被定位为“中等规模”，能在“关键”软件工程基准测试中达到领先模型的水平。微软称其完全从头使用干净数据进行训练，未涉及从第三方模型进行知识蒸馏。这标志着微软在自研AI模型上迈出重要一步，此前其主要依赖OpenAI。近期两家公司已重新协商合作协议，关系有所松绑。

Microsoft推理模型发布

关联讨论 4 条

推荐理由：微软自己从头训练的推理模型，不用任何第三方蒸馏数据，这可能是微软系 Agent 和 Copilot 底座更换的信号，值得盯着看。

6月2日

22:40

Hugging Face：Blog（RSS）

精选73

Holo3.1：快速本地计算机使用智能体

Holo3.1 是基于 Qwen 模型家族的计算机使用智能体系列，旨在提升在桌面、网页和移动环境中的鲁棒性。新模型提供 0.8B、4B、9B 和 35B-A3B 四种尺寸，并首次发布量化检查点，包括 FP8、Q4 GGUF 和 NVFP4，以优化本地推理。在 AndroidWorld 基准测试中，35B-A3B 模型得分从 67% 提升至 79.3%。在 DGX Spark 上，NVFP4 量化相比 BF16 实现 1.74 倍 token 吞吐量提升，并将平均步骤时间从 6.8 秒缩短至 3.3 秒。模型支持函数调用协议，可在第三方智能体框架中部署。

智能体Hugging Face开源/仓库模型发布

推荐理由：Holo3.1 把计算机使用代理从桌面扩展到了移动端，还首次放出了量化版，让本地运行真正快了起来。想做 GUI 自动化的开发者可以立刻跑起来了。

12:35

SenseTime@SenseTime_AI

精选73

感谢使用我们的模型来创建这些复杂的图表和图表。看到具有挑战性的信息被转化为清晰、准确和可读的视觉效果真是太棒了。这就是我们的目标。😄

The AI Colony: SenseNova U1 just released an infographic-specialized version and +18.2 on IGenBench Q-ACC isn't a rounding error. It me...

Hugging Face图像生成开源生态模型发布

关联讨论 1 条

推荐理由：SenseNova U1 这波信息图特化不是刷分，+18.2 Q-ACC 证明模型真的懂了排版，做汇报、做图表的可以直接上 Hugging Face 扒下来用。

02:15

xAI：News（网页）

精选78

xAI发布Composer 2.5

xAI的最新编程模型Composer 2.5现已在Grok Build中可用，用户可通过`/models`菜单选择使用。这是一款快速、先进的模型，擅长处理长时间运行的任务和复杂指令。该模型面向SuperGrok和X Premium+用户开放。

xAI推理模型发布

关联讨论 1 条

推荐理由：xAI 的 Composer 2.5 主攻长任务和复杂指令，如果你在用 Grok 搭 Agent，这模型值得切过去试试，可能比之前的编码模型更稳。

01:59

公众号：通义实验室（千问）

精选64

Qwen3.7-Plus 多模态智能体模型发布

Qwen3.7-Plus 深度融合视觉与语言，实现“看、想、写、做、验”端到端闭环，在 12 项核心基准测试中表现提升。实测中，基于该模型的智能体连续运行超 11 小时，自动完成英语学习 APP 开发，生成代码超 10000 行、触发调用超 1000 次；复刻 macOS Stocks 应用并通过 10 项功能验证。支持图像/视频转 SVG、视觉驱动网页设计及浏览器自动化。已在阿里云百炼上线，提供 OpenAI 兼容 API 与 Anthropic 协议。

智能体多模态模型发布

关联讨论 1 条

推荐理由：Qwen3.7-Plus 把视觉智能体推到了‘能看、能想、能动手’的端到端闭环，从写代码到操作浏览器一条龙，做自动化 Agent 的团队可以直接拿来用。

00:38

Hugging Face：Blog（RSS）

精选71

JetBrains 发布 Mellum2：12B 参数混合专家模型

Mellum2 是 JetBrains 从头训练的 12B 参数混合专家（MoE）模型，专注于自然语言与代码。每个 token 仅激活 2.5B 参数，推理速度可达同类模型的 2 倍以上，适合高吞吐、低延迟场景。该模型支持路由、RAG、摘要、子智能体及私有部署，以 Apache 2.0 许可证开源。在代码生成、推理、科学和数学基准测试中，Mellum2 与同等规模的开放模型竞争力相当。

推理模型发布编码

推荐理由：JetBrains 开源了 Mellum2，一个激活参数仅 2.5B 的 12B MoE 模型，专为代码和问答管道设计的快模型。做实时 RAG 或子代理时，终于不用硬扛大模型了。

6月1日

23:34

SenseTime@SenseTime_AI

精选67

SenseNova新模型解决AI图表生成难题

大多数AI模型在生成图表时存在数值错误（如负值显示为正）、柱状图位置偏移、元素关系混乱等问题。SenseNova-U1-8B-MoT-Infographic（SenseNova-U1）专为解决此类图表生成问题而设计，能够生成准确的图表，并支持实时调整设计和布局。项目在Hugging Face提供了模型，并在GitHub展示了效果案例。

GitHubHugging Face图像生成模型发布

关联讨论 1 条

推荐理由：大部分AI生成的图表都有标注错误或比例失调，商汤这个模型专攻信息图准确性，对常做图表的产品人和分析师来说值得一试。

11:39

MiniMax：Blog（网页）

精选83

MiniMax M3：前沿编码、100万token上下文与原生多模态一体模型

MiniMax M3 是一个开源前沿模型，具备先进的编码与AI智能体能力。它支持100万token的超长上下文窗口，并采用名为MSA（MiniMax Sparse Attention）的新型稀疏注意力架构。该架构使模型在100万token上下文下的每token计算成本降至前代的1/20，预填充速度提升9倍以上，解码速度提升15倍以上。在SWE-Bench Pro编码基准上，MiniMax M3得分59.0%，超越GPT-5.5和Gemini 3.1 Pro，性能接近Opus 4.7。该模型可通过MiniMax Code、Token Plan和API服务使用。

多模态开源/仓库推理模型发布

关联讨论 10 条

推荐理由：MiniMax M3 把开源模型的编码能力推到了 GPT-5.5 和 Opus 4.7 这条线上，还附带 1M 上下文和原生多模态，这是开源社区真正能打的前沿选项，做 Agent 的值得立刻跑一下。

5月30日

04:19

Greg Brockman@gdb

精选76

OpenAI 实时翻译功能--使用70多种输入语言说话，翻译成13种输出语言： gpt-realtime-translate 接收任意语言的语音输入，并输出目标语言的语音。大语言模型很棒，但特定用例需要专用模型。我们正在智能眼镜上运行此功能。

cayden 凯登: OpenAI just dropped a completely new kind of model gpt-realtime-translate takes in speech audio from any language and ou...

OpenAI多模态模型发布语音

推荐理由：OpenAI悄悄推出一个专门做实时语音翻译的模型，不是通用LLM，而是专用模型。这标志着AI交互从文字转向语音的第一步，做翻译硬件或AR眼镜的团队要睡不着了。

5月29日

23:13

Qwen：Blog Retrieval（API）

精选65

Qwen-VLA：从理解世界到付诸行动

通义千问推出通用视觉-语言-动作模型Qwen-VLA，基于Qwen多模态骨干，将视觉感知、语言理解与空间推理扩展至连续动作生成和轨迹预测。训练分四阶段：文本到动作预训练（T2A）、持续预训练（CPT）、监督微调（SFT）和强化学习（RL）。在LIBERO上达97.9%，Simpler-WidowX达73.7%，RoboTwin-Easy/Hard达86.1%/87.2%，匹配或超越专精模型。数据涵盖超10,000小时公共机器人轨迹、1,000+小时内部真实轨迹及800万+合成仿真轨迹。

具身智能多模态模型发布

推荐理由：一条模型同时搞定机械臂操控、视觉导航、跨形态控制，在LIBERO上97.9%，比专用模型还高，虽然离AGI尚远，但“从看懂世界到动手干活”这一步迈得比想象中大。

22:53

公众号：通义实验室（千问）

精选61

Qwen-VLA：迈向通用具身智能的统一动作框架

通义实验室提出Qwen-VLA，以Qwen3.5-4B视觉语言主干与1.15B参数DiT动作解码器构建统一视觉-语言-动作模型。通过文本到动作DiT预训练和本体感知提示，将操作、导航与轨迹预测统一在同一框架下，支持11种机器人平台。在5个仿真基准中，单一通用模型在3个上超越最佳专用模型；ALOHA真机in-domain成功率83.6%，OOD泛化76.9%，分别超越π₀.₅超35和40个百分点；DOMINO动态操作零样本达26.6%；VLN-CE导航R2R和RxR分别达57.5%和59.6%，均超越专用模型。

具身智能模型发布

推荐理由：通义把操作、导航和轨迹预测塞进一个脑子，在11种机器人上通用，这是具身智能从'专家'走向'通才'的关键一步，做机器人的值得翻翻论文。

17:21

IT之家（RSS）

精选74

小米开源可控视频音效生成模型 ControlFoley，让声音"按你想要的来"

小米大模型应用团队发布开源可控视频音效生成模型 ControlFoley，旨在解决创作中的可控性难题。该模型统一支持文本引导视频配音、文本控制视频配音和参考音频控制视频配音三类任务。ControlFoley 在 VGGSound-Test 等多个 benchmark 上取得开源 SOTA 表现，其代码、模型权重和在线 Demo 均已开放。

多模态开源生态模型发布语音

推荐理由：小米开源的 ControlFoley 把视频音效生成从“看画面配声音”推进到“按意图来”，开源 SOTA 且直接提供 Skill，做视频创作的可以上手试试。

08:02

公众号：阶跃星辰（Step）

精选61

阶跃发布 Step 3.7 Flash，面向生产级 Agent 的高效率 Flash 模型

阶跃星辰发布并开源 Step 3.7 Flash，采用稀疏 MoE 架构（总参数 196B+1.8B，激活 11B），最高生成速度 400 Tokens/s。围绕原生多模态理解与执行、联网与视觉搜索增强、高可靠工具调用与编排、Agent 生态兼容优化四大能力优化。在 Toolathlon 达 49.5%，ClawEval-1.1 达 67.1%，GDPval 达 45.8%，τ²-bench Telecom 通过率超 98%。兼容 Claude Code、KiloCode 等主流架构及 MCP/Skills 协议，支持云端与本地部署，已在 Kilo Code 等生态中完成接入验证。

智能体MCP/工具多模态开源生态

推荐理由：Step 3.7 Flash 用激活仅 11B 的 MoE 架构把 Agent 工作流稳定性做透了，兼容主流框架还开源，对需要低延迟、高可靠性的生产环境 Agent 是真正可用的选择。