AIHOT

6月11日

12:10

Midjourney：Updates（RSS）

精选64

Midjourney V8.1 已成为默认模型

Midjourney 已将默认模型从 V7 升级为 V8.1。V8.1 在智能性、连贯性、对详细提示的遵循度以及文本渲染效果上均有提升，HD 模式也已支持。

图像生成模型发布

关联讨论 1 条

推荐理由：虽然V8.1不是大版本，但设为默认后所有用户自动升级，尤其是文本和复杂提示词的理解增强，做设计的朋友值得重新测试一下关键词。

00:40

Google DeepMind：Blog（RSS）

精选84

DiffusionGemma：文本生成速度提升4倍的开源扩散模型

Google DeepMind 发布开源实验模型 DiffusionGemma，采用文本扩散技术，突破自回归逐 token 生成方式，每次前向并行生成 256 个 token。该 26B MoE 模型推理时仅激活 3.8B 参数，量化后适配 18GB 显存消费级 GPU。在 H100 上达 1000+ tokens/s，RTX 5090 上 700+ tokens/s，速度提升 4 倍。具备双向注意力和自我修正能力，面向内联编辑、代码填充等本地交互工作流，以 Apache 2.0 许可证开放。

Hugging Face开源/仓库推理模型发布

关联讨论 7 条

推荐理由：DiffusionGemma 用扩散方式把推理速度拉到 4 倍，这是把本地部署的瓶颈从内存带宽转向了计算，对于实时编辑、代码补全这类场景，这个思路比单纯提升模型质量更有价值。

00:39

Google Developers Blog（RSS）

78

DiffusionGemma 开发者指南

DiffusionGemma 是 Google 基于 Gemma 4 架构的实验性文本生成模型，采用扩散式并行生成替代逐 token 自回归，实现更快推理、双向上下文感知和实时自我修正，并可在消费级 GPU 上部署。模型通过迭代去噪并行生成并细化 256-token 块，在处理数独等复杂约束任务上优于传统语言模型，且微调效果显著。它已集成 vLLM 等推理框架，为开发者提供一种高性能、高效长上下文扩展且易于定制部署的非自回归新方法。

Google推理模型发布部署/工程

关联讨论 7 条

6月10日

04:55

Hugging Face：Blog（RSS）

精选73

Cohere发布North Mini Code：面向开发者的开源编码模型

Cohere发布North Mini Code，一款30B参数MoE模型（3B活跃参数），Apache 2.0开源。在Artificial Analysis Coding Index上得分33.4，超越Qwen3.5、Gemma 4等同类模型。后训练采用两阶段SFT和RLVR，在SWE-Bench Verified上pass@10达80.2%，Terminal-Bench v2上达55.1%。支持64K/128K上下文长度，专为智能体编码任务优化。

智能体开源生态模型发布编码

关联讨论 1 条

推荐理由：Cohere的新编码模型North Mini Code以30B参数MoE架构，在SWE-bench pass@1达到61%，Apache 2.0开源，是小模型在agent coding领域真正可用的信号。

02:18

Claude Code：GitHub Releases（RSS）

88

Claude Code v2.1.170 发布：引入 Claude Fable 5 模型

Claude Code v2.1.170 更新引入新模型 Claude Fable 5（Mythos-class），Anthropic 称其能力超过以往所有已开放使用的模型，并已确保安全。该版本同时修复了从 VS Code 集成终端或继承了 Claude Code 环境变量的 shell 启动时 session 无法保存 transcript 且无法用 `--resume` 恢复的问题。

Anthropic模型发布

关联讨论 27 条

01:04

Anthropic：Newsroom（网页）

精选90

Claude Fable 5 和 Claude Mythos 5

Anthropic 今日推出 Claude Fable 5（通用安全版）和 Claude Mythos 5（受限安全版）。Fable 5 在软件工程、知识工作、视觉、科研等几乎所有测试基准上达到 SOTA，Stripe 称其将数月工程压缩至数天，FrontierCode 评分居前沿模型之首，可仅凭截图重建网页应用源码。Mythos 5 在药物设计中实现约 10 倍加速，其分子生物学假说盲测获科学家偏好的概率约 80%。两模型售价均为 $10/百万输入 tokens、$50/百万输出 tokens，较 Claude Mythos Preview 降价过半。Fable 5 在部分敏感主题上回退至 Claude Opus 4.8，安全触发率低于 5% 的会话。Mythos 5 通过 Project Glasswing 向网络安全防御者开放。

Anthropic多模态安全/对齐模型发布

关联讨论 27 条

推荐理由：Anthropic把最危险的模型安全地放出来了，Fable 5在编码、科研上不是小数点级别的提升，价格还砍半，95%的请求直接跑满血版，必读。

6月9日

22:34

Google DeepMind：Blog（RSS）

精选81

Google DeepMind 发布 Gemma 4 12B：统一的无编码器多模态模型

Gemma 4 12B 是 Google DeepMind 最新推出的中等规模多模态模型，采用无编码器统一架构，原生支持音频输入。其基准测试性能接近 26B MoE 模型，但内存占用不到一半，仅需 16GB 显存或统一内存即可在消费级笔记本上本地运行。模型内置多 token 预测（MTP）drafter 以降低延迟，基于 Apache 2.0 开源许可发布，已累计超过 1.5 亿次下载。

多模态开源生态模型发布端侧

关联讨论 2 条

推荐理由：把多模态模型的视觉和音频编码器全砍了，仅靠12B就在笔记本上跑出接近26B的效果，而且Apache 2.0开源，做端侧Agent的现在有了一个高性价比的本地推理选项。

11:40

公众号：小米 MiMo

精选80

小米 MiMo 与 TileRT 联合发布 UltraSpeed 模式，1T 模型输出突破 1000 tokens/s

小米 MiMo 与 TileRT 联合发布 MiMo-V2.5-Pro-UltraSpeed 模式，使 1T 参数旗舰模型输出速度首次突破 1000 tokens/s。模型侧采用 FP4 混合量化（仅量化 MoE Expert）与 DFlash 块级 masked 并行推测解码（coding 场景平均接受长度 6.30 tokens）；系统侧 TileRT 引入常驻内核引擎与异构流水线协作。API 限时开放（2026 年 6 月 9 日至 23 日），定价为 MiMo-V2.5-Pro 的 3 倍，速度提升约 10 倍。FP4 权重与 DFlash 模型 checkpoint 已开源至 HuggingFace。

开源生态推理模型发布部署/工程

关联讨论 3 条

推荐理由：万亿模型首次在通用GPU上突破1000 tokens/s，不是专用硬件的胜利而是模型与系统Codesign的胜利，做实时AI应用的都应该盯紧这一套方案。

05:15

Apple Machine Learning Research（RSS）

精选79

苹果发布第三代 Apple Foundation Models（AFM）

苹果推出第三代 Apple Foundation Models（AFM）基础模型家族，与 Google 合作定制，包含五个模型，覆盖从设备端到基于 Private Cloud Compute 的服务器端模型。这些模型旨在驱动 Apple Intelligence 功能，包括全新 Siri 和智能工具，以用户为中心深度融合操作系统，隐私为核心设计原则。

Google多模态模型发布端侧

关联讨论 1 条

推荐理由：Apple与Google罕见联手推出的第三代基础模型，直接为下一代Siri和系统级AI功能铺路，标志着消费级AI的深度整合，产品经理和iOS开发者必须关注。

6月5日

13:27

公众号：京东JoyAI

精选72

京东开源JoyAI-Echo长音视频生成框架

6月3日，京东开源JoyAI-Echo框架，解决长视频生成中角色身份崩坏、音色突变和生成缓慢三大难题。该框架通过跨模态音视频记忆库保持5分钟内角色外观与音色一致，记忆驱动后训练结合DMD技术带来约7.5倍推理加速。新增Director Agent支持自然语言对话式局部修订，无需重跑整条视频。配套轻量化实时超分模块，支持736×1280→1152×1920及1472×2560两档分辨率。评测集显示，语音内容准确率0.8646，用户偏好多项领先。代码与权重已开源至GitHub。

GitHub多模态模型发布

推荐理由：长视频生成一直被角色崩塌和龟速生成卡死，JoyAI-Echo 开源给出了角色一致性方案和 7.5 倍加速，Director Agent 对话式编辑的思路很先进，做 AI 视频的朋友可以直接去 GitHub 开跑。

03:43

Hugging Face：Blog（RSS）

精选78

Nemotron 3.5 Content Safety：面向全球企业AI的可定制多模态安全

Nemotron 3.5 Content Safety基于Gemma 3 4B IT，提供128K上下文窗口，支持用户提示、可选图像与助手响应的统一多模态安全评估。新增自定义策略执行，允许企业用自然语言定义专属安全规则；THINK模式可输出可审计的逐步推理痕迹。显式训练覆盖12种语言，并借助基座模型零样本泛化至约140种语言。输出提供低延迟二分类、带分类标签、THINK推理痕迹三种模式。安全分类遵循Aegis 2.0框架（13核心类别+10细分类别）。同步发布多模态、多语言安全数据集，可在8GB+ VRAM GPU上实时部署。

Hugging Face多模态安全/对齐开源/仓库

推荐理由：Nemotron 3.5 把内容安全从「单模态英文」拉到「多语言多模态可定制」，自定义策略和推理 trace 让企业能审计决策，做安全平台的值得细看。

6月4日

20:52

LMSYS：Blog（Chatbot Arena 团队）

81

SGLang 和 Miles 即日支持 NVIDIA Nemotron 3 Ultra

SGLang 与 Miles 在发布首日即支持 NVIDIA Nemotron 3 Ultra。该模型为开放前沿推理模型，总参数 550B、激活参数 55B，采用混合 Transformer-Mamba 架构的 MoE，支持最长 1M token 上下文。针对长运行自主智能体优化，具备工具调用、编码、深度研究与编排能力，后训练使用多环境强化学习（NeMo RL）。SGLang 提供高性能推理，支持 NVFP4 和 BF16 精度，NVFP4 检查点可在 Blackwell GPU 运行；Miles 支持强化学习工作流。模型权重、数据与配方均开源。在智能体生产力、指令遵循与长上下文任务上准确率领先，成本节省高达 30%。

智能体开源生态推理模型发布

关联讨论 5 条

09:28

xAI：News（网页）

精选75

xAI 发布 Grok Imagine 1.5 预览版（图像转视频模型）

xAI 通过 API 发布了图像转视频模型 `grok-imagine-video-1.5-preview`（Grok Imagine 1.5 预览版）。该模型能将单张静态图片转为流畅的电影感视频，用户提供起始帧和描述运动的提示词后，模型可生成包含相机移动、氛围和物理效果的动画，并保持对源图像的忠实。支持生成 720p 片段，可使用自然语言指令控制镜头、节奏和音效，并支持逐帧拼接成长场景。模型目前通过 xAI API 提供预览使用。

xAI多模态模型发布视频

关联讨论 1 条

推荐理由：xAI的新视频模型从单张图像生成电影级短片，支持自然语言控制运镜和氛围，对视频创作者和开发者是个值得一试的工具。

04:26

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选71

GPT-Rosalind 新功能发布

GPT-Rosalind 在生命科学研究领域推出新功能，增强了生物推理、药物化学专业知识、基因组学分析以及实验工作流处理能力。

OpenAI推理模型发布

关联讨论 3 条

推荐理由：GPT-Rosalind 的这次更新把生物推理和药物化学能力做实了，对生命科学领域的人来说，可能比通用模型升级更关键。

00:07

Google Developers Blog（RSS）

精选78

Gemma 4 12B：开发者指南

Gemma 4 12B 是一款密集多模态模型，专为消费级设备上的高性能本地 AI 执行而设计。其采用新颖的无编码器架构，绕过传统视觉和音频编码器，将多模态数据直接输入大语言模型主干。

Google多模态模型发布端侧

关联讨论 5 条

推荐理由：Google 把多模态模型直接塞进消费级设备，靠的不再是缩水而是架构层面的创新。12B 放在本地跑，这次玩法变了。

6月2日

22:40

Hugging Face：Blog（RSS）

精选73

Holo3.1：快速本地计算机使用智能体

Holo3.1 是基于 Qwen 模型家族的计算机使用智能体系列，旨在提升在桌面、网页和移动环境中的鲁棒性。新模型提供 0.8B、4B、9B 和 35B-A3B 四种尺寸，并首次发布量化检查点，包括 FP8、Q4 GGUF 和 NVFP4，以优化本地推理。在 AndroidWorld 基准测试中，35B-A3B 模型得分从 67% 提升至 79.3%。在 DGX Spark 上，NVFP4 量化相比 BF16 实现 1.74 倍 token 吞吐量提升，并将平均步骤时间从 6.8 秒缩短至 3.3 秒。模型支持函数调用协议，可在第三方智能体框架中部署。

智能体Hugging Face开源/仓库模型发布

推荐理由：Holo3.1 把计算机使用代理从桌面扩展到了移动端，还首次放出了量化版，让本地运行真正快了起来。想做 GUI 自动化的开发者可以立刻跑起来了。

02:15

xAI：News（网页）

精选78

xAI发布Composer 2.5

xAI的最新编程模型Composer 2.5现已在Grok Build中可用，用户可通过`/models`菜单选择使用。这是一款快速、先进的模型，擅长处理长时间运行的任务和复杂指令。该模型面向SuperGrok和X Premium+用户开放。

xAI推理模型发布

关联讨论 1 条

推荐理由：xAI 的 Composer 2.5 主攻长任务和复杂指令，如果你在用 Grok 搭 Agent，这模型值得切过去试试，可能比之前的编码模型更稳。

01:59

公众号：通义实验室（千问）

精选64

Qwen3.7-Plus 多模态智能体模型发布

Qwen3.7-Plus 深度融合视觉与语言，实现“看、想、写、做、验”端到端闭环，在 12 项核心基准测试中表现提升。实测中，基于该模型的智能体连续运行超 11 小时，自动完成英语学习 APP 开发，生成代码超 10000 行、触发调用超 1000 次；复刻 macOS Stocks 应用并通过 10 项功能验证。支持图像/视频转 SVG、视觉驱动网页设计及浏览器自动化。已在阿里云百炼上线，提供 OpenAI 兼容 API 与 Anthropic 协议。

智能体多模态模型发布

关联讨论 1 条

推荐理由：Qwen3.7-Plus 把视觉智能体推到了‘能看、能想、能动手’的端到端闭环，从写代码到操作浏览器一条龙，做自动化 Agent 的团队可以直接拿来用。

01:37

Qwen：Blog Retrieval（API）

精选67

Qwen3.7-Plus：多模态智能体模型发布

阿里云通义千问推出 Qwen3.7-Plus，基于 Qwen3.7 文本骨干，增强视觉语言能力，保留编码、工具使用和生产工作流的智能体能力。它支持感知现实场景、读取并操作 GUI、从视觉参考编写代码、端到端导航手机应用、基于网络知识回答视觉问题，融合 GUI 与 CLI 交互，跨 Claude Code、OpenClaw、Qwen Code 等框架泛化。在 Terminal Bench 2.0-Terminus 得分 70.3，SWE-Verified 77.7，QwenWorldBench 62.1，GPQA Diamond 90.3，MMLU-Pro 88.5。通过阿里云 Model Studio API 提供。

智能体多模态模型发布编码

关联讨论 10 条

推荐理由：Qwen3.7-Plus 把视觉理解和 agent 操作揉到了一起，看图写代码、自主操作手机界面，对想做多模态自动化的开发者来说是个值得跑一跑的新基座。

00:38

Hugging Face：Blog（RSS）

精选71

JetBrains 发布 Mellum2：12B 参数混合专家模型

Mellum2 是 JetBrains 从头训练的 12B 参数混合专家（MoE）模型，专注于自然语言与代码。每个 token 仅激活 2.5B 参数，推理速度可达同类模型的 2 倍以上，适合高吞吐、低延迟场景。该模型支持路由、RAG、摘要、子智能体及私有部署，以 Apache 2.0 许可证开源。在代码生成、推理、科学和数学基准测试中，Mellum2 与同等规模的开放模型竞争力相当。

推理模型发布编码

推荐理由：JetBrains 开源了 Mellum2，一个激活参数仅 2.5B 的 12B MoE 模型，专为代码和问答管道设计的快模型。做实时 RAG 或子代理时，终于不用硬扛大模型了。

6月1日

13:36

Hugging Face：Blog（RSS）

75

NVIDIA 发布 Cosmos 3：首个面向物理AI推理与动作的开源全能模型

NVIDIA 发布 Cosmos 3，基于 Mixture-of-Transformers（MoT）架构的开源全能模型，统一世界生成、场景理解、因果推理和策略生成。该模型通过自回归与扩散子序列联合注意力，在单一前向过程中处理文本、图像、视频、音频和动作等多模态。本次发布包含两个版本：Cosmos 3 Nano（16B 参数，8B 推理器 + 8B 生成器，面向工作站级 GPU）和 Cosmos 3 Super（64B 参数，32B + 32B，面向 Hopper 和 Blackwell GPU，用于大规模合成数据生成与研究）。两者均已上架 Hugging Face，并提供 Diffusers 集成、GitHub 后训练脚本和开源合成数据数据集。

具身智能多模态模型发布

关联讨论 5 条

11:39

MiniMax：Blog（网页）

精选83

MiniMax M3：前沿编码、100万token上下文与原生多模态一体模型

MiniMax M3 是一个开源前沿模型，具备先进的编码与AI智能体能力。它支持100万token的超长上下文窗口，并采用名为MSA（MiniMax Sparse Attention）的新型稀疏注意力架构。该架构使模型在100万token上下文下的每token计算成本降至前代的1/20，预填充速度提升9倍以上，解码速度提升15倍以上。在SWE-Bench Pro编码基准上，MiniMax M3得分59.0%，超越GPT-5.5和Gemini 3.1 Pro，性能接近Opus 4.7。该模型可通过MiniMax Code、Token Plan和API服务使用。

多模态开源/仓库推理模型发布

关联讨论 9 条

推荐理由：MiniMax M3 把开源模型的编码能力推到了 GPT-5.5 和 Opus 4.7 这条线上，还附带 1M 上下文和原生多模态，这是开源社区真正能打的前沿选项，做 Agent 的值得立刻跑一下。

09:23

公众号：MiniMax（稀宇科技）

65

MiniMax M3 发布：1M 上下文、原生多模态、前沿编程与 Agent 能力

MiniMax M3 今日发布，采用自研 MSA 稀疏注意力架构，支持 1M 上下文窗口，100 万上下文下每 token 计算量仅为上代 1/20，prefilling 加速超 9 倍，decoding 加速超 15 倍。它是原生多模态模型，支持图片、视频输入及 Computer Use。Coding 与 Agent 能力在 SWE-Bench Pro（59.0%）、Terminal Bench 2.1（66.0%）等基准达到前沿水平。M3 是国内首个同时具备 1M 上下文、原生多模态、前沿编程与 Agent 能力的开源模型。API 已开放，按上下文分两档计价，上线首 7 天 512k 及以下 5 折。同步推出 MiniMax Code Agent 与 Token Plan 订阅（¥49/月起）。预计 10 天内发布技术报告并开源模型权重。

智能体多模态推理模型发布

关联讨论 9 条

5月30日

01:38

Google Blog：AI（RSS）

精选74

Gemini Omni 与 Gemini 3.5 的 11 个实战展示

Google 在 2026 年 Google I/O 大会上发布了新一代多模态模型 Gemini Omni 与 Gemini 3.5，并同步提供了 11 个视频，集中演示了这两款模型在实际场景中的能力。

Google多模态模型发布视频

关联讨论 5 条

推荐理由：Google 官方放出的这组视频演示，直接展示了 Gemini Omni 和 3.5 的实际表现，比参数和 benchmark 更直观，做多模态应用的可以逐帧研究。

5月29日

23:13

Qwen：Blog Retrieval（API）

精选65

Qwen-VLA：从理解世界到付诸行动

通义千问推出通用视觉-语言-动作模型Qwen-VLA，基于Qwen多模态骨干，将视觉感知、语言理解与空间推理扩展至连续动作生成和轨迹预测。训练分四阶段：文本到动作预训练（T2A）、持续预训练（CPT）、监督微调（SFT）和强化学习（RL）。在LIBERO上达97.9%，Simpler-WidowX达73.7%，RoboTwin-Easy/Hard达86.1%/87.2%，匹配或超越专精模型。数据涵盖超10,000小时公共机器人轨迹、1,000+小时内部真实轨迹及800万+合成仿真轨迹。

具身智能多模态模型发布

推荐理由：一条模型同时搞定机械臂操控、视觉导航、跨形态控制，在LIBERO上97.9%，比专用模型还高，虽然离AGI尚远，但“从看懂世界到动手干活”这一步迈得比想象中大。

22:53

公众号：通义实验室（千问）

精选61

Qwen-VLA：迈向通用具身智能的统一动作框架

通义实验室提出Qwen-VLA，以Qwen3.5-4B视觉语言主干与1.15B参数DiT动作解码器构建统一视觉-语言-动作模型。通过文本到动作DiT预训练和本体感知提示，将操作、导航与轨迹预测统一在同一框架下，支持11种机器人平台。在5个仿真基准中，单一通用模型在3个上超越最佳专用模型；ALOHA真机in-domain成功率83.6%，OOD泛化76.9%，分别超越π₀.₅超35和40个百分点；DOMINO动态操作零样本达26.6%；VLN-CE导航R2R和RxR分别达57.5%和59.6%，均超越专用模型。

具身智能模型发布

推荐理由：通义把操作、导航和轨迹预测塞进一个脑子，在11种机器人上通用，这是具身智能从'专家'走向'通才'的关键一步，做机器人的值得翻翻论文。

08:02

公众号：阶跃星辰（Step）

精选61

阶跃发布 Step 3.7 Flash，面向生产级 Agent 的高效率 Flash 模型

阶跃星辰发布并开源 Step 3.7 Flash，采用稀疏 MoE 架构（总参数 196B+1.8B，激活 11B），最高生成速度 400 Tokens/s。围绕原生多模态理解与执行、联网与视觉搜索增强、高可靠工具调用与编排、Agent 生态兼容优化四大能力优化。在 Toolathlon 达 49.5%，ClawEval-1.1 达 67.1%，GDPval 达 45.8%，τ²-bench Telecom 通过率超 98%。兼容 Claude Code、KiloCode 等主流架构及 MCP/Skills 协议，支持云端与本地部署，已在 Kilo Code 等生态中完成接入验证。

智能体MCP/工具多模态开源生态

推荐理由：Step 3.7 Flash 用激活仅 11B 的 MoE 架构把 Agent 工作流稳定性做透了，兼容主流框架还开源，对需要低延迟、高可靠性的生产环境 Agent 是真正可用的选择。

02:42

xAI：News（网页）

精选82

Grok Build 0.1 on API

xAI 的最新编码模型 Grok Build 0.1 已通过 xAI API 进入公开测试阶段。该模型专为智能体编码任务训练，支持网页开发、调试和 MCP，同时也是驱动 Grok Build CLI 的同一模型。其推理速度超过 100 tokens/秒，定价为输入 $1/m tokens，输出 $2/m tokens。除编码外，它也适用于通用智能体及工具调用场景，并可通过 OpenRouter 和 Vercel AI Gateway 获取。

xAI模型发布编码

关联讨论 5 条

推荐理由：xAI 把编码模型卷到了 100+ t/s 和 $2/M 输出，专攻 agentic coding，这是直接在叫板 Claude Code 和 Cursor，做开发工具的同行该重新算账了。

01:05

Anthropic：Newsroom（网页）

精选85

Claude Opus 4.8 发布：在编码、智能体技能与推理方面实现全面升级

Anthropic 发布了新一代模型 Claude Opus 4.8，作为 Opus 4.7 的升级版本，其在编码、智能体技能、推理和实用知识工作等各项基准测试中均取得进步。Claude Opus 4.8 现已可用，价格与前代相同。同步推出的新功能包括：用户可控制任务投入程度、Claude Code 新增“动态工作流”特性，以及 Opus 4.8 的 2.5 倍速模式价格降低为以往的三分之一。早期测试者反馈其在智能体任务中的判断力更可靠、工具调用更高效。该模型在 Online-Mind2Web 测评中得分 84%，超越了 Opus 4.7 和 GPT-5.5。此外，其诚实度与对齐表现也得到提升，代码错误漏检率降低了约 75%。

智能体Anthropic推理模型发布

关联讨论 17 条

推荐理由：Opus 4.8看着是常规升级，但动态工作流让Claude Code能啃下跨十万行代码迁移这种硬骨头，快速模式降价三倍更是直接拉低了实时场景的入场券。

5月26日

11:35

公众号：面壁智能（MiniCPM）

59

面壁智能联合清华大学、OpenBMB发布端侧文本基座模型MiniCPM5-1B

面壁智能联合清华大学、OpenBMB开源社区发布并开源MiniCPM5-1B，一款1B参数的端侧文本基座大模型。其在AA-Index榜单得分17.9分，超越所有2B以下参数模型，包括Qwen3.5-2B（16.3分），验证了智能密度约每3.5个月翻一番的密度定律。INT4量化后权重仅0.5GB，可运行于手机、浏览器等终端。Base Model由AI训练框架ForgeTrain（全球首个完全由AI编写，训练速度比Megatron快10%）在华为昇腾上预训练完成。模型全面开源权重、训练数据集Ultra-FineWeb-L3及部署方案，支持Llama_factory、SGLang、vLLM等主流框架。

Hugging Face开源生态推理模型发布

关联讨论 1 条

11:30

公众号：昆仑万维（天工）

53

天工AI发布SkyClaw-v1.0：面向真实工作流的百万上下文Agent模型

天工AI今日推出SkyClaw-v1.0及轻量版SkyClaw-v1.0-lite，支持百万token上下文，深度适配复杂工具调用、多轮任务执行、代码生成与文件编辑等智能体场景。模型在主流Agent benchmark上全面超越Minimax 2.7、DeepSeek V4 Flash及Qwen 3.6，在OpenClaw任务上接近更大规模模型，定价低于Minimax 2.7与Qwen 3.6一半。训练采用大规模mid-train、合成轨迹SFT与端到端Agentic RL优化，适配OpenClaw、Hermes、Claude Code等主流Agent框架。模型已于5月22日接入天工Skywork，开放2至4周免费试用，并提供兼容OpenAI格式的免费API调用。

智能体模型发布编码

5月25日

11:35

公众号：面壁智能（MiniCPM）

59

面壁智能联合清华开源中国首个基于昇腾训练的1.58-bit端侧大模型 BitCPM-CANN

面壁智能联合清华大学正式开源中国首个基于昇腾训练的1.58-bit端侧大模型BitCPM-CANN，实现6倍显存效率提升，可将60B参数大模型封装进手机等端侧设备。

推理模型发布端侧

5月23日

08:16

Hugging Face：Blog（RSS）

精选63

NVIDIA 发布 Nemotron-Labs Diffusion 系列模型，支持三种生成模式

NVIDIA 发布 Nemotron-Labs Diffusion 系列，含 3B、8B、14B 文本模型和 8B 视觉-语言模型（VLM），均采用商用友好的 NVIDIA Nemotron Open Model License 或 NVIDIA Source Code License。模型支持自回归、扩散（逐块并行生成后逐步精炼）和自推测（扩散草拟候选 token 再自回归验证）三种模式。8B 模型平均准确率比 Qwen3 8B 提升 1.2%，扩散模式每次前向传递的 token 数（TPF）达自回归的 2.6 倍，自推测达 6–6.4 倍。模型在 1.3T tokens 上预训练、45B tokens 上微调，代码与模型已发布于 HuggingFace 和 GitHub，推理将获 SGLang 支持。

多模态推理模型发布

推荐理由：自推测模式让文本生成速度飙到AR模型的4倍，而且输出质量无损。NVIDIA这次开源的不仅是个新模型，更是一套能直接用在现有流程里的加速方案。

5月22日

14:02

公众号：龙猫LongCat（美团）

54

从高拟真到真可用，LongCat-Video-Avatar 1.5 正式开源

美团技术团队正式开源 LongCat-Video-Avatar 1.5，该版本从高拟真走向真可用，将视频头像生成从室内彩排演练推向千人千面的真实应用场景。

图像生成模型发布视频

09:41

公众号：智谱（GLM）

精选63

智谱推出GLM-5.1高速版

智谱发布GLM-5.1高速版，推理速度达400 tokens/s，在顶尖模型中生成速度最快。

推理模型发布部署/工程

关联讨论 1 条

推荐理由：智谱把GLM-5.1做到了400 tokens/s，虽然发布已半个月，但这是国产模型在推理速度上的新标杆，做实时应用的可以看看。

02:45

Runway：News（网页）

74

Runway发布Aleph 2.0视频编辑模型及Edit Studio应用

Runway于2026年5月21日发布了视频编辑模型Aleph 2.0及其新产品Edit Studio。Aleph 2.0支持编辑最长30秒的1080p视频，具备精准局部编辑能力，可只改变指定内容而完全保留原视频其余部分。该模型引入了基于单帧图像的精确控制，并支持一次性跨多个镜头应用编辑。Edit Studio是基于这些新能力构建的应用，旨在帮助用户高效地将现有视频素材转化为所需版本，例如更换产品、调整背景或修复拍摄瑕疵。该功能现已向所有付费Runway桌面网页端用户开放，使用优惠码可享受套餐折扣。

模型发布视频

关联讨论 2 条

00:07

美团 LongCat：HuggingFace 新模型

精选73

LongCat-Video-Avatar-1.5：升级版音频驱动数字人视频生成框架

美团LongCat团队发布了LongCat-Video-Avatar-1.5，一个专注于音频驱动数字人视频生成的开源框架。其核心升级在于采用Whisper-Large音频编码器，显著优化了唇部动态的流畅度与自然度。该版本实现了精准的唇形同步、全身时序稳定性以及长视频中的身份一致性，并能泛化应用于动漫、动物及多人交互等复杂场景。通过基于DMD2的步蒸馏技术，模型仅需8步即可高效推理。团队还构建了一个涵盖多场景、多语言的人工评估基准，通过大规模主观评分与专家分析，验证了其在多项关键维度上的优异性能。

Hugging Face图像生成多模态开源/仓库

关联讨论 1 条

推荐理由：美团把数字人模型升级到1.5版，换了Whisper做音频编码，唇形同步比之前自然不少，而且开源了训练代码，做电商直播和虚拟博主的朋友可以直接拿过来跟商业方案掰手腕。

00:00

Mistral AI：News（网页）

69

Vibe中的远程智能体，由Mistral Medium 3.5驱动。介绍Mistral Medium 3.5、Vibe中的远程编程智能体，以及Le Chat中用于复杂任务的新Work模式。2026年5月22日，Mistral AI

Mistral AI发布了新模型Mistral Medium 3.5。该模型为Vibe产品中的远程编程智能体（remote coding agents）提供支持，这些智能体可在终端、IDE和后台运行。同时，Le Chat新增Work模式，专为处理复杂任务而设计。发布日期为2026年5月22日。

智能体模型发布编码

关联讨论 2 条

5月21日

16:43

公众号：腾讯混元

58

腾讯混元全新翻译模型Hy-MT2开源，小程序「腾讯Hy翻译」开放体验

开源生态模型发布

5月20日

13:53

公众号：通义实验室（千问）

55

Qwen3.5-LiveTranslate 发布：开口即同传

通义实验室（千问）发布 Qwen3.5-LiveTranslate，实现“开口即同传”——用户说话的同时即可获得翻译结果，支持实时语音同声传译。目前尚未公布模型参数规模、benchmark 分数、上下文长度等具体技术细节。

多模态模型发布语音