AIHOT

全部动态资讯 · 433 条

全部一手资讯 X 论文

6月2日周二

6月1日周一

5月30日周六

5月29日周五

6月2日

14:07

IT之家（RSS）

JetBrains 开源 Mellum2 模型：12B 参数，升级为 AI 智能体编程助手

JetBrains 开源了面向软件工程的模型 Mellum2。该模型总规模为 12B 参数，采用稀疏 Mixture-of-Experts 框架，激活参数量为 2.5B。上下文窗口扩展至 131072 Token。Mellum2 支持生成编辑代码、调用外部工具及执行多步骤智能体式工作流。模型基础版、指令版和思考版均以 Apache 2.0 许可证开源。

开源生态模型发布编码

10:07

IT之家（RSS）

AI 气象模型 WeatherMesh-6 发布，预报精度超欧洲政府机构顶尖系统

初创企业 WindBorne Systems 今日发布第六代气象模型 WeatherMesh-6。该模型预报精度已超越欧洲中期天气预报中心（ECMWF）的传统与AI预报产品，其提前五天的地表气温预报准确度相当于传统模型提前一天的水平。WindBorne Systems 通过全球15个站点约400只探空气球自主采集数据，形成“自研模型+自主数据源”的核心优势。该公司于2024年完成2500万美元融资，估值8500万美元。

数据/训练模型发布

09:07

IT之家（RSS）

微软首个自研推理 AI 模型 MAI-Thinking-1、新 Copilot 超级应用曝光

微软将在 Build 2026 大会上发布首个自研推理模型 MAI-Thinking-1，该模型未使用其他模型输出进行知识蒸馏训练。同期还将发布 MAI-Image-2.5 和 MAI-Image-2.5-Flash 图像生成模型，以完善其自有模型矩阵。此外，微软可能展示整合了多个 AI 助手及 Scout AI agent 的 Copilot 超级应用新形态，但该功能测试版预计要到夏末才会推出。

Microsoft推理模型发布

07:07

IT之家（RSS）

阿里发布 Qwen3.7-Plus 模型，升级多模态交互混合 AI 智能体

阿里通义千问（Qwen）于6月2日发布新模型 Qwen3.7-Plus，定位为多模态交互混合智能体基座。它是 Qwen3.7 的升级版，在保留文本、编码和工具使用能力的基础上，显著强化了视觉理解与视觉推理能力，支持图像、视频、屏幕、网页和文本输入，面向复杂软件与办公流程。该模型在 Vision Arena 评测中帮助阿里进入全球前 5、中国第 1，并在 BabyVision、MathVision 等多模态测试中提升明显。模型已通过阿里云百炼和 Qwen Studio 提供服务。

智能体多模态模型发布

关联讨论 10 条

04:41

MarkTechPost（RSS）

MiniMax 发布 MiniMax M3：支持 MSA 架构、1M Token 上下文、原生多模态与智能体编程

MiniMax 发布了新模型 MiniMax M3，引入了 MiniMax Sparse Attention (MSA) 架构。该模型支持高达 1M token 的上下文窗口，并具备原生的图像、视频和计算机使用能力，面向智能体编程场景。

智能体多模态模型发布

02:15

xAI：News（网页）

精选78

xAI发布Composer 2.5

xAI的最新编程模型Composer 2.5现已在Grok Build中可用，用户可通过`/models`菜单选择使用。这是一款快速、先进的模型，擅长处理长时间运行的任务和复杂指令。该模型面向SuperGrok和X Premium+用户开放。

xAI推理模型发布

关联讨论 1 条

推荐理由：xAI 的 Composer 2.5 主攻长任务和复杂指令，如果你在用 Grok 搭 Agent，这模型值得切过去试试，可能比之前的编码模型更稳。

01:59

公众号：通义实验室（千问）

精选64

Qwen3.7-Plus 多模态智能体模型发布

Qwen3.7-Plus 深度融合视觉与语言，实现“看、想、写、做、验”端到端闭环，在 12 项核心基准测试中表现提升。实测中，基于该模型的智能体连续运行超 11 小时，自动完成英语学习 APP 开发，生成代码超 10000 行、触发调用超 1000 次；复刻 macOS Stocks 应用并通过 10 项功能验证。支持图像/视频转 SVG、视觉驱动网页设计及浏览器自动化。已在阿里云百炼上线，提供 OpenAI 兼容 API 与 Anthropic 协议。

智能体多模态模型发布

关联讨论 1 条

推荐理由：Qwen3.7-Plus 把视觉智能体推到了‘能看、能想、能动手’的端到端闭环，从写代码到操作浏览器一条龙，做自动化 Agent 的团队可以直接拿来用。

01:37

Qwen：Blog Retrieval（API）

精选67

Qwen3.7-Plus：多模态智能体模型发布

阿里云通义千问推出 Qwen3.7-Plus，基于 Qwen3.7 文本骨干，增强视觉语言能力，保留编码、工具使用和生产工作流的智能体能力。它支持感知现实场景、读取并操作 GUI、从视觉参考编写代码、端到端导航手机应用、基于网络知识回答视觉问题，融合 GUI 与 CLI 交互，跨 Claude Code、OpenClaw、Qwen Code 等框架泛化。在 Terminal Bench 2.0-Terminus 得分 70.3，SWE-Verified 77.7，QwenWorldBench 62.1，GPQA Diamond 90.3，MMLU-Pro 88.5。通过阿里云 Model Studio API 提供。

智能体多模态模型发布编码

关联讨论 10 条

推荐理由：Qwen3.7-Plus 把视觉理解和 agent 操作揉到了一起，看图写代码、自主操作手机界面，对想做多模态自动化的开发者来说是个值得跑一跑的新基座。

01:03

Hacker News 热门（buzzing.cc 中文翻译）

英伟达 Cosmos 3

英伟达发布了 Cosmos 3，这是一个用于物理 AI 推理的世界和行动模型。该信息来源于英伟达开发者博客，发布日期为 2026 年 6 月 1 日。

具身智能模型发布视频

关联讨论 3 条

00:38

Hugging Face：Blog（RSS）

精选71

JetBrains 发布 Mellum2：12B 参数混合专家模型

Mellum2 是 JetBrains 从头训练的 12B 参数混合专家（MoE）模型，专注于自然语言与代码。每个 token 仅激活 2.5B 参数，推理速度可达同类模型的 2 倍以上，适合高吞吐、低延迟场景。该模型支持路由、RAG、摘要、子智能体及私有部署，以 Apache 2.0 许可证开源。在代码生成、推理、科学和数学基准测试中，Mellum2 与同等规模的开放模型竞争力相当。

推理模型发布编码

推荐理由：JetBrains 开源了 Mellum2，一个激活参数仅 2.5B 的 12B MoE 模型，专为代码和问答管道设计的快模型。做实时 RAG 或子代理时，终于不用硬扛大模型了。

00:05

TechCrunch：AI（RSS）

这家AI气象初创公司的预测表现超越政府机构

Windborne Systems 推出了最新的天气预报模型，其预测结果能够比现有的最佳政府预测提前数天。

数据/训练模型发布

6月1日

22:05

The Decoder：AI News（RSS）

MiniMax M3：具有百万token上下文窗口的开源权重模型挑战闭源领先者

中国AI公司MiniMax发布了新模型M3。它被定位为首个同时具备顶级编码性能、100万token上下文窗口以及原生多模态能力的开源权重模型。

多模态模型发布编码

21:35

The Decoder：AI News（RSS）

Nvidia在GTC台北大会押注物理AI：发布新世界模型、驾驶大脑及开源人形机器人

Nvidia在GTC台北大会上发布了一系列面向机器人、自动驾驶和视频系统的模型。核心发布包括升级版世界模型Cosmos 3、显著扩展规模的驾驶模型Alpamayo 2 Super，以及一个开源的人形机器人参考平台。这些产品共同推进了其在物理AI领域的布局。

具身智能开源/仓库模型发布

21:35

The Decoder：AI News（RSS）

Nvidia的Nemotron 3 Ultra成为最聪明的美国开源模型，但中国仍然领先

根据Artificial Analysis基准评估，Nvidia发布的Nemotron 3 Ultra模型被评为目前最强大的美国开源大语言模型。但这一成就并未改变中国在开源大语言模型领域仍然保持领先的格局。

开源生态推理模型发布

14:04

IT之家（RSS）

让机器人看懂世界：英伟达推出全球首款全开源全模态物理 AI 大模型 Cosmos 3

英伟达推出全球首款全开源全模态物理AI大模型Cosmos 3。该模型基于混合Transformer架构，可在单一系统中融合文本、图像、视频、音效及动作内容的理解与生成，将物理AI的训练与评估周期从数月缩短至数日。Cosmos 3在Artificial Analysis、Physics-IQ等多个评测基准上排名第一，提供Super和Nano版本用于机器人与自动驾驶的训练与实时推理，Edge版本即将推出。

具身智能多模态开源生态模型发布

关联讨论 3 条

13:36

Hugging Face：Blog（RSS）

NVIDIA 发布 Cosmos 3：首个面向物理AI推理与动作的开源全能模型

NVIDIA 发布 Cosmos 3，基于 Mixture-of-Transformers（MoT）架构的开源全能模型，统一世界生成、场景理解、因果推理和策略生成。该模型通过自回归与扩散子序列联合注意力，在单一前向过程中处理文本、图像、视频、音频和动作等多模态。本次发布包含两个版本：Cosmos 3 Nano（16B 参数，8B 推理器 + 8B 生成器，面向工作站级 GPU）和 Cosmos 3 Super（64B 参数，32B + 32B，面向 Hopper 和 Blackwell GPU，用于大规模合成数据生成与研究）。两者均已上架 Hugging Face，并提供 Diffusers 集成、GitHub 后训练脚本和开源合成数据数据集。

具身智能多模态模型发布

关联讨论 3 条

13:04

IT之家（RSS）

英伟达开源5500亿参数Nemotron 3 Ultra模型

英伟达发布面向AI智能体的开源模型Nemotron 3 Ultra，其为5500亿参数的混合专家模型。相较于同级别开源模型，该模型推理速度最高提升5倍，使用成本最高降低30%。模型已适配Hermes Agent、LangChain Deep Agents等主流框架，并已助力CrowdStrike、Palantir等企业构建智能体系统。该模型预计于6月4日通过Hugging Face、ModelScope等平台以NVIDIA NIM微服务形式提供。

智能体开源生态模型发布

关联讨论 5 条

13:04

IT之家（RSS）

英伟达推出 Alpamayo 2 Super 开源推理模型，助力 L4 自动驾驶研发

英伟达开源了 Alpamayo 2 Super 视觉-语言-动作（VLA）模型，参数规模从 100 亿增至 320 亿。该模型支持 360 度感知与推理式自动标注，专为研发 L4 自动驾驶设计。模型可通过知识蒸馏压缩，部署于 DRIVE AGX Thor 芯片。代码与权重将在夏季于 GitHub 和 Hugging Face 开源。

具身智能多模态推理模型发布

12:03

IT之家（RSS）

精选81

黄仁勋：英伟达下一代 AI 超级芯片平台 Vera Rubin 全面投产

英伟达 CEO 黄仁勋在 2026 台北电脑展宣布，下一代 AI 超级芯片平台 Vera Rubin 全面投产。该平台是 POD 级基础架构，与上一代 Grace Blackwell 平台相比，其大规模智能体吞吐量提高了 10 倍。凭借开源 MGX 设计，其供应链规模是 Grace Blackwell 的两倍，产品预计于今年秋季开始发货。

推理数据/训练模型发布

推荐理由：Vera Rubin 全面投产，智能体吞吐量提升 10 倍，供应链规模翻倍，这是英伟达给 AI 算力瓶颈的一记重拳，做智能体应用的同行该开始计划升级硬件了。

11:39

MiniMax：Blog（网页）

精选83

MiniMax M3：前沿编码、100万token上下文与原生多模态一体模型

MiniMax M3 是一个开源前沿模型，具备先进的编码与AI智能体能力。它支持100万token的超长上下文窗口，并采用名为MSA（MiniMax Sparse Attention）的新型稀疏注意力架构。该架构使模型在100万token上下文下的每token计算成本降至前代的1/20，预填充速度提升9倍以上，解码速度提升15倍以上。在SWE-Bench Pro编码基准上，MiniMax M3得分59.0%，超越GPT-5.5和Gemini 3.1 Pro，性能接近Opus 4.7。该模型可通过MiniMax Code、Token Plan和API服务使用。

多模态开源/仓库推理模型发布

关联讨论 8 条

推荐理由：MiniMax M3 把开源模型的编码能力推到了 GPT-5.5 和 Opus 4.7 这条线上，还附带 1M 上下文和原生多模态，这是开源社区真正能打的前沿选项，做 Agent 的值得立刻跑一下。

09:28

IT之家（RSS）

首个三项能力兼备的国产旗舰模型：MiniMax M3 发布，百万上下文、原生多模态

MiniMax 发布旗舰大语言模型 M3，宣称是首个同时具备编码与智能体能力、百万上下文与原生多模态的国产模型。模型基于自研 MSA 架构，API 上下文窗口最高支持 1M tokens，保障至少 512K 可用。在 BrowseComp 智能体评测中，M3 以 83.5 分超越 Opus 4.7（79.3）。官方提供 M3 与 M3-highspeed 两个版本 API，标准版定价为输入 2.1 元、输出 8.4 元/百万 tokens（上下文≤512K，限时五折），并即将在 HuggingFace 与 GitHub 开源。

智能体多模态推理模型发布

关联讨论 8 条

09:23

公众号：MiniMax（稀宇科技）

MiniMax M3 发布：1M 上下文、原生多模态、前沿编程与 Agent 能力

MiniMax M3 今日发布，采用自研 MSA 稀疏注意力架构，支持 1M 上下文窗口，100 万上下文下每 token 计算量仅为上代 1/20，prefilling 加速超 9 倍，decoding 加速超 15 倍。它是原生多模态模型，支持图片、视频输入及 Computer Use。Coding 与 Agent 能力在 SWE-Bench Pro（59.0%）、Terminal Bench 2.1（66.0%）等基准达到前沿水平。M3 是国内首个同时具备 1M 上下文、原生多模态、前沿编程与 Agent 能力的开源模型。API 已开放，按上下文分两档计价，上线首 7 天 512k 及以下 5 折。同步推出 MiniMax Code Agent 与 Token Plan 订阅（¥49/月起）。预计 10 天内发布技术报告并开源模型权重。

智能体多模态推理模型发布

关联讨论 8 条

02:16

Hacker News 热门（buzzing.cc 中文翻译）

本地设备 AI 图像生成模型 1-Bit Bonsai Image 4B 发布

1-Bit Bonsai Image 4B 是一款新的 AI 图像生成模型，其主要特点是面向本地设备进行优化，可以在用户的本地硬件上运行。这是一款专注于端侧部署的图像生成解决方案。

图像生成开源生态模型发布端侧

5月30日

23:24

IT之家（RSS）

2B 参数"四两拨千斤"，智元自研世界模型 GE 2.0 登顶 WorldArena 榜单

具身智能模型发布

05:48

MarkTechPost（RSS）

阶跃星辰发布 Step 3.7 Flash：一款面向编程智能体与搜索工作流的 198B MoE 视觉语言模型

阶跃星辰发布 Step 3.7 Flash，这是一款参数规模为 198B 的 MoE 架构视觉语言模型。该模型具备原生视觉能力，支持 256k 上下文窗口，并引入了 Advisor Mode。模型主要面向编程智能体与搜索工作流等应用场景。

多模态模型发布编码

05:40

Hacker News 热门（buzzing.cc 中文翻译）

Liquid AI 公布了在 38T 数据集上训练的 8B-A1B MoE 模型

Liquid AI 发布了其 LFM2-5 系列的 8B-A1B 模型，该模型采用混合专家（MoE）架构，在包含 38T token 的数据集上训练完成。

数据/训练模型发布

01:38

Google Blog：AI（RSS）

精选74

Gemini Omni 与 Gemini 3.5 的 11 个实战展示

Google 在 2026 年 Google I/O 大会上发布了新一代多模态模型 Gemini Omni 与 Gemini 3.5，并同步提供了 11 个视频，集中演示了这两款模型在实际场景中的能力。

Google多模态模型发布视频

关联讨论 5 条

推荐理由：Google 官方放出的这组视频演示，直接展示了 Gemini Omni 和 3.5 的实际表现，比参数和 benchmark 更直观，做多模态应用的可以逐帧研究。

01:14

The Decoder：AI News（RSS）

OpenAI 免费提供其生命科学AI模型，帮助各国政府为下一次大流行做好准备

OpenAI 通过新的 Rosalind 生物防御计划，免费提供其生命科学模型 GPT-Rosalind，旨在加强大流行防范和生物防御。早期合作伙伴包括劳伦斯利弗莫尔国家实验室、约翰霍普金斯大学以及疫苗倡议组织 CEPI。该计划现已向全球开放申请。

OpenAI模型发布

5月29日

23:13

Qwen：Blog Retrieval（API）

精选65

Qwen-VLA：从理解世界到付诸行动

通义千问推出通用视觉-语言-动作模型Qwen-VLA，基于Qwen多模态骨干，将视觉感知、语言理解与空间推理扩展至连续动作生成和轨迹预测。训练分四阶段：文本到动作预训练（T2A）、持续预训练（CPT）、监督微调（SFT）和强化学习（RL）。在LIBERO上达97.9%，Simpler-WidowX达73.7%，RoboTwin-Easy/Hard达86.1%/87.2%，匹配或超越专精模型。数据涵盖超10,000小时公共机器人轨迹、1,000+小时内部真实轨迹及800万+合成仿真轨迹。

具身智能多模态模型发布

推荐理由：一条模型同时搞定机械臂操控、视觉导航、跨形态控制，在LIBERO上97.9%，比专用模型还高，虽然离AGI尚远，但“从看懂世界到动手干活”这一步迈得比想象中大。

22:53

公众号：通义实验室（千问）

精选61

Qwen-VLA：迈向通用具身智能的统一动作框架

通义实验室提出Qwen-VLA，以Qwen3.5-4B视觉语言主干与1.15B参数DiT动作解码器构建统一视觉-语言-动作模型。通过文本到动作DiT预训练和本体感知提示，将操作、导航与轨迹预测统一在同一框架下，支持11种机器人平台。在5个仿真基准中，单一通用模型在3个上超越最佳专用模型；ALOHA真机in-domain成功率83.6%，OOD泛化76.9%，分别超越π₀.₅超35和40个百分点；DOMINO动态操作零样本达26.6%；VLN-CE导航R2R和RxR分别达57.5%和59.6%，均超越专用模型。

具身智能模型发布

推荐理由：通义把操作、导航和轨迹预测塞进一个脑子，在11种机器人上通用，这是具身智能从'专家'走向'通才'的关键一步，做机器人的值得翻翻论文。

19:19

Artificial Intelligence News（RSS）

Anthropic发布Claude Opus 4.8

Anthropic发布了Claude Opus 4.8，这是对Claude Opus 4.7的升级，改进了编码、智能体工作、推理和知识工作方面的表现。该模型可通过claude.ai、Claude Code和Claude API使用，API名称为claude-opus-4-8。

智能体Anthropic推理模型发布

17:21

IT之家（RSS）

精选74

小米开源可控视频音效生成模型 ControlFoley，让声音"按你想要的来"

小米大模型应用团队发布开源可控视频音效生成模型 ControlFoley，旨在解决创作中的可控性难题。该模型统一支持文本引导视频配音、文本控制视频配音和参考音频控制视频配音三类任务。ControlFoley 在 VGGSound-Test 等多个 benchmark 上取得开源 SOTA 表现，其代码、模型权重和在线 Demo 均已开放。

多模态开源生态模型发布语音

推荐理由：小米开源的 ControlFoley 把视频音效生成从“看画面配声音”推进到“按意图来”，开源 SOTA 且直接提供 Skill，做视频创作的可以上手试试。

09:21

IT之家（RSS）

阶跃星辰开源 Step 3.7 Flash 模型，最高生成速度每秒 400 Tokens

智能体Hugging Face多模态模型发布

关联讨论 2 条

08:02

公众号：阶跃星辰（Step）

精选61

阶跃发布 Step 3.7 Flash，面向生产级 Agent 的高效率 Flash 模型

阶跃星辰发布并开源 Step 3.7 Flash，采用稀疏 MoE 架构（总参数 196B+1.8B，激活 11B），最高生成速度 400 Tokens/s。围绕原生多模态理解与执行、联网与视觉搜索增强、高可靠工具调用与编排、Agent 生态兼容优化四大能力优化。在 Toolathlon 达 49.5%，ClawEval-1.1 达 67.1%，GDPval 达 45.8%，τ²-bench Telecom 通过率超 98%。兼容 Claude Code、KiloCode 等主流架构及 MCP/Skills 协议，支持云端与本地部署，已在 Kilo Code 等生态中完成接入验证。

智能体MCP/工具多模态开源生态

推荐理由：Step 3.7 Flash 用激活仅 11B 的 MoE 架构把 Agent 工作流稳定性做透了，兼容主流框架还开源，对需要低延迟、高可靠性的生产环境 Agent 是真正可用的选择。

08:00

HuggingFace Daily Papers（社区热门论文）

Mellum2 技术报告

Mellum 2 是一个开源的 12B 参数 MoE 大语言模型，每个 token 有 2.5B 活跃参数，专注于软件工程任务，是 Mellum 的后继版本。其架构基于 64 专家、8 激活的 MoE，并融合了分组查询注意力、滑动窗口注意力和多 token 预测头。模型在约 10.6 万亿 token 上进行三阶段预训练，并通过 YaRN 扩展至 128K 上下文窗口，之后经过监督微调与 RLVR 后训练，发布了直答式（Instruct）和带推理链（Thinking）两个变体。在多项基准测试中，其性能可与 4B-14B 范围的开源模型竞争，而计算成本仅相当于 2.5B 稠密模型。所有检查点以 Apache 2.0 许可证发布。

开源/仓库推理模型发布编码

07:48

MarkTechPost（RSS）

Liquid AI 发布 LFM2.5-8B-A1B：一款支持设备端部署的混合专家架构模型，总参数 8.3B，活跃参数 1.5B

Liquid AI 发布了 LFM2.5-8B-A1B 模型。这是一款混合专家架构模型，总参数量为 8.3B，每次推理仅激活其中的 1.5B 参数。该模型支持 128K 上下文窗口，具备推理和工具调用能力，可在消费级硬件上本地运行。

模型发布端侧

07:21

IT之家（RSS）

Claude Opus 4.8 上线：提升 AI 编程可靠性，减少无依据结论

Anthropic推理模型发布编码

06:18

MarkTechPost（RSS）

Anthropic发布Claude Opus 4.8，同步推出动态工作流与更便宜的快速模式，工作流最多支持1000个子智能体

Anthropic推出Claude Opus 4.8，在Claude Code中引入动态工作流和更便宜的快速模式，目前处于研究预览阶段。工作流最多可调用1000个子智能体执行任务。

Anthropic模型发布编码

关联讨论 16 条

05:42

The Decoder：AI News（RSS）

Anthropic 发布 Claude Opus 4.8：被称作"小幅但实在的改进"，在多数基准测试中超越 GPT-5.5

Anthropic 发布其最新模型 Claude Opus 4.8。该模型在大多数基准测试中超越了 GPT-5.5 和 Gemini 3.1 Pro。其代码错误自动捕获能力是前代产品的四倍。同步推出动态工作流功能，可启动数百个并行子智能体来处理跨代码库迁移等任务。

Anthropic推理模型发布

关联讨论 16 条

02:42

xAI：News（网页）

精选82

Grok Build 0.1 on API

xAI 的最新编码模型 Grok Build 0.1 已通过 xAI API 进入公开测试阶段。该模型专为智能体编码任务训练，支持网页开发、调试和 MCP，同时也是驱动 Grok Build CLI 的同一模型。其推理速度超过 100 tokens/秒，定价为输入 $1/m tokens，输出 $2/m tokens。除编码外，它也适用于通用智能体及工具调用场景，并可通过 OpenRouter 和 Vercel AI Gateway 获取。

xAI模型发布编码

关联讨论 5 条

推荐理由：xAI 把编码模型卷到了 100+ t/s 和 $2/M 输出，专攻 agentic coding，这是直接在叫板 Claude Code 和 Cursor，做开发工具的同行该重新算账了。