微软在 Build 2026 开发者大会上发布了其首个高级推理 AI 模型 MAI-Thinking-1。该模型是此次发布的七款新模型之一,标志着微软在提升模型复杂推理能力方面迈出新步伐。
微软在 Build 2026 开发者大会上发布了其首个高级推理 AI 模型 MAI-Thinking-1。该模型是此次发布的七款新模型之一,标志着微软在提升模型复杂推理能力方面迈出新步伐。
Mustafa Suleyman, Microsoft AI: 7 new Microsoft Models, no end in sight when it comes to development, orders of magnitud...
微软AI发布了MAI-Transcribe-1.5语音转录模型。该模型在AA-WER排行榜上位列第三,词错误率(WER)为2.4%,仅次于阿里巴巴的Fun-Realtime-ASR-preview(1.7%)和ElevenLabs Scribe v2(2.2%)。其主要特点是速度极快,处理速度约为276倍实时,是准确率前十模型中第二快模型速度的两倍以上,因此在准确率-速度帕累托前沿上处于领先地位。模型还支持关键词偏差识别,并涵盖包括英语、法语、阿拉伯语、日语和中文在内的43种语言。
微软在Build 2026上发布了其首款高级推理AI模型MAI-Thinking-1。该模型被定位为“中等规模”,能在“关键”软件工程基准测试中达到领先模型的水平。微软称其完全从头使用干净数据进行训练,未涉及从第三方模型进行知识蒸馏。这标志着微软在自研AI模型上迈出重要一步,此前其主要依赖OpenAI。近期两家公司已重新协商合作协议,关系有所松绑。
关联讨论 4 条X:Rohan Paul (@rohanpaul_ai)X:Satya Nadella (@satyanadella)Hacker News 热门(buzzing.cc 中文翻译)The Decoder:AI News(RSS)微软在官网更新了 MAI 模型系列,重点发布了 MAI Code 1 Flash 和 MAI Thinking 1。MAI Thinking 1 拥有 35B 活跃参数和约 1T 总参数,采用 MoE 架构,其推理成本低于更大型模型,但在 SWE-Bench Pro 上的表现可与 Claude Opus 4.6 竞争。MAI Code 1 Flash 则专注于通过规划和推理来完成端到端的复杂编码任务。此外,MAI Image 2.5、MAI Voice 2 及 MAI Transcribe 1.5 也同步上线。
Krea AI自研的文生图模型Krea 2 Medium在Artificial Analysis排行榜上位列第6,仅落后于OpenAI、Google和NVIDIA的模型。值得注意的是,体积更小、速度更快的Medium版本在排名上超过了定位更强大的Large版本。两款模型均支持通过API进行风格迁移和创意控制等操作,生成1K分辨率图像。定价方面,Krea 2 Medium为30美元/千张,Krea 2 Large为60美元/千张。
Holo3.1 是基于 Qwen 模型家族的计算机使用智能体系列,旨在提升在桌面、网页和移动环境中的鲁棒性。新模型提供 0.8B、4B、9B 和 35B-A3B 四种尺寸,并首次发布量化检查点,包括 FP8、Q4 GGUF 和 NVFP4,以优化本地推理。在 AndroidWorld 基准测试中,35B-A3B 模型得分从 67% 提升至 79.3%。在 DGX Spark 上,NVFP4 量化相比 BF16 实现 1.74 倍 token 吞吐量提升,并将平均步骤时间从 6.8 秒缩短至 3.3 秒。模型支持函数调用协议,可在第三方智能体框架中部署。
The open-weight labs did not come to play this week. StepFun dropped Step 3.7 Flash. MiniMax dropped M3. Both with open ...
关联讨论 3 条X:阶跃星辰 StepFun (@StepFun_ai)IT之家(RSS)X:OpenRouter (@OpenRouter)通义千问(Qwen)团队在百炼平台发布了多模态智能体模型 Qwen3.7-Plus。该模型能理解图像和视频,并新增了自我编程、工具调用、深度推理和自主迭代能力。
Introducing MiniMax M3: The First Open-Weights Model to Combine Three Frontier Capabilities - Coding & Agentic Frontier:...
关联讨论 10 条X:MiniMax (@MiniMax_AI)IT之家(RSS)MiniMax:Blog(网页)X:Testing Catalog (@testingcatalog)公众号:MiniMax(稀宇科技)X:opencode (@opencode)X:OpenRouter (@OpenRouter)X:歸藏 (@op7418)X:karminski (@karminski3)X:硅基流动 SiliconFlow (@SiliconFlowAI)JetBrains 发布开源模型 Mellum2。该模型为 12B 参数的 MoE 架构,在 10.6 万亿个 token 上训练,采用 Apache 2.0 许可,专为多模型 AI 流水线中的快速、专用任务设计。
JetBrains 开源了面向软件工程的模型 Mellum2。该模型总规模为 12B 参数,采用稀疏 Mixture-of-Experts 框架,激活参数量为 2.5B。上下文窗口扩展至 131072 Token。Mellum2 支持生成编辑代码、调用外部工具及执行多步骤智能体式工作流。模型基础版、指令版和思考版均以 Apache 2.0 许可证开源。
A Lab note for Step 3.7 Flash launch. -- When Flash models bring speed, cost, and intelligence into the "usable" range a...
关联讨论 3 条X:阶跃星辰 StepFun (@StepFun_ai)IT之家(RSS)X:OpenRouter (@OpenRouter)SenseNova U1 just released an infographic-specialized version and +18.2 on IGenBench Q-ACC isn't a rounding error. It me...
关联讨论 1 条X:商汤 SenseTime (@SenseTime_AI)AI-generated infographics with garbled text have been a running joke. SenseNova U1's new infographic-enhanced model fina...
关联讨论 1 条X:商汤 SenseTime (@SenseTime_AI)Many research labs only consider inference efficiency after the fact. Step 3.7 Flash is a 196B MoE model, and built for ...
关联讨论 3 条X:阶跃星辰 StepFun (@StepFun_ai)IT之家(RSS)X:OpenRouter (@OpenRouter)Introducing MiniMax M3: The First Open-Weights Model to Combine Three Frontier Capabilities - Coding & Agentic Frontier:...
关联讨论 10 条X:MiniMax (@MiniMax_AI)IT之家(RSS)MiniMax:Blog(网页)X:Testing Catalog (@testingcatalog)公众号:MiniMax(稀宇科技)X:opencode (@opencode)X:OpenRouter (@OpenRouter)X:歸藏 (@op7418)X:karminski (@karminski3)X:硅基流动 SiliconFlow (@SiliconFlowAI)阿里云推出Qwen3.7-Plus,这是一个统一视觉与语言的多模态智能体模型。其定位为多功能编码智能体与生产力助手,支持全模态输入,能够跨GUI与CLI执行任务。该模型具备视觉智能体能力,涵盖感知、推理、定位及搜索增强问答,并能跨多种智能体框架泛化。目前已在阿里云百炼平台通过API上线。
关联讨论 9 条X:OpenRouter (@OpenRouter)Hacker News 热门(buzzing.cc 中文翻译)IT之家(RSS)X:阿里云 / Alibaba Cloud (@alibaba_cloud)Qwen:Blog Retrieval(API)X:通义千问 / Qwen (@Alibaba_Qwen)X:X.PIN (@thexpin)X:Rohan Paul (@rohanpaul_ai)X:opencode (@opencode)初创企业 WindBorne Systems 今日发布第六代气象模型 WeatherMesh-6。该模型预报精度已超越欧洲中期天气预报中心(ECMWF)的传统与AI预报产品,其提前五天的地表气温预报准确度相当于传统模型提前一天的水平。WindBorne Systems 通过全球15个站点约400只探空气球自主采集数据,形成“自研模型+自主数据源”的核心优势。该公司于2024年完成2500万美元融资,估值8500万美元。
微软将在 Build 2026 大会上发布首个自研推理模型 MAI-Thinking-1,该模型未使用其他模型输出进行知识蒸馏训练。同期还将发布 MAI-Image-2.5 和 MAI-Image-2.5-Flash 图像生成模型,以完善其自有模型矩阵。此外,微软可能展示整合了多个 AI 助手及 Scout AI agent 的 Copilot 超级应用新形态,但该功能测试版预计要到夏末才会推出。
MiniMax M3 is available on AI Gateway. MiniMax's first long-context model, with support for multimodal inputs. 50% off f...
关联讨论 10 条X:MiniMax (@MiniMax_AI)IT之家(RSS)MiniMax:Blog(网页)X:Testing Catalog (@testingcatalog)公众号:MiniMax(稀宇科技)X:opencode (@opencode)X:OpenRouter (@OpenRouter)X:歸藏 (@op7418)X:karminski (@karminski3)X:硅基流动 SiliconFlow (@SiliconFlowAI)MiniMax开源发布了国内首个集成前沿Coding能力、1M超长上下文和原生多模态的模型M3。该模型能在24小时内自主完成145次CUDA算子迭代。与此同时,xAI前负责人指出,视频模型的上限将由LLM决定,下一个类似Sora的产品应是视频Agent,而非单纯的视频生成模型。
阿里云发布了 Qwen3.7-Plus,这是一款统一了视觉与语言能力的多模态代理模型。该模型旨在成为通用的代理基础,支持图形界面与命令行操作,能够处理视觉和文本任务,充当编程代理和效率助手。其能力涵盖视觉感知、推理、目标定位以及搜索增强问答,并可跨多种代理框架进行泛化。该模型现已在阿里云百炼平台提供 API 服务。
关联讨论 9 条X:OpenRouter (@OpenRouter)Hacker News 热门(buzzing.cc 中文翻译)IT之家(RSS)X:阿里云 / Alibaba Cloud (@alibaba_cloud)Qwen:Blog Retrieval(API)X:通义千问 / Qwen (@Alibaba_Qwen)X:X.PIN (@thexpin)X:Rohan Paul (@rohanpaul_ai)X:opencode (@opencode)M3 from @MiniMax_AI is now available on Cloudflare AI Gateway: - First open model to push SOTA coding frontier - 1M cont...
关联讨论 10 条X:MiniMax (@MiniMax_AI)IT之家(RSS)MiniMax:Blog(网页)X:Testing Catalog (@testingcatalog)公众号:MiniMax(稀宇科技)X:opencode (@opencode)X:OpenRouter (@OpenRouter)X:歸藏 (@op7418)X:karminski (@karminski3)X:硅基流动 SiliconFlow (@SiliconFlowAI)阿里通义千问(Qwen)于6月2日发布新模型 Qwen3.7-Plus,定位为多模态交互混合智能体基座。它是 Qwen3.7 的升级版,在保留文本、编码和工具使用能力的基础上,显著强化了视觉理解与视觉推理能力,支持图像、视频、屏幕、网页和文本输入,面向复杂软件与办公流程。该模型在 Vision Arena 评测中帮助阿里进入全球前 5、中国第 1,并在 BabyVision、MathVision 等多模态测试中提升明显。模型已通过阿里云百炼和 Qwen Studio 提供服务。
关联讨论 9 条X:OpenRouter (@OpenRouter)Hacker News 热门(buzzing.cc 中文翻译)IT之家(RSS)X:阿里云 / Alibaba Cloud (@alibaba_cloud)Qwen:Blog Retrieval(API)X:通义千问 / Qwen (@Alibaba_Qwen)X:X.PIN (@thexpin)X:Rohan Paul (@rohanpaul_ai)X:opencode (@opencode)MiniMax 发布了新模型 MiniMax M3,引入了 MiniMax Sparse Attention (MSA) 架构。该模型支持高达 1M token 的上下文窗口,并具备原生的图像、视频和计算机使用能力,面向智能体编程场景。
👏👏 Introducing Qwen3.7-Plus - a multimodal agent model that unifies vision and language into one versatile agent found...
关联讨论 9 条X:OpenRouter (@OpenRouter)Hacker News 热门(buzzing.cc 中文翻译)IT之家(RSS)X:阿里云 / Alibaba Cloud (@alibaba_cloud)Qwen:Blog Retrieval(API)X:通义千问 / Qwen (@Alibaba_Qwen)X:X.PIN (@thexpin)X:Rohan Paul (@rohanpaul_ai)X:opencode (@opencode)MiniMax M3 turned a napkin sketch into a playable game We handed MiniMax M3 a hand-drawn draft of a Doodle Jump style pl...
MiniMax M3 @MiniMax_AI is now live on Happycapy 🎉 A major upgrade for agent workflows, especially when the task is mess...
关联讨论 10 条X:MiniMax (@MiniMax_AI)IT之家(RSS)MiniMax:Blog(网页)X:Testing Catalog (@testingcatalog)公众号:MiniMax(稀宇科技)X:opencode (@opencode)X:OpenRouter (@OpenRouter)X:歸藏 (@op7418)X:karminski (@karminski3)X:硅基流动 SiliconFlow (@SiliconFlowAI)xAI的最新编程模型Composer 2.5现已在Grok Build中可用,用户可通过`/models`菜单选择使用。这是一款快速、先进的模型,擅长处理长时间运行的任务和复杂指令。该模型面向SuperGrok和X Premium+用户开放。
通义千问推出 Qwen3.7-Plus,这是一款统一视觉与语言能力的多模态智能体模型。它支持图形界面与命令行混合操作,可作为多功能编码智能体与生产力助手,并具备视觉感知、推理、定位与搜索增强问答能力。该模型设计为可跨多种智能体框架泛化。现在可通过阿里云百炼平台的 API 使用。
关联讨论 9 条X:OpenRouter (@OpenRouter)Hacker News 热门(buzzing.cc 中文翻译)IT之家(RSS)X:阿里云 / Alibaba Cloud (@alibaba_cloud)Qwen:Blog Retrieval(API)X:通义千问 / Qwen (@Alibaba_Qwen)X:X.PIN (@thexpin)X:Rohan Paul (@rohanpaul_ai)X:opencode (@opencode)Qwen3.7-Plus 深度融合视觉与语言,实现“看、想、写、做、验”端到端闭环,在 12 项核心基准测试中表现提升。实测中,基于该模型的智能体连续运行超 11 小时,自动完成英语学习 APP 开发,生成代码超 10000 行、触发调用超 1000 次;复刻 macOS Stocks 应用并通过 10 项功能验证。支持图像/视频转 SVG、视觉驱动网页设计及浏览器自动化。已在阿里云百炼上线,提供 OpenAI 兼容 API 与 Anthropic 协议。
关联讨论 1 条X:阿里云 / Alibaba Cloud (@alibaba_cloud)阿里云通义千问推出 Qwen3.7-Plus,基于 Qwen3.7 文本骨干,增强视觉语言能力,保留编码、工具使用和生产工作流的智能体能力。它支持感知现实场景、读取并操作 GUI、从视觉参考编写代码、端到端导航手机应用、基于网络知识回答视觉问题,融合 GUI 与 CLI 交互,跨 Claude Code、OpenClaw、Qwen Code 等框架泛化。在 Terminal Bench 2.0-Terminus 得分 70.3,SWE-Verified 77.7,QwenWorldBench 62.1,GPQA Diamond 90.3,MMLU-Pro 88.5。通过阿里云 Model Studio API 提供。
关联讨论 9 条X:OpenRouter (@OpenRouter)Hacker News 热门(buzzing.cc 中文翻译)IT之家(RSS)X:阿里云 / Alibaba Cloud (@alibaba_cloud)Qwen:Blog Retrieval(API)X:通义千问 / Qwen (@Alibaba_Qwen)X:X.PIN (@thexpin)X:Rohan Paul (@rohanpaul_ai)X:opencode (@opencode)MiniMax m3 is a huge 26% improvement on BU Bench with browsercode, and shows promise for some potential future improveme...
Today @MiniMax_AI ships M3 - the first frontier model purpose-built for computer-use agents. Natively multimodal. One mo...
关联讨论 10 条X:MiniMax (@MiniMax_AI)IT之家(RSS)MiniMax:Blog(网页)X:Testing Catalog (@testingcatalog)公众号:MiniMax(稀宇科技)X:opencode (@opencode)X:OpenRouter (@OpenRouter)X:歸藏 (@op7418)X:karminski (@karminski3)X:硅基流动 SiliconFlow (@SiliconFlowAI)@MiniMax_AI M3 is now live on Qubrid AI. https://platform.qubrid.com/model/minimax-m3 - 1M-token context. - Native multi...
关联讨论 10 条X:MiniMax (@MiniMax_AI)IT之家(RSS)MiniMax:Blog(网页)X:Testing Catalog (@testingcatalog)公众号:MiniMax(稀宇科技)X:opencode (@opencode)X:OpenRouter (@OpenRouter)X:歸藏 (@op7418)X:karminski (@karminski3)X:硅基流动 SiliconFlow (@SiliconFlowAI)NVIDIA 的 Cosmos 3 全模态世界模型在 Artificial Analysis 排行榜的开放权重类别中,同时夺得文本生成图像和图像生成视频两项第一。该模型基于 Mixture-of-Transformers 架构,结合自回归推理器与扩散生成器,提供 16B 参数的 Nano 和 64B 参数的 Super 等变体。其中,Cosmos3-Super-Text2Image 与 Cosmos3-Super-Image2Video 版本分别超越了 HiDream-O1-Image-Dev-2604、通义千问(Qwen)Image Max 2512、FLUX.2 [dev] 以及 LTX-2、万相(Wan)2.2 A14B 等模型。Cosmos 3 的生成器接受结构化 JSON 提示词,可通过外部工具或模型自身的推理器分支进行提示词上采样。该模型完全开源,采用 OpenMDW 1.1 许可,提供权重、代码、精选数据集和微调方案。
关联讨论 4 条IT之家(RSS)X:Kim (@kimmonismus)Hugging Face:Blog(RSS)HuggingFace Daily Papers(社区热门论文)英伟达发布了 Cosmos 3,这是一个用于物理 AI 推理的世界和行动模型。该信息来源于英伟达开发者博客,发布日期为 2026 年 6 月 1 日。
关联讨论 4 条IT之家(RSS)X:Kim (@kimmonismus)Hugging Face:Blog(RSS)HuggingFace Daily Papers(社区热门论文)Mellum2 是 JetBrains 从头训练的 12B 参数混合专家(MoE)模型,专注于自然语言与代码。每个 token 仅激活 2.5B 参数,推理速度可达同类模型的 2 倍以上,适合高吞吐、低延迟场景。该模型支持路由、RAG、摘要、子智能体及私有部署,以 Apache 2.0 许可证开源。在代码生成、推理、科学和数学基准测试中,Mellum2 与同等规模的开放模型竞争力相当。