北京人形机器人创新中心与百度智能云发起具身智能黑客松大赛,设运动控制与VLA模型微调双赛道,面向全球征集真机可部署方案。提供百万奖金、天工3.0本体及世界人形机器人运动会直通名额。天工Ultra曾夺半马冠军(2:40:42)及百米冠军(21.50秒)。
北京人形机器人创新中心与百度智能云发起具身智能黑客松大赛,设运动控制与VLA模型微调双赛道,面向全球征集真机可部署方案。提供百万奖金、天工3.0本体及世界人形机器人运动会直通名额。天工Ultra曾夺半马冠军(2:40:42)及百米冠军(21.50秒)。
百度智能云618全栈AI超值购活动推出,云服务器仅需19.9元/年。该活动以全栈AI超值购为主题,提供19.9元/年的云服务器优惠价格,用户可在活动期间享受这一超值购福利。
华硕商用电脑与百度智能云在COMPUTEX 2026期间推出面向中国市场的企业级AI解决方案“华硕×百度搭子DuMate”。该方案采用端云混合推理架构:云端接入百度文心大模型及22+官方Skills,负责复杂检索与任务编排;端侧利用华硕商用AI PC本地算力,在32GB内存环境下可部署35B量级大语言模型及PaddleOCR-VL等多模态模型,支持敏感文件处理、批量OCR等离线运行,确保数据不出本机。方案具备沙箱隔离、权限授权、长期记忆等企业级能力,可实现邮件整理、PPT生成、合同审查等工作流自动化闭环,降低云端Token调用成本。
Anthropic可解释性团队介绍了其Circuits研究的新进展。为区分那些激活模式相似但因果效应不同的模型特征,团队提出一种新方法。该方法通过分析特征的下游连接来预测其实际影响,并使用基于共激活统计的TWERA(虚拟权重)对连接进行加权排序。实验表明,借助下游连接信息能更准确地判断哪个特征会引导特定输出。此方法为识别模型内部真正的因果组件提供了新途径。
The Next Era of Knowledge Work报告指出,Codex正通过AI增强的研究、数据分析、工作流自动化与内容创作,变革知识工作的生产力。
关联讨论 1 条OpenAI:官网动态(RSS · 排除企业/客户案例)面壁智能首席科学家刘知远提出“大模型密度定律”,该研究登上《自然·机器智能》封面,发现智能密度每3.5个月翻倍。他认为中国AI需“向外卷”,深入产业场景,而非重复OpenAI路径。刘知远指出中国模型与顶尖仍有差距,DeepSeek-V4尚未超越Claude Opus,原始创新是最大短板,但DeepSeek-R1在未公开路线下的创新值得肯定。他还强调智源研究院作为“中间地带”对原始创新的支持作用。
OpenRouter 发布5月更新,推出语音与转录API、模型融合(Model Fusion)功能,并为平台添加了私有模型和企业工作区管控能力。此次更新共上线20个新模型,其中包括 Gemini 3.5 Flash 和 Claude Opus 4.8。
Claude Code v2.1.160版本主要增强安全性和稳定性。新版本在向shell启动文件和.git/config等文件写入内容前增加提示,防止意外命令执行;acceptEdits模式在写入.npmrc等构建配置文件前也会提示。此次更新修复了多个问题,包括Windows/WSL剪贴板、会话恢复、后台会话连接等,并优化了自动模式延迟和后台清理流程。此外移除了JetBrains插件建议,将动态工作流触发词从workflow重命名为ultracode。
KPop针对MoE大模型强化学习中的训练-推理不一致问题,提出用对称二元KL散度代替IcePop的固定ratio阈值。该方法只需一个超参数,根据token概率自适应调整屏蔽边界:稀有token更宽容,高频token更严格。在Ring-flash-2.0(100B总参,6.1B激活)的RLVR训练中,支撑800+步稳定训练,屏蔽比例从10%动态升至30%+(IcePop仅约0.2%);在AIME25、HMMT25-Nov、ARC-AGI-2、LiveCodeBench上全面优于IcePop。在长程智能体任务中,基于Ring-2.6-1T(1万亿总参,63B激活)的SWE-bench Verified得分从70.8%提升至76.28%,且仅需更新70%~80% token即可收敛。
OpenAI阐述了其在AI政策与政治倡导方面的立场,包括对透明度、深思熟虑的监管以及AI安全的支持。同时,公司明确表示,任何外部政治组织均不能代表OpenAI发言。
Cursor Teams计划推出三项更新:增加Composer特定使用池,将第一方模型(Composer和Auto)与第三方API的使用额度分开计费;推出Premium席位,提供5倍于标准席位($40/月)的使用量,价格为$96/月(年付);仪表盘现可实时显示用户额度使用情况,管理员可通过Slack或邮件配置智能提醒。
OpenAI的前沿模型与Codex现已在AWS上全面可用。企业客户可通过其现有的AWS环境、控制与采购流程来使用OpenAI的AI技术,从而加速从评估到生产部署的过程。
关联讨论 3 条X:Testing Catalog (@testingcatalog)X:OpenAI Developers (@OpenAIDevs)X:OpenAI (@OpenAI)OpenAI在密歇根州启动了名为Stargate的1GW数据中心项目。作为AI基础设施建设的一部分,该项目旨在扩大人工智能技术的可及性、为当地创造就业机会并支持社区发展。
关联讨论 1 条X:Rohan Paul (@rohanpaul_ai)xAI的最新编程模型Composer 2.5现已在Grok Build中可用,用户可通过`/models`菜单选择使用。这是一款快速、先进的模型,擅长处理长时间运行的任务和复杂指令。该模型面向SuperGrok和X Premium+用户开放。
关联讨论 1 条X:xAI (@xai)Qwen3.7-Plus 深度融合视觉与语言,实现“看、想、写、做、验”端到端闭环,在 12 项核心基准测试中表现提升。实测中,基于该模型的智能体连续运行超 11 小时,自动完成英语学习 APP 开发,生成代码超 10000 行、触发调用超 1000 次;复刻 macOS Stocks 应用并通过 10 项功能验证。支持图像/视频转 SVG、视觉驱动网页设计及浏览器自动化。已在阿里云百炼上线,提供 OpenAI 兼容 API 与 Anthropic 协议。
关联讨论 1 条X:阿里云 / Alibaba Cloud (@alibaba_cloud)阿里云通义千问推出 Qwen3.7-Plus,基于 Qwen3.7 文本骨干,增强视觉语言能力,保留编码、工具使用和生产工作流的智能体能力。它支持感知现实场景、读取并操作 GUI、从视觉参考编写代码、端到端导航手机应用、基于网络知识回答视觉问题,融合 GUI 与 CLI 交互,跨 Claude Code、OpenClaw、Qwen Code 等框架泛化。在 Terminal Bench 2.0-Terminus 得分 70.3,SWE-Verified 77.7,QwenWorldBench 62.1,GPQA Diamond 90.3,MMLU-Pro 88.5。通过阿里云 Model Studio API 提供。
关联讨论 10 条X:OpenRouter (@OpenRouter)Hacker News 热门(buzzing.cc 中文翻译)IT之家(RSS)X:阿里云 / Alibaba Cloud (@alibaba_cloud)Qwen:Blog Retrieval(API)X:通义千问 / Qwen (@Alibaba_Qwen)X:Kim (@kimmonismus)X:X.PIN (@thexpin)X:Rohan Paul (@rohanpaul_ai)X:opencode (@opencode)本文介绍了谷歌员工使用 Gemini 模型来制作 2026 年的 Google I/O 开发者大会。
Mellum2 是 JetBrains 从头训练的 12B 参数混合专家(MoE)模型,专注于自然语言与代码。每个 token 仅激活 2.5B 参数,推理速度可达同类模型的 2 倍以上,适合高吞吐、低延迟场景。该模型支持路由、RAG、摘要、子智能体及私有部署,以 Apache 2.0 许可证开源。在代码生成、推理、科学和数学基准测试中,Mellum2 与同等规模的开放模型竞争力相当。
金融市场对AI的看跌情绪正从整体上升转向板块分化。上季度,软件、半导体、云及超大规模公司的空头比例中位数上升约24%。GPU数据中心业务空头股份在过去一年激增60%。AI云与新型云公司的当前空头比例中位数最高,达16.8%,SaaS与开发工具领域随后,分别为9.5%和8.9%。相比之下,超大规模公司和NVIDIA的空头比例极低,仅为1.1%和1.2%。市场怀疑主要针对那些AI业务仍依赖未来资本、需求或运营杠杆的中小型公司。
Anthropic, PBC 今日保密向美国证券交易委员会提交了 S-1 表格草案,计划进行普通股的首次公开发行。这使其在 SEC 完成审核后拥有上市的选择权。IPO 的具体发行股数和价格尚未确定,将取决于市场条件等因素。公司近期刚完成由 Altimeter Capital 等领投的 650 亿美元 H 轮融资,估值达 9650 亿美元,并发布了 Claude Opus 4.8 模型。
关联讨论 10 条Artificial Intelligence News(RSS)X:Testing Catalog (@testingcatalog)Bloomberg:Technology(RSS)X:Anthropic (@AnthropicAI)X:Rohan Paul (@rohanpaul_ai)Hacker News 热门(buzzing.cc 中文翻译)The Verge:AI(RSS)The Decoder:AI News(RSS)TechCrunch:AI(RSS)IT之家(RSS)可扩展的企业AI采用需超越大语言模型,依靠智能体逻辑来引导模型执行动态、长周期且受约束的企业工作流,从而提升质量、降低成本并建立信任。文中以IBM watsonx Code Assistant for Z为例,展示了智能体逻辑如何通过程序分析等技术,在理解大型遗留代码库时,相比纯LLM基线方法,能以约30倍更低的token消耗达到更优性能。在加速测试生成任务中,该方法亦能使代码覆盖度提升20%-45%,同时token消耗降低最高达15倍。
当模型智能的微小提升能直接转化为实际价值时,开源与闭源模型正沿着不同的增长路径发展。闭源模型通过在特定场景下提供更高的边际智能来创造价值,而开源模型则在其他维度寻找增长点,两者形成了差异化的竞争格局。
江苏交通控股有限公司与火山引擎合作推出出行智能体“小茉莉”,已在96777热线、江苏高速APP和茉莉管家小程序提供7×24小时智能问答。服务覆盖行前路况查询、行中服务区及充电桩信息、紧急救援、行后ETC办理等全周期。热线首次接听100%由AI完成,节假日高峰和恶劣天气时承接约33%的问询。火山引擎HiAgent与大模型防火墙提供运维安全支撑,veCDP、GMP等构建的用户管理平台通过出行标签实现“千人千面”精细化运营。
京东JoyInside将大模型技术嵌入多款儿童产品,包括AI毛绒公仔、小龙AI魔法益智打印机、京造AI台灯和小鸡球球点读笔,实现语音交互、伴读、双语互动等功能。六一前夕(5月最后一周),搭载JoyInside的AI终端销量环比4月同一周增长535%;小龙AI魔法益智打印机在618开门红4小时内销量环比激增17倍。
Runway 宣布在伦敦建立新的欧洲总部和专注于通用世界模型的研究中心。公司计划在未来18个月向英国AI生态投资$100M,到2028年投资额将翻倍以上。过去12个月,其在欧洲的订阅销量增长了50%,企业客户占比超20%。新总部将扩大其在欧洲的研究与商业布局,公司正招聘欧洲负责人以组建跨研究、产品、工程和销售的团队,并深化与BBC、Fremantle、WPP等企业的合作。世界模型是其研究的核心,旨在将生成式AI的应用扩展至机器人、科学研究与工业模拟等领域。
关联讨论 1 条X:Runway (@runwayml)腾讯混元多模态数字人团队基于Hy3 preview模型和GameMate1.0框架,为《和平精英》推出代言人田曦薇形象的AI队友「小田」。该角色具备战局感知、独立决策能力,并实现对话情感化回应、动态策略推理与主动协同作战。基于大模型长文记忆,玩家可生成由Image3.0制作的专属图文记忆。该AI队友累计体验用户突破1.1亿,单日活跃峰值1770万,玩家麦克风开启率75%。
面壁智能CTO曾国洋近日入选福布斯2026亚洲30位30岁以下精英榜。其参与创办的面壁智能以MiniCPM端侧大模型闻名,该模型使用更小数据集和更少算力训练,性能却可媲美参数量更大的云端模型,且推理速度更快。目前已在智能汽车、智能手机、具身机器人等多个领域实现规模化落地。
儿童节前夕,豆包旗下教育 App 豆包爱学推出「豆包课堂」功能,采用字节跳动最新版 Seedance 视频模型,将课本古诗文中的情境融入 AI 生成视频,降低理解门槛。课堂内置 AI 老师主动设问、引导孩子观察思考,同时支持孩子随时提问并得到回应。结合学生对知识点的掌握程度和学习习惯,可即时生成专属 AI 互动课程,实现个性化学习。该功能已在豆包爱学 App 底部导航栏第三入口开放体验。
NVIDIA 发布 Cosmos 3,基于 Mixture-of-Transformers(MoT)架构的开源全能模型,统一世界生成、场景理解、因果推理和策略生成。该模型通过自回归与扩散子序列联合注意力,在单一前向过程中处理文本、图像、视频、音频和动作等多模态。本次发布包含两个版本:Cosmos 3 Nano(16B 参数,8B 推理器 + 8B 生成器,面向工作站级 GPU)和 Cosmos 3 Super(64B 参数,32B + 32B,面向 Hopper 和 Blackwell GPU,用于大规模合成数据生成与研究)。两者均已上架 Hugging Face,并提供 Diffusers 集成、GitHub 后训练脚本和开源合成数据数据集。
关联讨论 5 条Hacker News 热门(buzzing.cc 中文翻译)IT之家(RSS)X:Kim (@kimmonismus)X:Artificial Analysis (@ArtificialAnlys)HuggingFace Daily Papers(社区热门论文)Runway宣布作为创始成员加入Cosmos Coalition,该联盟与NVIDIA及多家领先AI实验室合作,旨在构建并开源面向物理AI的前沿世界模型。首个项目将由Runway与NVIDIA共同开发一个基础模型,以推动下一代开放世界模型的研究与发展。
关联讨论 1 条X:Runway (@runwayml)MiniMax M3 是一个开源前沿模型,具备先进的编码与AI智能体能力。它支持100万token的超长上下文窗口,并采用名为MSA(MiniMax Sparse Attention)的新型稀疏注意力架构。该架构使模型在100万token上下文下的每token计算成本降至前代的1/20,预填充速度提升9倍以上,解码速度提升15倍以上。在SWE-Bench Pro编码基准上,MiniMax M3得分59.0%,超越GPT-5.5和Gemini 3.1 Pro,性能接近Opus 4.7。该模型可通过MiniMax Code、Token Plan和API服务使用。
关联讨论 9 条X:MiniMax (@MiniMax_AI)IT之家(RSS)X:Testing Catalog (@testingcatalog)X:opencode (@opencode)X:Kim (@kimmonismus)X:OpenRouter (@OpenRouter)X:歸藏 (@op7418)X:karminski (@karminski3)X:硅基流动 SiliconFlow (@SiliconFlowAI)MiniMax M3 今日发布,采用自研 MSA 稀疏注意力架构,支持 1M 上下文窗口,100 万上下文下每 token 计算量仅为上代 1/20,prefilling 加速超 9 倍,decoding 加速超 15 倍。它是原生多模态模型,支持图片、视频输入及 Computer Use。Coding 与 Agent 能力在 SWE-Bench Pro(59.0%)、Terminal Bench 2.1(66.0%)等基准达到前沿水平。M3 是国内首个同时具备 1M 上下文、原生多模态、前沿编程与 Agent 能力的开源模型。API 已开放,按上下文分两档计价,上线首 7 天 512k 及以下 5 折。同步推出 MiniMax Code Agent 与 Token Plan 订阅(¥49/月起)。预计 10 天内发布技术报告并开源模型权重。
关联讨论 9 条X:MiniMax (@MiniMax_AI)IT之家(RSS)X:Testing Catalog (@testingcatalog)X:opencode (@opencode)X:Kim (@kimmonismus)X:OpenRouter (@OpenRouter)X:歸藏 (@op7418)X:karminski (@karminski3)X:硅基流动 SiliconFlow (@SiliconFlowAI)OpenRouter 推出语音与转录 API、模型融合(Model Fusion)、私有模型部署和企业级工作空间控制功能。平台同时新增 20 个模型,其中包括 Gemini 3.5 Flash 和 Claude Opus 4.8。语音 API 支持实时语音识别与合成,模型融合允许用户组合多个模型的输出结果。企业工作空间提供更细粒度的权限管理与审计日志。
关联讨论 1 条OpenRouter:Announcements(RSS)OpenRouter 发布5月更新,推出语音与转录API、模型融合功能、私有模型支持和企业工作区控制,并新增20款模型,包括Gemini 3.5 Flash和Claude Opus 4.8。
v2.1.159 版本更新包含内部基础设施改进,未引入任何面向用户的功能变更。此次更新预计不会影响现有功能或用户接口。
这一观点强调,单纯分析AI的输出内容,无法还原其生成过程与背后的推理逻辑,触及了当前AI可解释性研究的核心挑战。
Anthropic CEO Dario Amodei 发表博客指出,AI 以指数级速度发展——四年内模型从勉强写出一行连贯代码到编写主流 AI 公司的大部分代码,而政策制定周期却极其缓慢。Claude Mythos Preview 证明了前沿模型对网络安全构成真实威胁,可能冲击金融、关键基础设施和国家安全。Amodei 认为生物风险与 AI 自主风险即将接踵而至,呼吁全球重新审视监管、宏观经济、科学创新、国家权力和地缘政治五大领域。Anthropic 同日发布了前沿模型测试立法提案和就业替代政策框架,并承诺提供实质性资金支持。
关联讨论 4 条X:Dario Amodei (@DarioAmodei)X:Anthropic (@AnthropicAI)X:Kim (@kimmonismus)X:Rohan Paul (@rohanpaul_ai)小米发布 MiMo-V2.5 系列模型(含 MiMo-V2.5、MiMo-V2.5-Pro),采用 Hybrid Sliding Window Attention(Hybrid SWA)架构,KVCache 存储与计算量均降至 Full Attention 的约 1/7。以 MiMo-V2.5-Pro 为例,70 层中仅 10 层为 Full Attention,60 层为 SWA(窗口大小 128)。团队围绕 KVCache 系统重构(双池管理、按层异步拉取、SWA-aware 前缀缓存树)及分布式缓存 GCache 等环节优化,使存储效率提升约 7×,显著降低长上下文推理成本。
Claude Code 发布 v2.1.158 更新,将 Auto mode 的可用范围扩展至 Bedrock、Vertex 和 Foundry 平台,支持 Claude Opus 4.7 和 Opus 4.8 模型。用户可通过设置环境变量 `CLAUDE_CODE_ENABLE_AUTO_MODE=1` 来启用该功能。
关联讨论 2 条Claude Code:GitHub Releases(RSS)X:Claude Devs (@ClaudeDevs)