姚顺雨首次公开亮相:AI下半场战略与Hy3 preview模型 · AI HOT
‹ 返回
ginobefun @hongming731 65
2026-06-06 07:19 ·9天前
AI 摘要 姚顺雨在腾讯云AI大会上首次公开亮相,指出AI已进入下半场,核心从“怎么训练”转向“找好问题”,认为context是Agent时代关键壁垒,腾讯在场景、数据、工具链上有结构性优势。他披露Hy3 preview模型:295B总参数、21B激活参数,首token延迟降低54%,可驱动最长495步Agent工作流。他还提出Co-Design理念,强调模型与产品深度协同,该模型以实用性为导向,不在榜单过度竞争。
智能体 Anthropic 开源生态 现象/趋势
← 返回
ginobefun @hongming731 · X 65
2026-06-06 07:19 · 9天前
AI 摘要 姚顺雨在腾讯云AI大会上首次公开亮相,指出AI已进入下半场,核心从“怎么训练”转向“找好问题”,认为context是Agent时代关键壁垒,腾讯在场景、数据、工具链上有结构性优势。他披露Hy3 preview模型:295B总参数、21B激活参数,首token延迟降低54%,可驱动最长495步Agent工作流。他还提出Co-Design理念,强调模型与产品深度协同,该模型以实用性为导向,不在榜单过度竞争。
对腾讯而言,这个转变是战略性利好。他指出三个关键词:问题(腾讯有元宝、ima、CodeBuddy、WorkBuddy 等丰富产品场景)、环境(Agent 需要工具和接口才能行动,腾讯的产品矩阵提供了天然的工具生态)、context(最终的竞争壁垒来自谁掌握最原始的用户上下文数据,腾讯有企业与个人两端的海量积累)。他明确表示,context 是 Agent 时代最重要的差异化因素,因为「模型越来越擅长把一个非常复杂的输入变成一个输出,你的竞争壁垒就来自于你知不知道这个人他到底在干什么」。
Hy3 Preview:495 步 Agent 工作流的背后
对谈同时披露了 Hy3 preview 的具体数据。这款参数规模为 295B 总参数、21B 激活参数的混合专家模型,在 CodeBuddy 与 WorkBuddy 上首 token 延迟降低了 54%,并且能够稳定驱动最长 495 步的复杂 Agent 工作流。上线 OpenRouter 后,一度拿下周榜调用量与市场份额双第一。
值得注意的是,Hy3 preview 版本明确定位为「以实用性为导向」,不是为了刷榜,而是为了收集真实世界反馈,修复榜单无法发现的底线问题。姚顺雨对此的解释颇为务实:benchmark 有价值,但容易 saturate(饱和);真实世界的 prompt distribution 更复杂、更模糊、多轮,这些是 benchmark 无法覆盖的训练信号来源。
汤道生提出的「Co-Design」概念,是整场对谈的另一条主线。他以「产品老兵」的视角,描述了 AI 时代做产品与 PC、移动互联网时代的本质不同:过去的产品像「预制菜」,通过功能菜单满足需求;AI 产品则面对完全开放式的用户输入,产品方甚至无法预知用户会问什么,必须依赖模型能力来理解并响应。
这种变化倒逼组织形态向小团队化、实验驱动靠拢。工程师的角色从「写功能」变为「驱动多个 coding agent 的产品 leader」。
姚顺雨对 Co-Design 的拆解分三点:其一,预训练是相对 product-agnostic 的,做得扎实可以为多个下游产品提供可泛化的基础;其二,后训练的关键是设立正确的 eval--以元宝为例,真实对话中用户的问题比 benchmark 更模糊、更多轮,这些真实反馈可以发现 benchmark 发现不了的底线问题;其三,LLM 时代与过去 AI 最本质的区别是泛化性--即使目标是 Coding Agent,也需要聊天、搜索、指令遵循、推理等多维度能力,这意味着有多元产品矩阵的公司,数据之间可以相互泛化,形成网络效应。
对谈结尾,汤道生宣布腾讯将发布一套「效率智能体工具集」,背后整合了场景连接、Harness 工程体系与混元模型 Co-Design 三重能力。
这篇对谈兼具战略高度与技术细节,且两者并非并列关系--战略判断有工程实现的支撑,工程细节有方法论框架的解释。姚顺雨以 ReAct 提出者和 OpenAI Agent 产品实践者的身份,直接给出了他对「下半场」的第一性原理拆解,而不是泛泛的愿景陈述。
外界质疑腾讯「慢了」,姚顺雨的回答是:如果 AI 是一场长期游戏,下半场才刚刚开始,那现在并非晚了;ChatGPT 和 Claude 不会是唯一的超级应用,coding agent 之外还有大量新的产品范式等待探索。这个判断背后的逻辑链--方法论成熟、好问题稀缺、context 是壁垒--值得每位 AI 从业者认真推敲。
来源:LangChain Blog · 评分 91 · 【阅读全文】(https://www.bestblogs.dev/article/dc9482cb)
从「让 Agent 跑起来」到「让 Agent 安全地跑起来」
Agent 能力提升的速度,远远超过了 Agent 安全基础设施建设的速度。LangChain 的这篇文章,正面回应了一个越来越迫切的工程命题:当 Agent 需要执行代码、访问文件系统、安装依赖、持久化状态时,应该给它一台什么样的「电脑」?
Satya Nadella 在 Microsoft Build 大会上的判断被引为文章开篇:「Every agent needs a computer.」这不是比喻,而是字面意义上的基础设施需求。Cursor、Claude Code、ChatGPT 的代码解释器之所以强大,正是因为它们拥有了一个可以运行代码、看到错误、修复再跑的反馈闭环--这个反馈闭环,是区分演示 Agent 与生产 Agent 的关键分界线。
许多团队在早期原型阶段选择 Docker 容器来隔离 Agent 执行环境。文章以两个具体案例指出,这种方案在生产环境中遭遇两道硬墙。
第一道:Agent 本质上执行不可信代码。 Agent 运行的代码可能来自模型生成、用户提示词、克隆的仓库,或者安装的第三方包。没有任何一条路径是完全可信的。2025 年 9 月,npm 生态出现了自我复制蠕虫 Shai-Hulud,在 preinstall 阶段感染了超过 500 个包,第二波在 11 月进一步波及 796 个包和 25,000 多个 GitHub 仓库,且感染发生在任何验证逻辑执行之前。一个会安装 npm 包的 Agent,天然暴露在这类供应链攻击面前。
第二道:容器共享宿主内核,不是真正的隔离边界。 CVE-2026-31431(Copy Fail)是一个 732 字节的 Python 脚本,利用 Linux 内核 crypto API 漏洞,可以提权至宿主机 root,覆盖从 2017 年到现在几乎所有主流 Linux 发行版。文章点出了一个令人不安的细节:AI 工具链发现这个漏洞大约用了一小时。
这两个案例放在一起,说明了一个清晰的工程结论:对于模型生成或用户可控代码,容器隔离是不够的,需要硬件级别的隔离边界。
LangSmith Sandboxes:microVM 的设计哲学
LangSmith Sandboxes 给出的答案是基于硬件虚拟化的 microVM。与容器不同,microVM 拥有独立内核,每个沙箱实例之间不共享任何内核级别的资源,内核漏洞无法跨越边界影响宿主机或其他沙箱。
这个方案的工程特性覆盖了 Agent 执行场景的主要需求:
- Serverless 启动速度:微秒级冷启动,而非传统 VM 的秒级。对于需要按需弹起、用完即毁的 Agent 沙箱场景,这是关键。
- 完整机器持久状态:沙箱拥有完整的文件系统、进程空间和网络栈,Agent 可以在同一沙箱内持续工作数小时,维护跨步骤的状态,而不是每次调用都重置环境。
- 快照与分叉:可以对沙箱状态打快照,并从同一快照分叉出多个并行实例。这对 RL 训练(需要在同一环境状态下并行运行多个 episode)和批量评测场景极为重要。
- 蓝图预热:预先配置好的沙箱环境可以池化复用,避免重复安装依赖的冷启动延迟,在大批量任务场景下降低端到端延迟。
文章中还描述了一组典型的 Agent 使用场景,帮助读者理解「为什么 Agent 需要一台真正的电脑」:一个 coding assistant 不只是建议修复方案,而是应用修复方案、运行测试套件、确认没有破坏已有功能;一个 CI agent 可以克隆仓库、安装依赖、跑完整测试、开 PR;一个 RL 评测 harness 需要从零到数千个沙箱的弹性扩缩容。这些场景的共同前提:Agent 需要一个有状态的、持续的、安全的工作空间。
这篇文章与精讲一(腾讯 Hy3 驱动 495 步 Agent 工作流)构成有趣的互文:一篇讨论 Agent 能做什么,另一篇讨论 Agent 在什么样的基础设施上才能安全地做。Hy3 preview 能够稳定驱动数百步复杂 Agent 工作流,恰恰需要精讲二所描述的基础设施作为前提。Agent 能力越强,对安全执行环境的要求越高,两者是正向绑定的关系。
从整个 AI 行业的视角来看,「给每个 Agent 一台专属电脑」正在成为基础设施的新标配。这不是某一家公司的产品决策,而是 Agent 工作负载对基础设施提出的客观需求。对于正在构建 Agent 代码执行系统的工程师,这篇文章是当日最具工程价值的必读材料:它不只解释了「为什么」,也给出了「怎么做」的工程参考框架。
## 精讲三:科技爱好者周刊(第 399 期):中国 AI 大厂访问记
来源:阮一峰的网络日志 · 评分 92 · 【阅读全文】(https://www.bestblogs.dev/article/6933ad74)
2026 年 5 月上旬,一个由多位美国科技分析师组成的访问团赴华,走访了 14 家 AI 与机器人公司,包括 DeepSeek、月之暗面、MiniMax、智谱、字节跳动、阿里、蚂蚁、小米、零一万物、宇树、魔搭社区等头部机构。访问结束后,Kevin Xu、Azeem Azhar、Nathan Lambert 等多位成员独立撰文分享观感,阮一峰在本期周刊中将关键摘录系统整理,配以简洁导读。
这是少见的中美 AI 生态直接对比一手材料。不是二手数据引用,不是媒体转述,而是身处硅谷的分析师在中国实地观察后形成的第一手认知。这类材料的价值,在于它能够绕过两边各自的叙事框架,提供一个相对中立的外部视角。
访问团的最核心发现,围绕算力展开,且得出了两组看似矛盾实则互补的结论。
差距的量级:中国 AI 公司普遍反映算力不足,根本原因是美国的芯片出口管制。英伟达最新款 GB300 NVL72 系统在实时推理速度上比三年前的 H100 集群快 30 倍,每颗芯片内存容量高出 3.6 倍,每次推理能耗降低 25 倍,美国公司正在大量订购,而中国公司无法获取。访问团估计,2025 年底美国 AI 算力约为中国的 8 倍,中国目前的总算力大致相当于美国 2023 年的规模。华为 Ascend 950PR 性能大致相当于 2022 年的 H100,且出货量仅为英伟达同期的十分之一左右。
效率的弥补:然而,「算力少一个数量级」并不等于「模型能力落后两年」。访问团的关键发现是,芯片管制反而逼出了计算效率创新--中国公司的单位算力支持的 AI 智能是简单扩展下的 4-7 倍。分析师们向中国研究人员透露了 OpenAI 内部每位研究人员拥有的 GPU 数量,对方「简直惊呆了」,然而西方 AI 公司的研究人员仍然普遍抱怨算力不够。这个细节揭示了两种截然不同的稀缺性适应策略。
此外,中国的算力分配结构与美国不同:美国的大部分算力用于模型训练,中国的算力同时要服务数亿消费者和快速增长的企业用户,这进一步压缩了可用于训练的资源池,也是促进效率创新的另一个驱动因素。
访问团的另一组引人注目的观察聚焦在人。中国 AI 公司的员工平均年龄二十五六岁,大多数仍是博士在读,实习期长达 1-2 年,享有与全职员工相同的权限和待遇,可以自由提出想法、开展工作实验。
这与西方顶级 AI 公司形成鲜明对比:OpenAI、Anthropic、Cursor 等公司根本不提供实习,其他公司(如谷歌)的实习机会也不会涉及核心模型工作。
背后有结构性原因:中国顶尖高校的计算资源根本无法满足优秀博士生的研究需求,而业界公司拥有更丰富的算力。双方的利益在「合作发论文、提供算力与全权限」这个模型下找到了交汇点。结果是一种产学高度交融的人才生态:年轻、灵活、边界感弱,新想法的涌入速度快。
开源分歧:一条越来越清晰的界线正在形成--参数规模达到一万亿。部分公司认为开源万亿参数模型是资源浪费,因为没人能在本地运行如此庞大的模型,更好的方式是云端 API;另一些公司则将开源视为信仰和入场券。
竞争格局:访问团观察到字节跳动 Seed 部门被全行业敬畏--因为豆包几乎垄断了 AI 用户流量,且他们的模型可以快速推广到海量用户,这是其他公司无法匹敌的渠道优势。DeepSeek 则是最受业界尊重的公司,越来越多地承担基础架构层工作:架构、效率、推理优化,以及华为协议栈适配。
AI 安全态度:访问团与年轻中国研究人员讨论 AGI,得到了几乎相同的答案:「AGI 就是 AI 可以取代我!」对方不只是不害怕,而是对「机器是否真的能超越其制造者」充满好奇。这与西方同行形成鲜明对比--西方许多研究人员深度关注 AI 安全及其社会影响,而中国研究人员更多把安全监管的责任交给政府。
这篇文章的价值不在于任何单一数字,而在于跨越信息不对称的整体视角。中美双方对彼此 AI 生态的认知,经常被媒体叙事和地缘政治情绪扭曲,信息质量参差不齐。这次由技术分析师构成的访问团,提供了一份尽可能接近事实的直接观察。
将这篇文章与精讲一(腾讯对 context 数据与问题寻找的战略判断)连读,可以得到更完整的中国 AI 发展图景:一篇是内部视角的战略逻辑,一篇是外部视角的生态素描,两者互补,共同描绘了一幅比任何单一来源都更立体的画面。
腾讯技术工程 · 评分 92 · 【阅读全文】(https://www.bestblogs.dev/article/b7742f5e)
腾讯工程师 jackjchou 整理的 Skill 编写完整方法论,从基础概念、结构设计,到高级技巧、安全规范与工程化评估,覆盖「从没写过 Skill」到「负责团队规范」的完整阅读路径。核心洞察:Skill 本质上是结构化的 Prompt Engineering,它把分散在人脑中的领域知识与流程经验,转化为 AI 可执行的指令集。文章详解 Anthropic 的三层渐进式加载机制(元数据常驻、SKILL.md 触发加载、附件按需引用),指出编写时的常见反模式,以及团队 Skill 规范化管理的要点。正在或计划用 Claude Code、CodeBuddy 等工具提升团队工程效率的读者,这份手册值得当作参考文档收藏。
从客户经理到产品经理:Anthropic 销售员如何用 Claude Code 重建团队工作流
Claude Blog · 评分 90 · 【阅读全文】(https://www.bestblogs.dev/article/8af798c7)
Anthropic 客户经理 Jared Sires 没有任何编程背景,却用 Claude Code 从零构建了 CLAFTS(Claude Drafts)--一个嵌入 Gmail 的邮件起草工具。他每天要处理 10-15 个客户电话,加上大量外发邮件,经常工作到晚上 9-10 点。CLAFTS 最终每周为他节省 10-15 小时,分享到内部 Slack 后,24 小时内整个销售团队开始使用。这个案例最有价值的地方,不只是「非技术人员也能用 AI 编程」,而是它展示了 AI 原生工具如何重塑角色定义--Jared 随后转型为 GTM 产品经理,专门识别销售组织的流程问题并构建 AI 解决方案,将自身对业务流程的理解与 Claude Code 的执行能力结合成新的职业路径。
Microsoft Build 主题演讲:智能体工程取代了编程
Cory House(@housecor) · 评分 90 · 【阅读全文】(https://www.bestblogs.dev/status/2061953686847557962)
Cory House 在 X 上的一条观察引发广泛共鸣:微软长达 3.5 小时的 Build 主题演讲,全程没有提及 C#、.NET 或 TypeScript。这三个词曾长期是微软开发者大会的标配符号。这不是偶然的遗漏,而是一个关于技术叙事重心转移的清晰信号:编程语言让位于智能体工程,底层工具让位于能力与流程的整合。结合今日精讲一(姚顺雨对 AI 下半场范式转变的判断)和精讲二(Agent 执行基础设施的演进),这条推文的简短观察有了更丰富的诠释背景。
首字延迟降低 3.6 倍,腾讯混元提出 Stem 稀疏注意力算法,长文推理加速新 SOTA
腾讯混元 · 评分 90 · 【阅读全文】(https://www.bestblogs.dev/article/c1e21993)
腾讯混元发布 ICML 2026 收录论文 Stem,提出两个核心创新:Token 位置衰减(TPD)和输出感知度量(OAM)。TPD 的洞察来自因果注意力架构的递归特性--初始位置的 token 被所有后续层依赖,不应被稀疏化;OAM 则在传统注意力分数之外,引入 Value 向量携带的信息量作为 token 选择依据。两项创新组合,在仅用 25% 算力的条件下逼近稠密注意力的精度,配合 HPC 算子实现 128K 上下文首字延迟降低 3.7 倍,已开源。这个成果对 Agent 工作流场景尤为重要--长上下文推理是 Agent 的高频场景,首字延迟直接影响系统响应体验。配合今日精讲一中 Hy3 的 495 步工作流能力,构成腾讯 AI 基础设施层面的完整技术布局。
千符森林:在 3B 模型上运行一个多智能体经济系统
Hugging Face - Blog · 评分 90 · 【阅读全文】(https://www.bestblogs.dev/article/d15e5749)
Build Small Hackathon 的一份工程实验报告:五个运行在 Qwen2.5-3B 上的林地生物 Agent,在微型经济中以石子为货币相互交易、闲聊、囤积与恐慌,最终涌现出价格泡沫、崩溃与财富分化。作者的核心结论:3B 参数级别的模型是可靠的格式生成器,但是不可靠的推理器--它可以稳定输出 JSON、遵循格式约束,但在真正需要策略推理的场景表现不稳定。另一个值得记录的洞察:「涌现出的戏剧性需要人为设计的稀缺性」--没有刻意设计的约束,多 Agent 经济系统不会自发产生有趣的动态。对于正在探索小模型多 Agent 场景的工程师,这份实地报告比理论分析更直观。
Google DeepMind 的 Text Diffusion:面向低延迟语言生成的新一代架构
AI Engineer · 评分 90 · 【阅读全文】(https://www.bestblogs.dev/video/93a33f8)
Google DeepMind 研究员 Brendon Dillon 解释了 Text Diffusion 作为自回归 LLM 生成替代方向的工作原理与权衡。Text Diffusion 放弃因果约束,改用全双向注意力块,允许从噪声中并行解码整个序列,而非逐 token 生成。代价是单次前向计算量更大,但在特定延迟场景下有优势。Dillon 指出这项技术在批量吞吐上的代价,以及在实时、端侧和交互式产品中的应用潜力。这是值得长期追踪的架构方向,尤其适合对推理延迟有严格要求的工程师和研究者。
AINLP · 评分 89 · 【阅读全文】(https://www.bestblogs.dev/article/c965ab9b)
Anthropic Institute 递归自我改进进展报告的中文完整翻译,援引了一组内部数据:截至 2026 年 5 月,Anthropic 工程师合并进代码库的代码中超过 80% 由 Claude 编写,每位工程师每季度交付的代码量是 2021-2025 年期间的 8 倍。报告梳理了从「聊天机器人」到「自主智能体」的阶段演变,并讨论了三种关于递归自我改进的未来场景:巨大的科学与医疗收益、人类监督的重要性提升,以及潜在的失控风险。Anthropic 坦诚地公开了内部数据并直视这种趋势的潜在风险,这种做法本身就值得关注。适合对 AI 发展趋势有系统性思考需求的读者。
【如何避免交付低质量的强化学习环境(附示例)】(https://www.bestblogs.dev/article/cdd6597f) · Latent.Space · 评分 90
来自 Google Gemini RL 团队研究员的「RL Pet Peeves」系列,专注于环境质量问题:低质量的测试框架(Harness)会系统性地生成垃圾训练数据,破坏模型性能。文章提供了常见故障的分类、具体示例与修复方法,例如 mock API 缓存 bug 导致 Agent 学到错误策略、奖励函数只看测试通过而不看代码正确性等。适合正在构建 RL 训练基础设施的工程师,可与今日精讲二(Agent 执行环境安全)配合阅读。
【Google 发布 Gemma 4 12B:具备高级推理能力的开放模型】(https://www.bestblogs.dev/status/2062203526588088452) · Google(@Google) · 评分 92
Google 发布最新开放模型 Gemma 4 12B,整合高级智能体推理、视觉与音频能力,采用统一架构(移除独立多模态编码器),设计在仅需 16GB VRAM 的本地硬件上运行,Apache 2.0 授权。这是开源模型生态的又一次能力跳跃,关注本地部署与开源社区的读者值得关注。
【Qwen3.7-Max 挑战谷歌争夺第三,AI 拯救鲸鱼,微调打破版权对齐】(https://www.bestblogs.dev/article/2baac995) · The Batch · DeepLearning.AI · 评分 90
本期 The Batch 包含四条有价值的信息:阿里 Qwen3.7-Max 的市场竞争布局、AI 系统用于防止鲸鱼与船只相撞的公益案例、中国 LLM 访问的灰色市场现象,以及微调可能破坏版权对齐的研究结论。内容跨度广,适合希望保持 AI 领域综合情报视野的读者,尤其是最后一条关于微调与版权的发现值得关注。
【基于顶级 Agent(Claude Code)的 Harness 工程搭建式业务 Agent 评测方案】(https://www.bestblogs.dev/article/fcbdb6fa) · 阿里云开发者 · 评分 90
阿里云工程师提出创新评测方案:以 Claude Code 作为 Harness 工程的搭建者和运行者,将评测逻辑从代码转化为 Prompt,实现对业务 Agent 的系统性、快速评测。核心矛盾是业务 Agent 迭代快(天级)但传统评测工程搭建慢(周级),这套「Agent 评测 Agent」的思路打破了这个瓶颈。适合正在为多 Agent 系统建立评测体系的工程师团队。
【分享 Claude Code 团队内部的 5 条工作原则】(https://www.bestblogs.dev/article/c8916b4b) · 数字生命卡兹克 · 评分 89
解读 Claude Code 工程总监 Fiona Fung 的分享,提炼 AI 原生组织下规划、自动化、代码评审、团队角色与流程变革的 5 条工作原则。核心判断:在 Agent 时代,写代码已不再是工程瓶颈,瓶颈转移到了验证、代码评审与安全,所有上下游流程都需要重新设计。这套思路与今日多篇文章形成共鸣,是 AI 原生工程组织实践的一手观察。
【Skills 中的渐进式披露:大型智能体流程的最强模式】(https://www.bestblogs.dev/status/2062529678590513475) · Daniel San(@dani_avila7) · 评分 90
解释在 Skills 中记录大型智能体流程的渐进式披露模式,分为启动(约 500 token 元数据常驻)、任务匹配(SKILL.md 触发加载)和深度执行(附件按需引用)三个阶段,通过按需加载将 token 消耗优化到最低。这是第一篇速览「如何写好 Skill」的工程补充,两篇配合阅读,可以对 Skill 设计的宏观原则与微观优化有更完整的认知。
第一优先:科技爱好者周刊第 399 期--中美 AI 算力与生态的第一手比较,信息密度最高,跨领域读者都能获益。在中美信息隔离日趋严重的背景下,这类第一手比较材料极为稀缺。
第二优先:汤道生姚顺雨对谈--腾讯首席 AI 科学家的战略陈述,与第一篇构成绝佳互文:前者是外部观察,后者是内部视角,两篇合读能拼出更完整的中国 AI 发展图景。他的「下半场才刚开始」与「context 是壁垒」两个判断,值得仔细推敲。
第三优先:LangSmith Sandboxes--如果你是正在构建或使用 Agent 的工程师,这篇是当日最具工程价值的文章,直接回答「Agent 安全执行环境」这个已经变得迫切的工程命题,且给出了具体的工程参考框架,读完可以直接用于技术决策。
如果还有余力,速览中的如何写好 Skill 和 Anthropic 递归自我改进 两篇也是今日高质量内容:前者是可立即落地的实操手册,后者是 AI 发展长线叙事中难得的内部数据视角。