BestBlogs 周刊第98期:Agent时代在模型、产品、工程层同步爆发 · AI HOT
‹ 返回
ginobefun @hongming731 66
2026-06-05 20:25 ·9天前
AI 摘要 本周BestBlogs梳理20篇内容,聚焦Agent时代的三层爆发:模型层OpenAI升级ChatGPT“梦境”记忆架构、MiniMax M3开源(1M上下文+稀疏注意力)、Gemma 4 12B端侧Agent工作流;产品层Kimi Work Beta面向知识工作者、微软开源SkillOpt(3300 star,含文本学习率与拒绝编辑缓冲区)、扣子3.0升级为AI团队;工程层Anthropic发布Claude Code动态工作流(子代理编排)及其内部AI原生工程实践。
智能体 Anthropic OpenAI 现象/趋势
← 返回
ginobefun @hongming731 · X 66
2026-06-05 20:25 · 9天前
AI 摘要 本周BestBlogs梳理20篇内容,聚焦Agent时代的三层爆发:模型层OpenAI升级ChatGPT“梦境”记忆架构、MiniMax M3开源(1M上下文+稀疏注意力)、Gemma 4 12B端侧Agent工作流;产品层Kimi Work Beta面向知识工作者、微软开源SkillOpt(3300 star,含文本学习率与拒绝编辑缓冲区)、扣子3.0升级为AI团队;工程层Anthropic发布Claude Code动态工作流(子代理编排)及其内部AI原生工程实践。
Google 这篇文章的重点不是模型参数,而是工具链:AI Edge Gallery、Eloquent 和 LiteRT-LM CLI 三个工具让 Gemma 4 12B 在本地笔记本上运行完整 Agent 工作流,覆盖代码生成、数据可视化、语音编辑。端侧运行的核心价值是隐私、低延迟,以及离线可用。
→ 前往 BestBlogs 阅读:https://www.bestblogs.dev/article/cb28b58a
Kimi Work:把 Coding Agent 的能力迁移到桌面 GUI
Kimi Work Beta 版上线,定位明确:不是给开发者用的 Coding Agent,而是给普通知识工作者用的桌面 Agent。金融分析师做行业报告、科研人员整理文献、办公室处理流程性工作,全部用自然语言描述任务,Agent 去执行。多 Agent 并行和长程任务执行能力从开发者工具迁移到了更广的工作场景。值得关注的是,这个产品自身的开发也深度使用了 AI,是这一周不止一处出现的「吃自己狗粮」实践。
→ 前往 BestBlogs 阅读:https://www.bestblogs.dev/article/98fc56b1
SkillOpt:像训练神经网络一样训练 Agent 技能(深度)
微软在本周开源了 SkillOpt,一周收获 3,300 star,核心理念是把 Agent 的技能文档--类似 CLAUDE.md 这样指导 Agent 行为的自然语言文档--当作「可训练的外部权重」,用一套系统化循环自动优化。
- Rollout(前向传播):目标模型用当前技能文档执行一批任务,记录完整执行轨迹
- Reflect(反向传播):独立的优化器模型分析轨迹,失败案例用来找需要修正的规则,成功案例用来确认哪些规则在起作用
- Edit(参数更新):优化器基于反思结果,对技能文档执行 add / delete / replace 操作
- Gate(验证门控):新技能文档必须在 held-out 验证集上性能严格提升才被接受
「文本学习率」(textual learning rate):每步最多允许 4 条编辑操作,防止改动太大覆盖已有的有效规则。消融实验显示去掉这个约束后,SearchQA 准确率从 87.1% 降至 84.6%,LiveMath 从 61.3% 降至 57.3%。
拒绝编辑缓冲区(rejected-edit buffer):被验证拒绝的修改不会被丢弃,而是进入缓冲区。优化器下次可以看到这些失败尝试,避免重复同样的弯路。这个细节移除后,SpreadsheetBench 准确率从 77.5% 跌至 72.9%。
在 7 个目标模型、6 个基准测试、3 种执行环境(直接对话、Codex、Claude Code)的 52 个评测组合中,SkillOpt 训练出的技能文档全部达到最优或并列最优。
这个工作对实际工程的意义在于:每个用 Claude Code 或类似工具的人都在维护某种形式的技能文档,这个过程如果能被系统化,Agent 工程化的天花板会高出很多。
→ 前往 BestBlogs 阅读:https://www.bestblogs.dev/article/7b8c6b8d
扣子 3.0:从单 Agent 到可调度的 AI 团队
字节跳动把扣子 3.0 的核心定位从「AI 助手」升级为「AI 团队」--多个 Agent 组织进项目空间,通过技能商店安装专业能力,支持本地 Agent 接入和多端协同。这是 Coding Agent 那套编排理念的产品化翻译,受众从开发者扩展到了更广的用户群体。
→ 前往 BestBlogs 阅读:https://www.bestblogs.dev/article/b7bca3c0
本周最密集的一批内容集中在这里:Anthropic 两篇、国内四篇大厂长文,从实践记录到工程哲学,从不同角度指向同一个结论:软件工程正在经历范式迁移。
Claude Code 动态工作流:用子代理编排打破上下文限制(深度)
Anthropic 发布 Claude Code 动态工作流:模型可以在运行时自己写 Harness,根据任务需求即时构建定制化流程,然后编排独立子代理来执行复杂任务。
文章给了一批极具说服力的示例提示词,理解它们比读概念更直接:
> 「这个测试大概 50 次运行里有 1 次会失败,给我设计一个工作流来复现它,提出关于竞争条件的假设,不找到原因不停止。」
> 「翻我最近 50 个 session,把我反复在纠正的东西提取出来,变成 CLAUDE.md 规则。」
> 「把这份商业计划书,用工作流让不同的 Agent 分别从投资人、用户、竞争对手三个视角把它批一遍。」
这些提示词背后的逻辑是:让模型编排一个小团队来解决问题,而不是靠单次对话硬扛。动态工作流特别适合四类任务:大规模并行(如 80 份简历筛选)、需要对抗性视角(多角色批评同一方案)、高度结构化流程(如 rename 涉及数百个文件),以及需要反复实验的调试。
文章也坦承了代价:动态工作流通常消耗更多 token,最适合复杂、高价值任务,不是所有任务的默认选项。
→ 前往 BestBlogs 阅读:https://www.bestblogs.dev/article/d9ee6dfe
打造 AI 原生工程组织:Anthropic 的内部实践
Anthropic 工程团队公开了三个已经重写的工作规范:
计划方式:六个月路线图在三个月就过时了,改为「即时规划」(JIT planning)--更多靠原型、早期内测、快速反馈,而非预先的设计文档。
上下文获取:以前想了解一段代码先找写它的人,现在先问 Claude。Claude 承担了大量代码审查工作,人专注在更需要判断力的地方。
招聘标准:更看重有产品洞察力的创造者和深层系统专家,纯执行型工程师需求在减少。
这篇放在动态工作流文章之后读,会发现一件有意思的事:他们描述的工作方式,正是动态工作流设计所服务的那种工作场景。
→ 前往 BestBlogs 阅读:https://www.bestblogs.dev/article/f781c46a
OpenClaw 与 Hermes:55,000 字源码级 Agent 架构复盘
腾讯技术工程把 OpenClaw 微内核架构与 Hermes 单体架构并排拆解,覆盖 Gateway 路由、Channel 契约(25+ 协议适配)、记忆系统(三阶段加权晋升的 Dreaming 机制)、工具编排和安全边界。文章最后用 Google 新书《Agentic Design Patterns》的 21 个模式作为坐标系,重新审视两套架构的覆盖与空白。这是 Agent 工程化领域难得一见的源码级参照,适合正在做多端 Agent、长期记忆或跨平台工具编排的工程师深读。
→ 前往 BestBlogs 阅读:https://www.bestblogs.dev/article/19c7f702
腾讯云这篇将近 2 万字的文章,核心论断清晰:软件工程在过去五十年其实从未真正「工程化」过。其他工程门类(化工、电力、自动化)成功的路径是「消耗能源,把低阶认知固化成物理装置」,人从主回路退出。但软件要做的是抽象、推理、创造,是高阶认知,没法固化成电路,所以软件工程骨子里一直靠人脑堆。过去五十年的所有方法论(敏捷、DevOps、Scrum)都是在「管理人」,而不是「替代人」。
大模型第一次做到了「输入算力,输出高阶智能」,这才是经典工程意义上的「能源换智能」。作者批评现在主流的 Copilot 模式走不远,倡导「AI 为中心、人工辅助」,人的角色重塑为产线设计师和认知边界守卫者。他认为最难攻克的核心问题是「隐性知识蒸馏」--那些老工程师靠直觉判断、无法被明确写下来的工程经验,如何让 AI 系统真正习得。
→ 前往 BestBlogs 阅读:https://www.bestblogs.dev/article/f66bdbca
AI 研发自动化:Wiki 知识库 + 技能包的落地路径
阿里云开发者这篇把 LLM-Wiki 和 Agent Skill 结合成一套可落地的研发自动化方法:Wiki 持续更新团队上下文和知识,Skill 把可重复的工程流程固化下来,两者合在一起让 AI 从一次性问答变成长期工程资产。适合想把 AI 从工具升级为基础设施的团队参考。
→ 前往 BestBlogs 阅读:https://www.bestblogs.dev/article/d7edfb35
重新思考研发基础设施:当 Agent 成为第一公民
阿里巴巴研发基础设施负责人晓斌从一个小工具出发,观察到两个现象:代码生命周期从月和年缩短到了分钟,Infra 变得「不可见」了。他的框架是,软件系统一直是「意图驱动 + 代码沉淀」的进化体,以前的桥梁是人,现在是 Agent。这个替换要求基础设施从 People-Oriented 转向 Agent-Oriented,权限治理、可追溯性、Dry-run 验证等工具需要重新设计。
→ 前往 BestBlogs 阅读:https://www.bestblogs.dev/article/d0759109
AI Friendly 架构:从确定性到概率性的三大演进
大淘宝技术提出 AI Friendly 架构的三个演进维度:从确定性到概率性,从结构化到语义化,从静态到动态。实践数据:AI 审核准确率达 95.7%,AI 答疑系统效率提升超 80%。这篇适合正在设计新系统、想把 AI 嵌入核心流程的架构师阅读。
→ 前往 BestBlogs 阅读:https://www.bestblogs.dev/article/5771ef7f
纳德拉:微软是「前沿智能平台」,而不是模型公司(深度)
Latent Space 和 No Priors 在 Microsoft Build 现场联合访谈纳德拉,这期对话提供了微软 AI 战略的第一手阐述。
纳德拉最核心的框架是:微软的定位是「前沿智能平台」,而非模型公司。平台的意义是客户必须从 Microsoft 生态获得比微软自身多得多的价值。为此,他们构建了三层能力:
第一层是多模型套件(MAI、OpenClaw、Scout 等),企业可以选择最适合自己任务的模型组合;第二层是 Work IQ 上下文层,统一接入企业的文档、邮件、会议记录、代码;第三层是 Token IP 的概念,他说私有评估、traces 和 benchmark 是新时代的核心资产,就像工业时代的专利,积累的越早护城河越深。
对 SaaS 的冲击,纳德拉直接承认 Build vs Buy 的方程已经改变,SaaS 商业模式会被重构。但他的判断是:这个转变的受益者是能帮企业真正把 AI 价值落地的平台,而不是那些只提供工具的公司。
→ 前往 BestBlogs 阅读:https://www.bestblogs.dev/article/7ffd8109
黄仁勋:COMPUTEX 2026 上的「Agent 工厂」蓝图
本次 COMPUTEX 2026 最值得关注的不是某个单项产品,而是英伟达整体叙事的变化:从卖芯片变成提供完整的「Agent 工厂」。Vera Rubin 架构(NVL144 系统,含 144 颗 GPU)、DSX 数据中心超算平台、Nemotron 3 Ultra 推理模型、Cosmos 3 物理 AI 平台、人形机器人--这些合在一起,是从芯片到数据中心到模型到软件到物理 AI 的完整技术栈。
→ 前往 BestBlogs 阅读:https://www.bestblogs.dev/article/074ff85e
Benedict Evans:AI 是 1997 年的互联网,自动化的是任务而非工作
Benedict Evans 的比喻用得精准:现在是 AI 的 1997 年--基础设施在快速扩张,但绝大多数最终会改变世界的商业模式还没有被发明。他的核心判断:AI 自动化的是任务而非工作,「杰文斯悖论」意味着某件事变得更便宜时,需求反而会增加。基础模型会商品化,价值将向上层应用和分发能力集中。
→ 前往 BestBlogs 阅读:https://www.bestblogs.dev/video/ed8426c
阮一峰整理了 2026 年 5 月美国访问团实地走访中国 14 家 AI 和机器人公司的多位分析师观感。关键数据:美国算力约是中国的 8 倍(主要来自芯片出口管制);但中国公司在芯片约束下实现了效率创新,单位算力产出的智能达到简单扩展的 4 至 7 倍。此外,两个文化观察值得关注:中国公司大量使用才华横溢的实习生(与西方形成对比);中国研究人员对 AGI 取代自己「充满好奇而非恐惧」。
→ 前往 BestBlogs 阅读:https://www.bestblogs.dev/article/6933ad74
腾讯研究院这份 33,000 字报告的核心观察是:AI 最深刻的组织变革,起点往往不在高管会议室,而在某个工程师深夜感觉自己能力被放大了的那一刻,然后像涟漪向外扩散。
组织竞争力 = 人才密度 × AI 杠杆 / 组织摩擦
三个变量是乘除关系,不是加减:分母不变只翻分子,效果打折;分母减半等价于分子翻倍。这意味着降低组织摩擦(减少等待、审批、信息衰减)的投入回报,和提升 AI 杠杆一样重要。
AI First 的工作动线:不是遇到困难才问 AI,而是把 AI 排进整个工作流的默认起点,先让 AI 跑,再在 AI 的产出上做判断和修正。
能力边界的量级跃迁:不是提升百分之几十,而是十倍甚至更多。报告引用 Anthropic 一项基于 10 万条对话的生产力研究:样本任务若无 AI 辅助平均约需 1.4 小时,引入 AI 后任务完成时间平均减少约 80%;课程开发任务从估算的 4.5 小时降至 11 分钟,节省了 96% 的时间。
主动性:天然的边界探索者,不等待组织安排,主动寻找 AI 能力的极限。
影响力溢出:这是最关键的阈值。高效个体只让自己变快,超级个体让团队变快。如果同事毫无察觉你的 AI 杠杆,你还不是超级个体,只是一个使用 AI 的优秀员工。
从 AI 转型和 AI 原生的分歧视角来看,报告认为两者其实服从同一个底层逻辑:超级个体在存量组织内部涌现,能力溢出带动团队进化,这和 AI 原生团队的聚合方式本质相同,差别只在路径和约束。
→ 前往 BestBlogs 阅读:https://www.bestblogs.dev/article/712a9c1e
十字路口这期播客解析 FDE(Forward-Deployed Engineer,前场部署工程师)这一角色:他们的工作不是写功能代码,而是让 AI 真正在企业里运行起来,完成业务融合、知识治理和系统对接。Rolling AI 的「AI 副店长」案例说明了管理逻辑的变化:从标准化动作变成赋能一线做判断--这不只是效率提升,而是组织逻辑的重构。(这个话题在第 97 期 Pragmatic Engineer 那篇里也有出现,两篇合读更完整。)
→ 前往 BestBlogs 阅读:https://www.bestblogs.dev/podcast/fbaf942
这篇文章提出了一个让人认真思考的概念:「认知缴械」(Cognitive Surrender)。宾夕法尼亚大学 Steven Shaw 和 Gideon Nave 在 2026 年的研究中,把 AI 定义为人类认知的第三系统(System 3)--除了快思考的 System 1 和慢思考的 System 2 之外,AI 成了一个在大脑外部运行的认知系统。
研究数据让人警醒:1,372 名参与者完成了 9,593 次认知反射测试,参与者在超过一半的题目中主动选择向 AI 咨询。当 AI 给出正确答案时,90% 的人跟随;当 AI 给出错误答案时,依然有 80% 的人盲从。
文章做了一个历史梳理,能力外包在人类文明中一直存在:苏格拉底反对文字、GPS 削弱空间记忆、Google 改变记忆形态(从记住内容变为记住入口)。但 AI 影响的是「推理本身」这个核心能力,与以前的外包有本质不同--以前外包的是存储或执行,现在外包的是判断。
作者的立场不是反对 AI,而是指向一个具体的问题:在 AI 已经给了答案的情况下,我们是否还愿意停下来自己想一想?能否在效率和独立思考之间找到自己的边界?
> 如何守住认知主权,是这一期所有内容里,最需要每个人自己回答的问题。
→ 前往 BestBlogs 阅读:https://www.bestblogs.dev/article/70d76621
超级个体与 AI 时代的价值归属:Benedict Evans 的宏观分析
本期最后,建议把 Benedict Evans 的视频和腾讯研究院报告放在一起看:一个从宏观经济和历史格局解释为什么 AI 不会消灭工作,另一个从组织内部的微观实践说明如何成为 Agent 时代的受益者。两个视角,读完会有一种互相印证的感觉。
感谢阅读第 98 期。从模型到产品,从工程到组织,Agent 时代正在每个层面同时展开。如果这些内容对你有启发,欢迎转发给身边正在关注 AI 和知识工作的朋友。下周见。
BestBlogs.dev 是 AI 驱动的私人阅读助手。它会从 RSS、Newsletter、Twitter、YouTube、Podcast 等来源中筛选高质量内容,结合你关注的源、兴趣标签和阅读行为,把「我的早报」整理成每天真正适合你的阅读流--不论你关注的是技术、AI、产品、商业、研究、设计、投资、文化还是个人成长。
完成新用户三步引导即送 7 天 Pro 试用;现有 Pro 用户每邀请 1 位朋友双方各得 7 天 Pro(单人上限 28 天);欢迎到 bestblogs.dev 体验最新版本。
发现真正适合你的高质量内容--欢迎来体验,也欢迎推荐给身边认真阅读的朋友。
BestBlogs.dev · 发现真正适合你的高质量内容
#BestBlogs #AI #周刊 #Agent #软件工程 #超级个体
智能体 Anthropic OpenAI 现象/趋势 编码