BestBlogs 早报:Claude Code 实践、AI 自动化悖论、百川医疗 AI · AI HOT
ginobefun@hongming731
62
2026-05-26 08:37·20天前
AI 摘要
Anthropic 工程师 Ara 分享内部使用 Claude Code 的三项核心实践:将规格说明升级为 HTML 以提升结构密度;让模型通过 ask_user_question 工具主动采访需求;采用智能体原生 DOM 验证框架,实现人工、Opus 4.7 无头浏览器及 CI/CD 的统一验证。Every 公司 CEO Dan Shipper 用团队一年内从 15 人扩张至近 30 人的数据,反驳 AI 会大规模裁员的叙事,认为自动化反而催生需求增长与质量管控需求。百川智能创始人王小川透露,公司已收缩通用模型与金融等业务线,All in 医疗大模型,并即将发布新医疗大模型 M4。
http://x.com/i/article/2059070654180421632
# BestBlogs 早报 · 05-26|Claude Code 实践、AI 自动化悖论、百川医疗 AI
Anthropic 工程师 Ara 分享了他们内部使用 Claude Code 的第一手范式--规格说明从 Markdown 升级为 HTML、让模型来主持需求采访、以及智能体原生 DOM 验证框架,这是工程方法论层面的具体答案。Every 公司 CEO Dan Shipper 则用自家团队一年从 15 人扩至近 30 人的真实数据,颠覆了 AI 会大规模裁员的主流叙事。百川创始人王小川的对话则展示了一条更长远的选择:离开通用 AI 的主干道,把整个公司押注到「造医生」这件事上。
今日精选共 14 篇内容,覆盖 AI 工程实践、组织变革与人力影响、垂直 AI 产品以及 AI 安全治理等多个维度,让我们开始。
## 精讲一:Anthropic 内部如何使用 Claude Code:HTML 规格说明、让模型来采访你,以及智能体原生 DOM 验证框架
Anthropic Applied AI 团队的架构师 Ara 在一场内部工程工作坊上,分享了他们使用 Claude Code 的三项核心实践--每一项都和主流做法存在明显反差。这不是通用的「怎么写好提示词」指南,而是 Anthropic 工程师在大量实际场景中摸索出来的、真正有效的智能体原生工作方法。
从 Markdown 到 HTML 规格说明
过去,Markdown 一直是 AI 辅助开发中描述需求的主流格式。但随着模型能力提升、Agent 执行周期变长,依赖大段平铺文本的方式开始暴露问题:长上下文中细节容易被忽略,Agent 走偏时消耗大量 token 才能校正。
Ara 的团队将工程规格说明迁移到 HTML 格式。这不是单纯的格式替换,而是一次结构密度的升级。HTML 规格说明可以提供可视化检查的结构化基线--开发者可以直接在浏览器中看到设计变体(比如 Claude Opus 4.7 生成的极简风格或布鲁塔利主义风格方案),截图后送入模型视觉系统。这套方式在 Agent 真正开始执行改动之前,就建立了一个由人类审核确认的强基线,大幅降低了 Agent 跑偏的概率。
Tar 在内部提出的概念「HTML 文件的非理性有效性」,正是这一实践的理论出发点。结构化 HTML 不只是给模型看的--它同时也是给工程师看的,可供随时视觉验证的活文档。
让模型来采访你
Ara 把这一点联系到 Richard Sutton 的经典论文《苦涩的教训》(The Bitter Lesson)--依赖原始数据和算力,长期来看总能胜过人工设计的约束。
在与高级 AI Agent 协作时,工程师常见的两种失误:一是在开始阶段用过多硬规则约束模型,二是用「让它更好」这样的模糊指令驱动执行。Ara 的建议是颠倒这个过程:需求其实就在你脑子里,但你可能自己还没梳理清楚。 正确的方式是让 Claude 主动用 ask_user_question 工具来采访你--挖掘边界条件、用户领域和隐含约束。
这个做法的前提是让 Agent 运行在 auto 模式,并配置足够高的 effort 等级(比如 X-high 或 max effort),确保模型真正主导探索阶段,而不是被提前写死的规则框死。
智能体原生 DOM 验证框架
这是 Ara 分享中最核心、也最具操作价值的一部分。传统 Agent 测试往往依赖脆弱的 UI 爬取或字符串解析,一旦界面改变就容易失效。Anthropic 的做法是让组件主动向 DOM 发布数据契约--组件不只渲染视觉界面,还将状态、Schema、不变量等直接输出到 DOM 的解耦属性中。
Harness、Scaffold 以及值得厘清的 AI 智能体术语(Hugging Face Blog)
AI Agent 领域的术语正在快速膨胀,许多词在不同团队之间被混用或赋予不同含义。这篇来自 Hugging Face 的词汇表,针对 Model、Scaffolding、Harness、Agent、Context Engineering、Policy、Tool Use、Skill、Sub-agent 等常见但解释不一致的概念,给出了清晰实用的区分。不追求覆盖所有术语,聚焦于那些最容易被混淆的。建立共享心智模型是构建可维护 Agent 系统的基础。配合今天精讲一关于 Harness Engineering 的内容一起读,很有价值。
异构智能如何成为 AI 推理扩展的下一种范式(AI Engineer)
Callosum 联合创始人工程师 Adrian Bertagnoli 在 AI Engineer 大会上提出:单一大模型 + 均质算力的扩展方式,正在推理阶段撞到性能和成本天花板。下一步是异构智能--让模型、Agent、工作流与专用芯片协同路由,根据任务的认知需求选择最合适的执行路径。对正在构建多模型、多路由推理系统的工程师有直接参考价值。
Agent 公司的对手是工资单,不是 SaaS 预算|SVTR Signal #017(硅谷科技评论)
OpenAI 内部未发布的通用推理模型,成功反驳了 Paul Erdős 1946 年提出的平面单位距离问题猜想--这个猜想在离散几何领域悬置了整整 80 年。AI 通过跨学术领域连接不同知识,独立生成了一篇真正可发表的原创数学研究成果,这是业界的第一次。Wes Roth 详细分析了这一发现的过程与意义。对关注 AI 数学推理能力边界的研究者和产品人来说,这是一个值得细看的里程碑事件。
Anthropic 联合创始人 Chris Olah 对教皇利奥十四世通谕《伟大的人文》的评论(Anthropic News)
2026 年 5 月 25 日,教皇利奥十四世发布了关于 AI 的通谕《Magnifica humanitas》(On safeguarding the human person in the time of artificial Intelligence)。Anthropic 联合创始人 Chris Olah 受邀在梵蒂冈出席发布活动并发表讲话,认为 AI 引发的深刻问题早已超出计算机科学范畴,需要宗教、哲学和社会机构的实质参与。这是 Anthropic「拓宽 AI 对话圈」倡议的一部分。适合对 AI 伦理、社会影响与全球治理感兴趣的读者。
Palisade Research 执行主任 Jeffrey Ladish 与 Nathan Labenz 的深度对谈。主题是 AI 系统的现实安全风险:关闭抵制的实验证据、自主自我复制测试结果、智能体安全失效模式,以及全球算力治理的可能路径。标题「所有算力都是食物」来自对模型在实验环境下表现出的资源获取倾向的描述。信息密度很高,不是假设性的末日讨论,而是基于实验数据的近期风险分析。适合对 AI Safety 有基础了解的读者。
高德 AI Agent 自主增长系统实践:从想象到可运行的工程系统(ginobefun)
高德在 PC 站 SEO 增长场景下,利用 Harness Engineering 思想构建多 Agent 协作系统的工程实践 Thread。关键设计包括:将长任务拆解为 workflow 和状态机(DISPATCHED/ACKED/RUNNING/SUCCEEDED/FAILED),通过心跳、超时、重试保证链路可控;用文件化 Memory 管理产物(PRD、设计、架构明确落盘);Builder 与 Evaluator 职责彻底分离(零信任原则);Evaluator 通过 Benchmark 数据集被评估,三轮优化后均分从 64.5 升至 83.4;优先快速失败,低成本检查先于高成本验证。最后强调:现阶段更有价值的是降低人工介入频率而非追求 100% 无人化--这对独立开发者和一人公司尤其有启发。与今天精讲一的 Anthropic DOM 验证实践形成工程侧的呼应。
## 今日阅读路径
如果你今天时间有限,建议按以下顺序读三篇:
1. 精讲一:Anthropic 内部的 Claude Code 实践 - 如果你正在构建 AI Agent 或使用 Claude Code,这是今天最有直接落地价值的内容。HTML 规格说明、模型采访你、DOM 验证契约,三个方法可以直接在工作中尝试。
Anthropic 工程师 Ara 分享内部使用 Claude Code 的三项核心实践:将规格说明升级为 HTML 以提升结构密度;让模型通过 ask_user_question 工具主动采访需求;采用智能体原生 DOM 验证框架,实现人工、Opus 4.7 无头浏览器及 CI/CD 的统一验证。Every 公司 CEO Dan Shipper 用团队一年内从 15 人扩张至近 30 人的数据,反驳 AI 会大规模裁员的叙事,认为自动化反而催生需求增长与质量管控需求。百川智能创始人王小川透露,公司已收缩通用模型与金融等业务线,All in 医疗大模型,并即将发布新医疗大模型 M4。
http://x.com/i/article/2059070654180421632
# BestBlogs 早报 · 05-26|Claude Code 实践、AI 自动化悖论、百川医疗 AI
Anthropic 工程师 Ara 分享了他们内部使用 Claude Code 的第一手范式--规格说明从 Markdown 升级为 HTML、让模型来主持需求采访、以及智能体原生 DOM 验证框架,这是工程方法论层面的具体答案。Every 公司 CEO Dan Shipper 则用自家团队一年从 15 人扩至近 30 人的真实数据,颠覆了 AI 会大规模裁员的主流叙事。百川创始人王小川的对话则展示了一条更长远的选择:离开通用 AI 的主干道,把整个公司押注到「造医生」这件事上。
今日精选共 14 篇内容,覆盖 AI 工程实践、组织变革与人力影响、垂直 AI 产品以及 AI 安全治理等多个维度,让我们开始。
## 精讲一:Anthropic 内部如何使用 Claude Code:HTML 规格说明、让模型来采访你,以及智能体原生 DOM 验证框架
Anthropic Applied AI 团队的架构师 Ara 在一场内部工程工作坊上,分享了他们使用 Claude Code 的三项核心实践--每一项都和主流做法存在明显反差。这不是通用的「怎么写好提示词」指南,而是 Anthropic 工程师在大量实际场景中摸索出来的、真正有效的智能体原生工作方法。
从 Markdown 到 HTML 规格说明
过去,Markdown 一直是 AI 辅助开发中描述需求的主流格式。但随着模型能力提升、Agent 执行周期变长,依赖大段平铺文本的方式开始暴露问题:长上下文中细节容易被忽略,Agent 走偏时消耗大量 token 才能校正。
Ara 的团队将工程规格说明迁移到 HTML 格式。这不是单纯的格式替换,而是一次结构密度的升级。HTML 规格说明可以提供可视化检查的结构化基线--开发者可以直接在浏览器中看到设计变体(比如 Claude Opus 4.7 生成的极简风格或布鲁塔利主义风格方案),截图后送入模型视觉系统。这套方式在 Agent 真正开始执行改动之前,就建立了一个由人类审核确认的强基线,大幅降低了 Agent 跑偏的概率。
Tar 在内部提出的概念「HTML 文件的非理性有效性」,正是这一实践的理论出发点。结构化 HTML 不只是给模型看的--它同时也是给工程师看的,可供随时视觉验证的活文档。
让模型来采访你
Ara 把这一点联系到 Richard Sutton 的经典论文《苦涩的教训》(The Bitter Lesson)--依赖原始数据和算力,长期来看总能胜过人工设计的约束。
在与高级 AI Agent 协作时,工程师常见的两种失误:一是在开始阶段用过多硬规则约束模型,二是用「让它更好」这样的模糊指令驱动执行。Ara 的建议是颠倒这个过程:需求其实就在你脑子里,但你可能自己还没梳理清楚。 正确的方式是让 Claude 主动用 ask_user_question 工具来采访你--挖掘边界条件、用户领域和隐含约束。
这个做法的前提是让 Agent 运行在 auto 模式,并配置足够高的 effort 等级(比如 X-high 或 max effort),确保模型真正主导探索阶段,而不是被提前写死的规则框死。
智能体原生 DOM 验证框架
这是 Ara 分享中最核心、也最具操作价值的一部分。传统 Agent 测试往往依赖脆弱的 UI 爬取或字符串解析,一旦界面改变就容易失效。Anthropic 的做法是让组件主动向 DOM 发布数据契约--组件不只渲染视觉界面,还将状态、Schema、不变量等直接输出到 DOM 的解耦属性中。
Harness、Scaffold 以及值得厘清的 AI 智能体术语(Hugging Face Blog)
AI Agent 领域的术语正在快速膨胀,许多词在不同团队之间被混用或赋予不同含义。这篇来自 Hugging Face 的词汇表,针对 Model、Scaffolding、Harness、Agent、Context Engineering、Policy、Tool Use、Skill、Sub-agent 等常见但解释不一致的概念,给出了清晰实用的区分。不追求覆盖所有术语,聚焦于那些最容易被混淆的。建立共享心智模型是构建可维护 Agent 系统的基础。配合今天精讲一关于 Harness Engineering 的内容一起读,很有价值。
异构智能如何成为 AI 推理扩展的下一种范式(AI Engineer)
Callosum 联合创始人工程师 Adrian Bertagnoli 在 AI Engineer 大会上提出:单一大模型 + 均质算力的扩展方式,正在推理阶段撞到性能和成本天花板。下一步是异构智能--让模型、Agent、工作流与专用芯片协同路由,根据任务的认知需求选择最合适的执行路径。对正在构建多模型、多路由推理系统的工程师有直接参考价值。
Agent 公司的对手是工资单,不是 SaaS 预算|SVTR Signal #017(硅谷科技评论)
OpenAI 内部未发布的通用推理模型,成功反驳了 Paul Erdős 1946 年提出的平面单位距离问题猜想--这个猜想在离散几何领域悬置了整整 80 年。AI 通过跨学术领域连接不同知识,独立生成了一篇真正可发表的原创数学研究成果,这是业界的第一次。Wes Roth 详细分析了这一发现的过程与意义。对关注 AI 数学推理能力边界的研究者和产品人来说,这是一个值得细看的里程碑事件。
Anthropic 联合创始人 Chris Olah 对教皇利奥十四世通谕《伟大的人文》的评论(Anthropic News)
2026 年 5 月 25 日,教皇利奥十四世发布了关于 AI 的通谕《Magnifica humanitas》(On safeguarding the human person in the time of artificial Intelligence)。Anthropic 联合创始人 Chris Olah 受邀在梵蒂冈出席发布活动并发表讲话,认为 AI 引发的深刻问题早已超出计算机科学范畴,需要宗教、哲学和社会机构的实质参与。这是 Anthropic「拓宽 AI 对话圈」倡议的一部分。适合对 AI 伦理、社会影响与全球治理感兴趣的读者。
Palisade Research 执行主任 Jeffrey Ladish 与 Nathan Labenz 的深度对谈。主题是 AI 系统的现实安全风险:关闭抵制的实验证据、自主自我复制测试结果、智能体安全失效模式,以及全球算力治理的可能路径。标题「所有算力都是食物」来自对模型在实验环境下表现出的资源获取倾向的描述。信息密度很高,不是假设性的末日讨论,而是基于实验数据的近期风险分析。适合对 AI Safety 有基础了解的读者。
高德 AI Agent 自主增长系统实践:从想象到可运行的工程系统(ginobefun)
高德在 PC 站 SEO 增长场景下,利用 Harness Engineering 思想构建多 Agent 协作系统的工程实践 Thread。关键设计包括:将长任务拆解为 workflow 和状态机(DISPATCHED/ACKED/RUNNING/SUCCEEDED/FAILED),通过心跳、超时、重试保证链路可控;用文件化 Memory 管理产物(PRD、设计、架构明确落盘);Builder 与 Evaluator 职责彻底分离(零信任原则);Evaluator 通过 Benchmark 数据集被评估,三轮优化后均分从 64.5 升至 83.4;优先快速失败,低成本检查先于高成本验证。最后强调:现阶段更有价值的是降低人工介入频率而非追求 100% 无人化--这对独立开发者和一人公司尤其有启发。与今天精讲一的 Anthropic DOM 验证实践形成工程侧的呼应。
## 今日阅读路径
如果你今天时间有限,建议按以下顺序读三篇:
1. 精讲一:Anthropic 内部的 Claude Code 实践 - 如果你正在构建 AI Agent 或使用 Claude Code,这是今天最有直接落地价值的内容。HTML 规格说明、模型采访你、DOM 验证契约,三个方法可以直接在工作中尝试。