Claude Code 负责人Boris Cherny与Cat Wu回顾一周年核心方法论:每次Claude犯错写入CLAUDE.md或Skill持久化规则而非口头纠正;Verification指agent亲自跑起来验证(如启动模拟器、computer use测试)。Auto Mode取代Plan Mode,用独立分类模型筛权限风险而非人工审批。Routines实现自动化运维(如监听GitHub bug自动提PR)。Context Minimalism主张最小system prompt和工具集。团队预判未来agent运行更久、成百上千并行,产品形态将巨变。
Claude Code 上线一周年:演进与方法论回顾
来自 Claude Code 负责人 Boris Cherny 与产品负责人 Cat Wu,从一年前首次内部 demo 只有两个 Slack 点赞,到现在绝对主流 Coding Agent,这一年 Claude Code 到底做对了什么? https://www.youtube.com/watch?v=Hth_tLaC2j8
# 两条底层方法论
1. 错误即资产:写入规则,而非口头纠正 Boris 的核心习惯:每次 Claude 犯错,不直接说「下次别这样」,而是写入 CLAUDE.md、Skill 或类似持久化机制。
逻辑是:口头纠正只影响当前会话;规则沉淀后,agent 可长期、反复、自主执行。这是「让 agent 几乎无限运行」的前提。
2. Verification(验证)≠ 单元测试 多数人把 verification 理解成 lint、类型检查、单元测试--这些早已自动化,不是 agent 时代的重点。
真正的 verification 是:agent 能否亲自「跑起来」验证结果。 · 早期案例:让 Opus 4 写完功能后,在 bash 里启动另一个 Claude CLI 自测。 · 现在:iOS/Android 模拟器、桌面应用的 computer use 点击测试已成常态。 · Cat 的实践:桌面开发 Skill 教 Claude 启动本地 app、点 UI、测边界;若 staging 异常,先读 Slack 判断是否环境问题;修完后更新 Skill,形成闭环。
要点:验证能力往往需要针对具体产品定制,无法一键通用。
# Loops/Routines:从「人用工具」到「系统替人值守」
Routines 被定位为 Agent SDK 之后第一个「显而易见」的规模化应用。
典型案例: · 某工程师为 Voice Mode 设 routine:监听所有相关 GitHub issue/bug → 自动提 PR → 通知本人。 · 另一 routine:5 小时未响应的 bug 自动修复,易验证的直接 merge。 · Cat 遇到自己功能的 edge case bug,还没动手,Claude 提示「另一个 Claude 已修好」。
组织影响: · 代码评审、CI 修复、rebase 等琐事,团队成员已很久没亲手做。 · 多个人的 Claude 并行工作,形成「隐形协作网」。
重点:把工程运维流程产品化、自动化。
# Auto Mode:取代 Plan Mode 的默认选择
Boris 明确表示:Plan Mode 已基本不用,全面切到 Auto Mode。
原因: · Opus 4 ~ 4.5 仍需显式规划;从 4.6、尤其 4.7 起,模型已能自主规划。 · Auto Mode 的价值是:启动 agent 后即可转向下一个任务,无需盯屏点确认。
安全设计的反直觉结论: 人工逐条审批 99% 都会点「是」的权限提示,反而更危险;Auto Mode 用独立分类模型筛风险,人只关注被拦截的少数异常,整体更安全。
上线前流程: · 收集数千条 agent 轨迹 + 权限请求,训练分类器; · 红队 prompt injection、渗透测试; · 建 eval,确保已知攻击全部被拒; · 内部团队继续攻击、迭代。
Boris 认为:「把 prompt 路由给另一个模型做安全检查」--他最初认为行不通,实测却效果很好。这反映基于大模型构建产品时,许多旧工程直觉需要重写。
# 组织变革:AI 必须成为流程中心