外部:模型能力的提升在加速。 AI 能可靠独立完成的任务时长,大约每四个月翻一倍,比之前每七个月翻一倍更快了。具体说,2024 年 3 月 Claude Opus 3 只能搞定人类约四分钟的软件任务,一年后 Sonnet 3.7 能做约一个半小时的,再一年后 Opus 4.6 能做 12 小时的任务。
在 AI 历史上的大多数时候,开发的每一步都由人来推动。但在 Anthropic,我们正把越来越多的 AI 开发工作交给 AI 系统自己来做,这让我们的工作明显加快了。
这个趋势一旦走得够远、算力给得够足,最终指向的就是这样一种 AI 系统:它能完全自主地设计并开发出自己的下一代。这就是所谓的递归自我改进。我们还没走到那一步,递归自我改进也并非注定会发生。但它到来的时间,可能比大多数机构准备好的要早。
The Anthropic Institute 结合公开的基准测试和 Anthropic 内部此前从未披露的数据,要说明一件事:AI 已经在加速 AI 系统的开发。举一个例子就够了:今天,Anthropic 的工程师平均每季度交付的代码量,是 2021 到 2025 年间的 8 倍。
本文谈到的这些技术趋势意味着,未来几年里 AI 系统的能力会强出一大截。这些趋势的影响极其深远。能够构建自己的 AI,将是技术史上的一件大事--它可能为世界带来巨大的好处,无论是在科学、医疗还是其他领域。但完全的递归自我改进,也可能加大人类失去对 AI 系统控制权的风险。如果系统有能力完全造出自己的下一代,那么我们如何为它们加固安全、如何监控它们、如何塑造它们的行为,每一项都会变得重要得多。
不管在工程还是研究上,呈现出来的画面是一致的。工程方面,你可以把一个没说清楚的问题丢给 Claude,它自己就能琢磨出怎么解;人负责给目标,但已经不必再给方法。研究方面,只要实验定义得足够清楚,Claude 执行起来已经能追平甚至胜过熟练的人。可一旦轮到需要 Claude 自己拿主意、去挑该追哪个目标--不管是工程还是研究--巨大的差距依然存在。今天的 AI 和未来那个能自主设计出自己下一代的系统之间,差的就是这一段。
在 Anthropic,员工资历越深,接到的任务往往越开放、越重要,这很常见。刚来的时候,他们执行别人定好的任务,比如:*"导出按钮坏了,麻烦修一下。"积累了经验之后,别人只给一个目标,方案由他们自己来设计,比如:"查一查网络在高负载下为什么会变慢。"到了最资深的层级,他们要决定的是哪些问题压根值不值得做:"团队下个季度该造点什么?"*我们可以用 Anthropic 的内部数据,看看 Claude 在应对这几类不同任务上走到了哪一步。
Claude 写了 Anthropic 相当大一部分代码。 截至 2026 年 5 月,我们合入 Anthropic 代码库的代码里,超过 80% 出自 Claude 之手。3而在 Claude Code 于 2025 年 2 月以研究预览版亮相之前,这个数字还只有个位数低位。这个转变也体现在每名工程师的产出上。在 Anthropic 头四年里(2021-2024),每名工程师每天合入的代码行数基本没变;到了 2025 年,当 Claude 开始亲自跑代码、而不只是给个建议让工程师复制粘贴时,这个数字开始往上走。2026 年,当模型开始在更长的任务时长里自主干活,曲线的斜率又陡了一截。下面这张图标出了这两个拐点。2026 年第二季度,一名普通工程师每天合入的代码量,是 2024 年的 8 倍。4原因在于,大部分代码是 Claude 写的,工程师负责指挥和审查,而不是自己一行行敲。
得提个醒:代码行数是个不完美的衡量标准,它只看数量不看质量。所以 2026 年第二季度每名工程师每天 8 倍的代码行数,几乎可以肯定是高估了真实的生产力提升。但它至少说明在加速。在 Anthropic,我们不会按谁写的代码行数多去奖励谁;团队成员之所以产出更多代码,单纯是因为他们在用 AI 系统来写更多代码。
代码行数的增长,和"生产力大幅提升"这种主观感受是对得上的。2026 年 3 月,我们对来自 Anthropic 各研究团队的 130 名员工做了一次调查,对于那些不管有没有 AI 都会去做的项目,受访者的中位数估计是:用上 Mythos Preview 后,他们的产出大约是没有任何 AI 模型时的 4 倍。5我们预计 3 月份真实的提升幅度要略低一些。6但即便如此,我们认为这个总体说法是可信的,也和我们其他的观察一致:相当一部分 Anthropic 技术人员,正在以没有 AI 辅助时数倍的速度完成他们的核心工作。
我们还看到一些证据:Anthropic 的人正在用 Claude 去做一些本来根本不会发生的工作,比如搭建探索性的工具,处理那些拖了很久的清理活儿。举个例子,2026 年 4 月,Claude 交付了 800 多个修复,把某一类 API 错误的发生率降到了原来的千分之一。负责盯着 Claude 干这事的工程师估计,换成人来做要花四年;解别人留下的 bug 又慢又磨人,而且人很难一下子把那么多陌生的上下文塞进脑子里。
Claude 写的代码"好",而且越来越好。 所谓"好代码",有两层意思:一是它能跑通,二是它写得让另一个工程师能看懂、能在它的基础上继续往下做。先看第一层,证据很清楚。过去一年里,Anthropic 的工程师在任务进行到一半时去纠正、改方向、或干脆接手 Claude 的频率,一直在稳步下降--哪怕是最复杂、最开放的任务也是如此。这里说的"开放任务",指的是那种没有明确规格说明、连工程师自己都不确定答案长什么样的问题。这一点,从 Claude 在不同难度任务上随时间变化的成功率就能看出来,见下图。Claude 写的代码能跑通。
怎么看这张图:会话是否成功,由一个 Claude 评判者来判定;如果 Claude Code 智能体(agent)明显完成了用户的任务、过程中无需任何纠正,这次会话就算成功。工作负载的变化会导致成功率出现短期波动。
第二层标准,是写出另一个工程师能看懂、能在上面接着搭的代码。在这一层,人和 AI 之间的差距还在,但正在飞快缩小。Anthropic 内部没有完全的共识,但很多人认为,截至 2025 年底,Claude 写的代码在质量上仍然不如 Anthropic 人类工程师写的,而今天大致打平。我们预计,一年之内它就会更好。
这已经改变了 Anthropic 自己审代码的方式。如今,提交到我们代码库的改动,在被合入之前,先要经过一个自动化的 Claude 审查者--它专门找 bug、安全漏洞和其他缺陷。借助这个工具,我们做了一次回溯分析,发现:如果当初我们代码库的每一处改动都先过一遍 Claude 自动审查,那么 claude.ai 过往事故背后约三分之一的 bug,本可以在它们流入生产环境之前就被拦下来。写下那些代码的工程师,是全世界搭这类系统最顶尖的一批人。而 Claude 现在正在抓住他们漏掉的错误。
给 Claude 一个别人定好的目标,它很擅长跑实验去达成。 Anthropic 每发布一个模型,我们都会跑同一个测试:给 Claude 一段用来训练小型 AI 模型的代码,要求它在保证通过同样的正确性检查的前提下,让这段代码跑得尽可能快。目标和成功的衡量标准是事先定死的,所以 Claude 要做的,就是通过重写代码、运行、计时、再重写,去找到提速的办法。这就是一个微缩版的实验研究循环。2025 年 5 月,Claude Opus 4 相对初始代码平均能做到约 3 倍提速。到 2026 年 4 月,Claude Mythos Preview 已经能做到约 52 倍。作为参照,一名熟练的人类研究员要达到 4 倍,得花四到八小时。7 在研究流程的这一环--在一个边界清晰的实验里优化各个步骤--Claude 在不到一年的时间里,从"非常有用"变成了"超越人类"。
> 今天大致的格局是这样:人类出想法,而模型能比以前快上一个【数量级】去实现、测试和评估这些想法。
Claude 在自己提出实验这件事上,也越来越强了。 2026 年 4 月,Anthropic 发布了首个 Claude 端到端独立跑完一个开放式研究项目的演示。我们把一个 AI 安全领域的开放问题交给了由 Claude 驱动的智能体--大致就是问:弱模型能否可靠地监督强模型?--然后任由它们去解决。这中间要提出假设、检验假设、把发现分享给并行运行的其他智能体、再不断迭代。这个任务有清晰的成绩"下限"和"上限":下限是那个弱的监督者自己单干能做到多好;上限是强模型在用正确答案训练后能做到多好。两名人类研究员花了约一周,把这中间的差距弥合了约 23%;而那些智能体在累计 800 小时里弥合了 97%,用掉了约 1.8 万美元的算力。这项工作也有一些需要打折扣的地方:结果没能干净利落地迁移到生产规模的模型上,而且问题仍然是人类挑的、评分标准也是人类定的。但在这些边界之内,每一个实验都是智能体自己设计的。人类唯一起到实质作用的角色,就是定方向。
Claude 在把研究会话引向研究成果这件事上,也越来越强。 我们考察了一批真实的 Claude Code 会话(时间在 2026 年 1 月到 3 月之间),里面 Anthropic 的研究员正和 Claude 一起处理某个开放式的探查问题,比如搞清楚一次训练运行为什么老是崩溃,或者一个模型为什么在某项基准测试上得分很差。每一个案例里,我们都找到了一个研究员走弯路的时刻:他们追了一个方向,把会话带偏了,最后才又拐回正轨。然后,我们只把会话走偏之前的工作展示给不同的 Claude 模型,问它们下一步会怎么做。再由另一个能看到会话最终如何收场的 Claude,去判断到底是 AI 还是人类提出的下一步更好。8
种种证据表明,在 AI 研发的每一个环节,人的角色都在收窄。一旦人类写的代码和 AI 写的代码质量打平,人类就会彻底不再亲手写代码,转为只做审查。但如果人类审代码的速度跟不上 Claude 生成代码的速度,人工审查就会成为 AI 研发的瓶颈。同样,一旦 Claude 能自己跑实验,问题就转向了"这些实验里哪个值得跑?"。说白了:那些动手的活儿(写代码、跑实验、产出结果)现在几乎不再花掉人的时间,哪怕它依然要消耗算力。
针对上面这些证据,一个很自然的反驳是:还握在人类手里的那部分活儿--决定要去攻克哪些问题--才是最要紧的。没有这份判断力,Claude 只是个能干的助手,而不是一个能独立推动 AI 进步的系统。
今天的训练方法和架构能不能解锁这种能力,确实说不准。但 AI 的进步很少是靠"灵光一现"实现的。AI 近些年的历史里确实有过几次这样的时刻,比如 Transformer 架构,或者混合专家模型(mixture-of-experts),但能改变范式的想法,往往隔好几年才来一次。在这些时刻之间,大多数进步都是渐进的:我们把某个东西放大规模,看它哪里崩了,修好,再试一次。而这恰恰是 Claude 如今最擅长的那种工作流。爱迪生说,天才是 1% 的灵感加 99% 的汗水。但我们看到的是,汗水正在被越来越多地自动化。事情正变得越来越清楚:推动前沿往前走的东西,很大一部分是可以自动化的;大规模的研究进展,主要取决于工具和资源--它们决定了你能多快跑实验、一次能跑多少个、多快能拿到结果。
就算我们假设 Claude 永远练不出好的研究品味,对我们这些证据做一种保守的解读,仍然会推出一种复利式的加速。如果人类把大部分时间都花在那一小部分(个位数比例)属于定方向的工作上,其余的全交给 Claude,那就意味着每一位工程师或研究员,都在驾驭比从前多得多的工作量。我们看到的证据表明,Anthropic 的人既跑得更快,又覆盖了更宽的面。落到实处就是:AI 已经让 Anthropic 比有效 AI 工具出现之前快了很多。
更不保守的解读则是:Claude 的研究判断力正在改善--这一证据如今虽然还很窄--但它本身就是一个信号,说明这项能力也在长进。"研究品味"也许只是又一项 AI 能力:AI 系统起初做不好,过一阵子就做好了。我们在其他偏定性的技能上已经见过类似的轨迹,比如 AI 系统能解释一个笑话为什么好笑、能展现心智理论(theory of mind,推测他人想法的能力)、能解开语言谜题。
1. 趋势停滞,但今天的 AI 能力已被广泛扩散。 本文画出了许多条指数增长的轨迹。但这些轨迹最后也许其实是一条条 S 型曲线。我们可能正在逼近曲线的拐弯处--规模带来的回报开始递减,曲线先变直,再趋平。把一个合格研究员和一个杰出研究员区分开来的那份判断力,也许是一种靠堆算力、堆数据这类训练输入根本得不到的能力。如果真是这样,要突破这道瓶颈,就得有一个新想法,比如一种取代当前所有前沿模型都在用的 Transformer 架构的全新架构路径。又或者,制约 AI 进步的硬约束不在模型本身,而在供应链上:推动前沿往前走、并把它扩散出去,所需要的能源和算力可能比现在拥有的更多。真正的瓶颈,也许是芯片制造的速度、电网扩容的速度、或者互连带宽,而不是智能本身。我们也不能排除 AI 生态遭遇某种外部冲击、把一切大幅拖慢的可能,比如算力或电力的供给突然萎缩--无论哪一种,都会拖慢进步,并让各家实验室的前期投入变得更贵。再或者,我们可能根本没料到还有别的什么障碍挡在前面。就算模型能力被冻结在今天这个水平,我们仍然预期世界上会发生重大变化。Project Glasswing(玻璃翼计划)就是一个早期的征兆:上线头几周,Mythos Preview 就在全球最关键的一批系统中找出了一万多个高危和严重级别的软件漏洞--多到网络防御的瓶颈已经从"找出漏洞"转移到了"够快地把漏洞补上"。而我们把今天的模型扩散进更广阔经济体的进程,其实还处在很早的阶段--在那里,一家 100 人的公司将越来越能干出 1000 人公司的活儿,因为每个员工都坐在一座由智能体堆成的金字塔顶上。我们把这种情景列出来是为了完整,但并不认为它很可能发生。每一项我们能测量的能力,包括那些感觉更"软"的能力--比如代码质量、开放式任务上的成功率--到目前为止都沿着同一条曲线走。我们还没看到这条曲线拐弯。在我们考虑的三种未来里,这一种会给政府和社会留下最多的适应时间。我们更担心的是后面两种,它们会推进得更快,留给我们准备的空间也要小得多。
1. AI 实验室持续看到复利式的效率收益。 在这种情景里,AI 研发被大幅自动化,但人类继续来定研究方向、判断结果。随着时间推移,那些使用 AI 系统的组织会变得高效得多,于是我们可以预期,这种组织里的每个人都会被乘上一个可观的生产力倍数。100 人的公司能干出 1 万人甚至 10 万人组织的活儿。这会彻底改写知识工作和政府服务,但也可能被用到有害的方向上--从对整个人口的威权式监控,到那种为每一个个体量身定制操纵、并以任何人类团队都望尘莫及的规模运转的影响力行动。Anthropic 这类公司里,人的角色会随之转变。人们会跟 AI 系统结成搭档去放大研究、产出新的洞见,并一起搭建那些用来核查"AI 产出是否可信"所需要的系统。我们在这里铺陈的证据表明,我们很可能正走向这种情景。但是,把一个流程里的某一段加速了,往往只是把瓶颈挪到了别处:整体节奏,会被那些还没提速的环节卡住。在计算机领域,这叫阿姆达尔定律(Amdahl's law),同样的逻辑也适用于组织。Anthropic 已经撞上了阿姆达尔定律的一个典型表现:随着我们开始在组织内部推动更多代码流转,人工代码审查变成了一个新的瓶颈。这种摩擦在工程之外的地方我们也碰到过。Anthropic 的员工借助能力极强的模型,催生出了大量新点子、新计划、新工具、新模拟--多到远远超出我们能去落实的容量。一个组织能多快发现并修掉这些瓶颈,也许本身就是一项会随时间长进的技能,而且它可能会成为任何组织最重要的那项技能。
1. AI 系统自身具备完整的递归自我改进能力,并开始构建它们的后继者。 如果能力推进的技术趋势延续下去,并且 AI 系统能发展出那种属于变革性人类智慧的能力,那么 AI 系统设计并打磨自己,就是有可能发生的事。在这个世界里,AI 研发的进步节奏将完全取决于 AI 系统能拿到多少算力(或者发现算法训练、推理上各种提效手段的速度)。人类在研发中扮演的角色会大大缩小,很可能把我们的精力大多挪到对一个不断扩张、由 AI 系统运转的"虚拟实验室"做监督、验证和核查上。我们预期,有能力自动化 AI 研发的系统,其技能会迁移到科学的其余领域,让它们开始去变革其他学科。在这种未来里,对齐问题(alignment problem,让 AI 行为符合人类意图)会怎么被解决--或者解不解得了--是我们最没把握的事。模型可能被证明足够对齐、研究品味也足够好,于是发现并实现一些我们还没触及的新解法。它们也可能足够明智,在没法解决时主动叫停研发。但反过来,今天的模型身上那些罕见的失准现象,也可能在模型构建后继者的过程中层层累积,变得越来越频繁、却越来越无人能懂,直到我们对它们失去控制。也有可能,我们根本造不出、整合不了、也核查不了那些我们用来判断"自己究竟落在哪条趋势线上"所需要的工具。对于这个世界会是什么样,我们没有什么靠谱的直觉,因为我们的经济目前是由人类和人类造的工具驱动的。从本质上说,一个由快速递归自我改进驱动的世界,可能会被那个自我改进的模型所主导--它的能力彻底盖过人类,又在更广阔的经济体里大量铺开。如果人类的劳动不再有竞争力,经济会变成什么样,很难预测。就算模型研发变得彻底自动化、彻底递归,我们也无法预测这对大多数人的日常生活意味着什么。阿姆达尔定律在这里同样适用。递归智能可能让我们在某些领域里很快就实现 《Machines of Loving Grace》(慈爱机器,Dario Amodei 的同名文章)中勾勒的许多好处。我们预期,具身智能(也就是机器人技术)可能会很快跟上递归智能,并沿着一条类似的路径走--回报递增,成本递减。更强大的智能也许能帮我们更快地在物理世界里造东西,把救命药的临床试验跑得更有成效,并发展出全新的协调形式。但单单实现了递归改进,并不意味着工业生产怎么进行、社会怎么组织、市场怎么运转就会立刻改变。再多的智能,也学不会一款药在几十年的服用中到底有什么效果,没法让选举来得比宪法规定的更早,也没法在一个周末里把陌生人变成多年老友。对大多数人来说,这种未来在体感上的节奏,仍然会由那些瓶颈来设定,哪怕上游的实验室是以算力的速度在运转。这种碰撞--递归智能把自己造得越来越快,撞上人、关系与治理的世界--也是这个未来里我们无法预测的一部分。
我们认为,让世界手里握有一个放慢或暂时叫停前沿 AI 开发的选项,是件好事--这样社会结构和对齐研究(让 AI 行为符合人类意图)才有机会跟上技术的脚步。Anthropic Institute 将开展研究--与许多其他机构合作--并采取行动,帮助搭建一套可信的放慢或暂停所必需的系统。这套系统能让前沿 AI 开发者核查:全球其他人是否真的停了或慢了下来,以及某个不良玩家是否可能打着协调放慢的旗号、暗地里偷偷抢跑。如果这样的系统真的存在,我们预计自己也会放慢或暂时暂停--前提是其他处在前沿或逼近前沿的开发者也以一种可核查的方式这么做。
一次有分量的放慢或暂停,需要多个资源充足、处在前沿或逼近前沿的实验室--分布在多个国家--同意在同一套条件下停下来。它还需要每一方都能核查其他各方是否真的停了。由于 AI 系统的独特性质,这个军控难题里"可探测性"(一个比可核查性更低的标准)这一环,比其他技术要棘手得多。训练运行比导弹发射井更容易隐藏,它的投入又是通用的,而悄悄违约的诱惑大得惊人--因为在别人暂停时还在继续往前跑的那一方,就能把领先地位收入囊中。一个可信的暂停还得说清楚:什么触发它、什么解除它、由谁来裁定。
1. Anthropic 的高层曾公开估计,我们的代码有 90% 或更多是 Claude 写的,包括各种脚本和实验性代码。我们这里给出的 80% 以上这个数字,衡量的是合入生产环境的代码行数里可归功于 Claude 的占比。这个测算在两方面更保守:一是我们的归因流程本身有缺口;二是没有归到 Claude 名下的那些代码行里,还包含自动生成的代码和其他同样不是人手写的产物。
外部:模型能力的提升在加速。 AI 能可靠独立完成的任务时长,大约每四个月翻一倍,比之前每七个月翻一倍更快了。具体说,2024 年 3 月 Claude Opus 3 只能搞定人类约四分钟的软件任务,一年后 Sonnet 3.7 能做约一个半小时的,再一年后 Opus 4.6 能做 12 小时的任务。
在 AI 历史上的大多数时候,开发的每一步都由人来推动。但在 Anthropic,我们正把越来越多的 AI 开发工作交给 AI 系统自己来做,这让我们的工作明显加快了。
这个趋势一旦走得够远、算力给得够足,最终指向的就是这样一种 AI 系统:它能完全自主地设计并开发出自己的下一代。这就是所谓的递归自我改进。我们还没走到那一步,递归自我改进也并非注定会发生。但它到来的时间,可能比大多数机构准备好的要早。
The Anthropic Institute 结合公开的基准测试和 Anthropic 内部此前从未披露的数据,要说明一件事:AI 已经在加速 AI 系统的开发。举一个例子就够了:今天,Anthropic 的工程师平均每季度交付的代码量,是 2021 到 2025 年间的 8 倍。
本文谈到的这些技术趋势意味着,未来几年里 AI 系统的能力会强出一大截。这些趋势的影响极其深远。能够构建自己的 AI,将是技术史上的一件大事--它可能为世界带来巨大的好处,无论是在科学、医疗还是其他领域。但完全的递归自我改进,也可能加大人类失去对 AI 系统控制权的风险。如果系统有能力完全造出自己的下一代,那么我们如何为它们加固安全、如何监控它们、如何塑造它们的行为,每一项都会变得重要得多。
不管在工程还是研究上,呈现出来的画面是一致的。工程方面,你可以把一个没说清楚的问题丢给 Claude,它自己就能琢磨出怎么解;人负责给目标,但已经不必再给方法。研究方面,只要实验定义得足够清楚,Claude 执行起来已经能追平甚至胜过熟练的人。可一旦轮到需要 Claude 自己拿主意、去挑该追哪个目标--不管是工程还是研究--巨大的差距依然存在。今天的 AI 和未来那个能自主设计出自己下一代的系统之间,差的就是这一段。
在 Anthropic,员工资历越深,接到的任务往往越开放、越重要,这很常见。刚来的时候,他们执行别人定好的任务,比如:*"导出按钮坏了,麻烦修一下。"积累了经验之后,别人只给一个目标,方案由他们自己来设计,比如:"查一查网络在高负载下为什么会变慢。"到了最资深的层级,他们要决定的是哪些问题压根值不值得做:"团队下个季度该造点什么?"*我们可以用 Anthropic 的内部数据,看看 Claude 在应对这几类不同任务上走到了哪一步。
Claude 写了 Anthropic 相当大一部分代码。 截至 2026 年 5 月,我们合入 Anthropic 代码库的代码里,超过 80% 出自 Claude 之手。3而在 Claude Code 于 2025 年 2 月以研究预览版亮相之前,这个数字还只有个位数低位。这个转变也体现在每名工程师的产出上。在 Anthropic 头四年里(2021-2024),每名工程师每天合入的代码行数基本没变;到了 2025 年,当 Claude 开始亲自跑代码、而不只是给个建议让工程师复制粘贴时,这个数字开始往上走。2026 年,当模型开始在更长的任务时长里自主干活,曲线的斜率又陡了一截。下面这张图标出了这两个拐点。2026 年第二季度,一名普通工程师每天合入的代码量,是 2024 年的 8 倍。4原因在于,大部分代码是 Claude 写的,工程师负责指挥和审查,而不是自己一行行敲。
得提个醒:代码行数是个不完美的衡量标准,它只看数量不看质量。所以 2026 年第二季度每名工程师每天 8 倍的代码行数,几乎可以肯定是高估了真实的生产力提升。但它至少说明在加速。在 Anthropic,我们不会按谁写的代码行数多去奖励谁;团队成员之所以产出更多代码,单纯是因为他们在用 AI 系统来写更多代码。
代码行数的增长,和"生产力大幅提升"这种主观感受是对得上的。2026 年 3 月,我们对来自 Anthropic 各研究团队的 130 名员工做了一次调查,对于那些不管有没有 AI 都会去做的项目,受访者的中位数估计是:用上 Mythos Preview 后,他们的产出大约是没有任何 AI 模型时的 4 倍。5我们预计 3 月份真实的提升幅度要略低一些。6但即便如此,我们认为这个总体说法是可信的,也和我们其他的观察一致:相当一部分 Anthropic 技术人员,正在以没有 AI 辅助时数倍的速度完成他们的核心工作。
我们还看到一些证据:Anthropic 的人正在用 Claude 去做一些本来根本不会发生的工作,比如搭建探索性的工具,处理那些拖了很久的清理活儿。举个例子,2026 年 4 月,Claude 交付了 800 多个修复,把某一类 API 错误的发生率降到了原来的千分之一。负责盯着 Claude 干这事的工程师估计,换成人来做要花四年;解别人留下的 bug 又慢又磨人,而且人很难一下子把那么多陌生的上下文塞进脑子里。
Claude 写的代码"好",而且越来越好。 所谓"好代码",有两层意思:一是它能跑通,二是它写得让另一个工程师能看懂、能在它的基础上继续往下做。先看第一层,证据很清楚。过去一年里,Anthropic 的工程师在任务进行到一半时去纠正、改方向、或干脆接手 Claude 的频率,一直在稳步下降--哪怕是最复杂、最开放的任务也是如此。这里说的"开放任务",指的是那种没有明确规格说明、连工程师自己都不确定答案长什么样的问题。这一点,从 Claude 在不同难度任务上随时间变化的成功率就能看出来,见下图。Claude 写的代码能跑通。
怎么看这张图:会话是否成功,由一个 Claude 评判者来判定;如果 Claude Code 智能体(agent)明显完成了用户的任务、过程中无需任何纠正,这次会话就算成功。工作负载的变化会导致成功率出现短期波动。
第二层标准,是写出另一个工程师能看懂、能在上面接着搭的代码。在这一层,人和 AI 之间的差距还在,但正在飞快缩小。Anthropic 内部没有完全的共识,但很多人认为,截至 2025 年底,Claude 写的代码在质量上仍然不如 Anthropic 人类工程师写的,而今天大致打平。我们预计,一年之内它就会更好。
这已经改变了 Anthropic 自己审代码的方式。如今,提交到我们代码库的改动,在被合入之前,先要经过一个自动化的 Claude 审查者--它专门找 bug、安全漏洞和其他缺陷。借助这个工具,我们做了一次回溯分析,发现:如果当初我们代码库的每一处改动都先过一遍 Claude 自动审查,那么 claude.ai 过往事故背后约三分之一的 bug,本可以在它们流入生产环境之前就被拦下来。写下那些代码的工程师,是全世界搭这类系统最顶尖的一批人。而 Claude 现在正在抓住他们漏掉的错误。
给 Claude 一个别人定好的目标,它很擅长跑实验去达成。 Anthropic 每发布一个模型,我们都会跑同一个测试:给 Claude 一段用来训练小型 AI 模型的代码,要求它在保证通过同样的正确性检查的前提下,让这段代码跑得尽可能快。目标和成功的衡量标准是事先定死的,所以 Claude 要做的,就是通过重写代码、运行、计时、再重写,去找到提速的办法。这就是一个微缩版的实验研究循环。2025 年 5 月,Claude Opus 4 相对初始代码平均能做到约 3 倍提速。到 2026 年 4 月,Claude Mythos Preview 已经能做到约 52 倍。作为参照,一名熟练的人类研究员要达到 4 倍,得花四到八小时。7 在研究流程的这一环--在一个边界清晰的实验里优化各个步骤--Claude 在不到一年的时间里,从"非常有用"变成了"超越人类"。
> 今天大致的格局是这样:人类出想法,而模型能比以前快上一个【数量级】去实现、测试和评估这些想法。
Claude 在自己提出实验这件事上,也越来越强了。 2026 年 4 月,Anthropic 发布了首个 Claude 端到端独立跑完一个开放式研究项目的演示。我们把一个 AI 安全领域的开放问题交给了由 Claude 驱动的智能体--大致就是问:弱模型能否可靠地监督强模型?--然后任由它们去解决。这中间要提出假设、检验假设、把发现分享给并行运行的其他智能体、再不断迭代。这个任务有清晰的成绩"下限"和"上限":下限是那个弱的监督者自己单干能做到多好;上限是强模型在用正确答案训练后能做到多好。两名人类研究员花了约一周,把这中间的差距弥合了约 23%;而那些智能体在累计 800 小时里弥合了 97%,用掉了约 1.8 万美元的算力。这项工作也有一些需要打折扣的地方:结果没能干净利落地迁移到生产规模的模型上,而且问题仍然是人类挑的、评分标准也是人类定的。但在这些边界之内,每一个实验都是智能体自己设计的。人类唯一起到实质作用的角色,就是定方向。
Claude 在把研究会话引向研究成果这件事上,也越来越强。 我们考察了一批真实的 Claude Code 会话(时间在 2026 年 1 月到 3 月之间),里面 Anthropic 的研究员正和 Claude 一起处理某个开放式的探查问题,比如搞清楚一次训练运行为什么老是崩溃,或者一个模型为什么在某项基准测试上得分很差。每一个案例里,我们都找到了一个研究员走弯路的时刻:他们追了一个方向,把会话带偏了,最后才又拐回正轨。然后,我们只把会话走偏之前的工作展示给不同的 Claude 模型,问它们下一步会怎么做。再由另一个能看到会话最终如何收场的 Claude,去判断到底是 AI 还是人类提出的下一步更好。8
种种证据表明,在 AI 研发的每一个环节,人的角色都在收窄。一旦人类写的代码和 AI 写的代码质量打平,人类就会彻底不再亲手写代码,转为只做审查。但如果人类审代码的速度跟不上 Claude 生成代码的速度,人工审查就会成为 AI 研发的瓶颈。同样,一旦 Claude 能自己跑实验,问题就转向了"这些实验里哪个值得跑?"。说白了:那些动手的活儿(写代码、跑实验、产出结果)现在几乎不再花掉人的时间,哪怕它依然要消耗算力。
针对上面这些证据,一个很自然的反驳是:还握在人类手里的那部分活儿--决定要去攻克哪些问题--才是最要紧的。没有这份判断力,Claude 只是个能干的助手,而不是一个能独立推动 AI 进步的系统。
今天的训练方法和架构能不能解锁这种能力,确实说不准。但 AI 的进步很少是靠"灵光一现"实现的。AI 近些年的历史里确实有过几次这样的时刻,比如 Transformer 架构,或者混合专家模型(mixture-of-experts),但能改变范式的想法,往往隔好几年才来一次。在这些时刻之间,大多数进步都是渐进的:我们把某个东西放大规模,看它哪里崩了,修好,再试一次。而这恰恰是 Claude 如今最擅长的那种工作流。爱迪生说,天才是 1% 的灵感加 99% 的汗水。但我们看到的是,汗水正在被越来越多地自动化。事情正变得越来越清楚:推动前沿往前走的东西,很大一部分是可以自动化的;大规模的研究进展,主要取决于工具和资源--它们决定了你能多快跑实验、一次能跑多少个、多快能拿到结果。
就算我们假设 Claude 永远练不出好的研究品味,对我们这些证据做一种保守的解读,仍然会推出一种复利式的加速。如果人类把大部分时间都花在那一小部分(个位数比例)属于定方向的工作上,其余的全交给 Claude,那就意味着每一位工程师或研究员,都在驾驭比从前多得多的工作量。我们看到的证据表明,Anthropic 的人既跑得更快,又覆盖了更宽的面。落到实处就是:AI 已经让 Anthropic 比有效 AI 工具出现之前快了很多。
更不保守的解读则是:Claude 的研究判断力正在改善--这一证据如今虽然还很窄--但它本身就是一个信号,说明这项能力也在长进。"研究品味"也许只是又一项 AI 能力:AI 系统起初做不好,过一阵子就做好了。我们在其他偏定性的技能上已经见过类似的轨迹,比如 AI 系统能解释一个笑话为什么好笑、能展现心智理论(theory of mind,推测他人想法的能力)、能解开语言谜题。
1. 趋势停滞,但今天的 AI 能力已被广泛扩散。 本文画出了许多条指数增长的轨迹。但这些轨迹最后也许其实是一条条 S 型曲线。我们可能正在逼近曲线的拐弯处--规模带来的回报开始递减,曲线先变直,再趋平。把一个合格研究员和一个杰出研究员区分开来的那份判断力,也许是一种靠堆算力、堆数据这类训练输入根本得不到的能力。如果真是这样,要突破这道瓶颈,就得有一个新想法,比如一种取代当前所有前沿模型都在用的 Transformer 架构的全新架构路径。又或者,制约 AI 进步的硬约束不在模型本身,而在供应链上:推动前沿往前走、并把它扩散出去,所需要的能源和算力可能比现在拥有的更多。真正的瓶颈,也许是芯片制造的速度、电网扩容的速度、或者互连带宽,而不是智能本身。我们也不能排除 AI 生态遭遇某种外部冲击、把一切大幅拖慢的可能,比如算力或电力的供给突然萎缩--无论哪一种,都会拖慢进步,并让各家实验室的前期投入变得更贵。再或者,我们可能根本没料到还有别的什么障碍挡在前面。就算模型能力被冻结在今天这个水平,我们仍然预期世界上会发生重大变化。Project Glasswing(玻璃翼计划)就是一个早期的征兆:上线头几周,Mythos Preview 就在全球最关键的一批系统中找出了一万多个高危和严重级别的软件漏洞--多到网络防御的瓶颈已经从"找出漏洞"转移到了"够快地把漏洞补上"。而我们把今天的模型扩散进更广阔经济体的进程,其实还处在很早的阶段--在那里,一家 100 人的公司将越来越能干出 1000 人公司的活儿,因为每个员工都坐在一座由智能体堆成的金字塔顶上。我们把这种情景列出来是为了完整,但并不认为它很可能发生。每一项我们能测量的能力,包括那些感觉更"软"的能力--比如代码质量、开放式任务上的成功率--到目前为止都沿着同一条曲线走。我们还没看到这条曲线拐弯。在我们考虑的三种未来里,这一种会给政府和社会留下最多的适应时间。我们更担心的是后面两种,它们会推进得更快,留给我们准备的空间也要小得多。
1. AI 实验室持续看到复利式的效率收益。 在这种情景里,AI 研发被大幅自动化,但人类继续来定研究方向、判断结果。随着时间推移,那些使用 AI 系统的组织会变得高效得多,于是我们可以预期,这种组织里的每个人都会被乘上一个可观的生产力倍数。100 人的公司能干出 1 万人甚至 10 万人组织的活儿。这会彻底改写知识工作和政府服务,但也可能被用到有害的方向上--从对整个人口的威权式监控,到那种为每一个个体量身定制操纵、并以任何人类团队都望尘莫及的规模运转的影响力行动。Anthropic 这类公司里,人的角色会随之转变。人们会跟 AI 系统结成搭档去放大研究、产出新的洞见,并一起搭建那些用来核查"AI 产出是否可信"所需要的系统。我们在这里铺陈的证据表明,我们很可能正走向这种情景。但是,把一个流程里的某一段加速了,往往只是把瓶颈挪到了别处:整体节奏,会被那些还没提速的环节卡住。在计算机领域,这叫阿姆达尔定律(Amdahl's law),同样的逻辑也适用于组织。Anthropic 已经撞上了阿姆达尔定律的一个典型表现:随着我们开始在组织内部推动更多代码流转,人工代码审查变成了一个新的瓶颈。这种摩擦在工程之外的地方我们也碰到过。Anthropic 的员工借助能力极强的模型,催生出了大量新点子、新计划、新工具、新模拟--多到远远超出我们能去落实的容量。一个组织能多快发现并修掉这些瓶颈,也许本身就是一项会随时间长进的技能,而且它可能会成为任何组织最重要的那项技能。
1. AI 系统自身具备完整的递归自我改进能力,并开始构建它们的后继者。 如果能力推进的技术趋势延续下去,并且 AI 系统能发展出那种属于变革性人类智慧的能力,那么 AI 系统设计并打磨自己,就是有可能发生的事。在这个世界里,AI 研发的进步节奏将完全取决于 AI 系统能拿到多少算力(或者发现算法训练、推理上各种提效手段的速度)。人类在研发中扮演的角色会大大缩小,很可能把我们的精力大多挪到对一个不断扩张、由 AI 系统运转的"虚拟实验室"做监督、验证和核查上。我们预期,有能力自动化 AI 研发的系统,其技能会迁移到科学的其余领域,让它们开始去变革其他学科。在这种未来里,对齐问题(alignment problem,让 AI 行为符合人类意图)会怎么被解决--或者解不解得了--是我们最没把握的事。模型可能被证明足够对齐、研究品味也足够好,于是发现并实现一些我们还没触及的新解法。它们也可能足够明智,在没法解决时主动叫停研发。但反过来,今天的模型身上那些罕见的失准现象,也可能在模型构建后继者的过程中层层累积,变得越来越频繁、却越来越无人能懂,直到我们对它们失去控制。也有可能,我们根本造不出、整合不了、也核查不了那些我们用来判断"自己究竟落在哪条趋势线上"所需要的工具。对于这个世界会是什么样,我们没有什么靠谱的直觉,因为我们的经济目前是由人类和人类造的工具驱动的。从本质上说,一个由快速递归自我改进驱动的世界,可能会被那个自我改进的模型所主导--它的能力彻底盖过人类,又在更广阔的经济体里大量铺开。如果人类的劳动不再有竞争力,经济会变成什么样,很难预测。就算模型研发变得彻底自动化、彻底递归,我们也无法预测这对大多数人的日常生活意味着什么。阿姆达尔定律在这里同样适用。递归智能可能让我们在某些领域里很快就实现 《Machines of Loving Grace》(慈爱机器,Dario Amodei 的同名文章)中勾勒的许多好处。我们预期,具身智能(也就是机器人技术)可能会很快跟上递归智能,并沿着一条类似的路径走--回报递增,成本递减。更强大的智能也许能帮我们更快地在物理世界里造东西,把救命药的临床试验跑得更有成效,并发展出全新的协调形式。但单单实现了递归改进,并不意味着工业生产怎么进行、社会怎么组织、市场怎么运转就会立刻改变。再多的智能,也学不会一款药在几十年的服用中到底有什么效果,没法让选举来得比宪法规定的更早,也没法在一个周末里把陌生人变成多年老友。对大多数人来说,这种未来在体感上的节奏,仍然会由那些瓶颈来设定,哪怕上游的实验室是以算力的速度在运转。这种碰撞--递归智能把自己造得越来越快,撞上人、关系与治理的世界--也是这个未来里我们无法预测的一部分。
我们认为,让世界手里握有一个放慢或暂时叫停前沿 AI 开发的选项,是件好事--这样社会结构和对齐研究(让 AI 行为符合人类意图)才有机会跟上技术的脚步。Anthropic Institute 将开展研究--与许多其他机构合作--并采取行动,帮助搭建一套可信的放慢或暂停所必需的系统。这套系统能让前沿 AI 开发者核查:全球其他人是否真的停了或慢了下来,以及某个不良玩家是否可能打着协调放慢的旗号、暗地里偷偷抢跑。如果这样的系统真的存在,我们预计自己也会放慢或暂时暂停--前提是其他处在前沿或逼近前沿的开发者也以一种可核查的方式这么做。
一次有分量的放慢或暂停,需要多个资源充足、处在前沿或逼近前沿的实验室--分布在多个国家--同意在同一套条件下停下来。它还需要每一方都能核查其他各方是否真的停了。由于 AI 系统的独特性质,这个军控难题里"可探测性"(一个比可核查性更低的标准)这一环,比其他技术要棘手得多。训练运行比导弹发射井更容易隐藏,它的投入又是通用的,而悄悄违约的诱惑大得惊人--因为在别人暂停时还在继续往前跑的那一方,就能把领先地位收入囊中。一个可信的暂停还得说清楚:什么触发它、什么解除它、由谁来裁定。
1. Anthropic 的高层曾公开估计,我们的代码有 90% 或更多是 Claude 写的,包括各种脚本和实验性代码。我们这里给出的 80% 以上这个数字,衡量的是合入生产环境的代码行数里可归功于 Claude 的占比。这个测算在两方面更保守:一是我们的归因流程本身有缺口;二是没有归到 Claude 名下的那些代码行里,还包含自动生成的代码和其他同样不是人手写的产物。