AI加速自我构建:Anthropic研究院报告揭示趋势
Anthropic首次披露AI辅助开发的内部数据,8倍代码产出、AI自动审查bug,趋势直指完全自主AI的临界点,每个开发者和政策制定者都需要读。
Anthropic研究院报告指出,AI正加速AI开发:2021–2025年间工程师人均季度代码量提升8倍,截至2026年5月超80%合并代码由Claude生成。Claude Opus 3(2024年3月)可完成约4分钟软件任务,Claude Sonnet 3.7(2025年3月)提升至1.5小时,Claude Opus 4.6(2026年3月)可处理12小时任务。SWE-bench两年内从低个位数得分饱和;CORE-Bench约20%正确率在15个月后饱和。METR测试显示Claude Mythos Preview可连续工作至少16小时。但AI自主设定目标的能力仍存显著差距,完全自主递归自我改进尚未实现。
在AI发展史的大部分时间里,人类在其开发周期的每一个环节都在亲力亲为。但在Anthropic,我们正将AI开发的越来越多环节交给AI系统自己完成,这加速了我们的工作。
如果这条路走得足够远,并且配备足够多的算力,这一趋势将指向一个能够完全自主设计和开发自身后继版本的AI系统。这被称为递归式自我改进。我们目前尚未达到这一阶段,递归式自我改进也并非必然发生。但它可能比大多数机构做好准备的时间来得更早。
The Anthropic Institute通过使用公开基准测试以及Anthropic内部此前未公开的数据表明,AI已经在加速AI系统的开发进程。仅举一例:今天,Anthropic工程师每季度平均提交的代码量是2021年至2025年期间的8倍。
本文讨论的技术趋势表明,AI系统在接下来几年中将变得远为强大。这些趋势具有重大影响。能够自我构建的AI将成为技术史上的一次重大发展——它可能为世界带来科学、医疗等领域巨大的福祉。但完全的递归式自我改进也可能增加人类失去对AI系统控制权的风险。如果系统能够完全构建出自己的后继版本,那么保障其安全、监控其运行以及塑造其行为的方式,都将变得更为重要。
2021–2023
建造第一个Claude
在早期,Anthropic的工作看起来和其他科技公司一样:人们在笔记本电脑上编写代码和文档。
2023–2025
聊天机器人
人们使用早期的聊天机器人来辅助完成部分流程,比如生成简短的代码片段,并将输出内容复制到文本编辑器中。
2025–2026
编程智能体
随着智能体能力不断增强,它们能够自主编写和编辑代码,有时甚至是整个文件。
今天
自主智能体
智能体现已能够自行运行代码,并将数小时的工作委托给其他智能体。
20XX?
闭环
未来,智能体可能会有足够的能力来自行构建和训练模型。如果这种情况发生,未来版本的Claude可能由Claude自身持续改进。
来自外部世界的证据
AI模型改进的速度正在加快。它们能独立可靠完成的任务时长,大约每四个月翻一番,较之前每七个月翻一番的趋势有所加快。2024年3月,Claude Opus 3能完成人类大约需要四分钟完成的软件任务。一年后,Claude Sonnet 3.7能完成大约一个半小时的任务。又过了一年,Claude Opus 4.6能完成12小时的任务。如果这一趋势持续下去,今年就有可能达到需要熟练人员数天才能完成的任务水平。到2027年,AI系统或许能完成需要人类数周才能完成的任务。
同样的模式也出现在编程和研究基准测试上。基准测试衡量模型在特定领域中的表现,当模型性能接近100%时,该基准测试即被视为“饱和”。SWE-bench是一项真实世界软件工程的标准测试:它向模型提供一个实际的开源代码库和一个真实的漏洞报告,要求模型编写一段代码修改来修复问题,并通过项目自身的测试。模型在两年内从个位数低分走到了饱和该基准测试。
CORE-Bench测试模型能否复现已有研究,这是它们进行原创研究的先决条件。它向AI模型提供一篇已发表论文背后的代码和数据,要求模型重新运行所有内容并确认能否复现论文的结果。AI系统从2024年大约20%的成功复现率,到十五个月后饱和该基准测试。METR负责运行衡量模型完成长时任务能力的基准测试,其发现Claude Mythos Preview可以“至少”工作16小时,并且“处于[METR]在无需新任务的情况下所能测量的上限”。
公开基准测试充分说明了这些系统的能力。但它们无法揭示AI系统对加速AI自身发展所产生的影响。为此,我们需要来自Anthropic等AI公司内部的直接证据。
来自Anthropic内部的证据
构建前沿模型需要两大类工作。其一是工程:编写代码、搭建基础设施以及监督模型训练。其二是研究:决定进行哪些实验、解读实验结果,以及确定下一步该尝试哪些想法。
在工程和研究两个领域,情况是一致的。在工程方面,Claude 可以接手一个定义不明确的问题,并自行找出解决方法;人类提供目标,但不再需要提供方法。在研究方面,Claude 在执行一个定义明确的实验时,已经能够达到或超越熟练人类的表现。然而,在工程和研究两个领域中,当涉及到用 Claude 的判断力来选择目标时,仍然存在较大的性能差距。这就是今天的 AI 与未来能够自主设计其继承者的系统之间的差距。
对于 Anthropic 的员工来说,随着经验的增加,他们通常会接到更加开放和重要的任务。早期,他们执行的是别人指定好的任务,比如“导出按钮不工作了,请修复它”。有了经验之后,他们会接到一个目标并自己设计方法,比如“调查为什么网络在高负载下会变慢”。到了最高级别,他们则需要决定哪些问题值得投入精力去解决:“团队下个季度应该做什么?”我们可以利用 Anthropic 的内部数据,看看 Claude 在能够处理这些不同类型的任务方面已经走到了哪一步。
Claude 编写了 Anthropic 代码库中相当大比例的部分。截至 2026 年 5 月,我们合并到 Anthropic 代码库中的代码有超过 80% 是由 Claude 编写的。3 在 Claude Code 于 2025 年 2 月以研究预览版形式发布之前,这个数字只有个位数。这一变化也体现在每位工程师的产出量上。在 Anthropic 的头四年(2021–2024 年),每位工程师每天合并的代码行数保持稳定,然后在 2025 年开始攀升,当时 Claude 开始运行代码,而不仅仅是建议代码供工程师复制粘贴。2026 年,当模型开始在更长的时间跨度内自主工作时,增长斜率再次变陡。这两个拐点如下图所示。在 2026 年第二季度,典型工程师每天合并的代码量是他们 2024 年水平的 8 倍。4 这是因为大部分代码由 Claude 编写,工程师负责指导和审查,而不是自己打字输入。
需要说明的是:代码行数是一个不完美的衡量指标,因为它侧重数量而非质量。因此,2026年第二季度每位工程师每天编写8倍代码行数几乎肯定夸大了实际的生产力提升。尽管如此,它确实表明了一种加速趋势。在Anthropic,我们不会根据代码行数来奖励员工;相反,团队成员之所以产出更多代码,仅仅是因为他们正借助AI系统来编写更多代码。
代码行数的增长与人们对生产力大幅提升的主观感受相吻合。在2026年3月对来自Anthropic各研究团队的130名员工进行的调查中,受访者中位数估计,使用Mythos Preview时,他们在那些无论如何都会从事的项目上的产出,大约是不使用任何AI模型时的4倍。5我们预计3月份实际提升幅度略低一些。6尽管如此,我们认为这一总体说法是合理的,并且与我们其他观察一致:Anthropic相当一部分技术人员完成核心工作的速度,比没有AI辅助时快了好多倍。
我们还看到证据表明,Anthropic的员工正在使用Claude来完成那些原本根本不会发生的工作,比如构建探索性工具和处理长期拖延的清理任务。例如,在2026年4月,Claude交付了800多个修复,将某一类API错误减少了1000倍。负责监督Claude的工程师估计,人类需要四年时间才能完成这项工作;解决他人的bug既缓慢又费劲,而且人类很难同时在脑中记住那么多不熟悉的上下文。
大约一年前,我开始全力投入“Claudifying”。那是一场疯狂的冒险,而距离我上次亲自写代码已经过去大约5个月了。
Claude编写的代码是“好的”,并且还在不断改进。“好的代码”意味着两件事:它能正常工作,并且它的编写方式能让另一位工程师理解并在此基础上继续开发。
对于第一个标准,证据是明确的。Anthropic员工纠正、引导或中途接管Claude任务的比率在过去一年中稳步下降,包括针对最复杂和最具开放性任务的场景。这意味着那些没有明确规格的问题,工程师也不确定答案应该是什么样的。这一点从Claude在不同难度任务上的成功率随时间变化中可见一斑,如下图所示。Claude编写的代码能正常工作。
在最开放性的任务中,Claude的成功率在2026年5月达到了76%,六个月里提升了50个百分点。举一个该难度层级任务的例子:一次常规升级导致数万个训练任务崩溃。一名工程师将Claude指向了这次实时事故,只提供了少量文本内容和集群访问权限。Claude逐个排查正在运行的任务并逐一测试环境设置,最终隔离出那个触发崩溃的晦涩调试标志,可靠地复现了问题,并确认了修复方案。在大约两小时内,Claude完成了通常需要两到三天的工作量。
第二个标准是编写能让其他工程师理解并在此基础上继续开发的代码。在这方面,人类与AI之间的差距依然存在,但正在迅速缩小。Anthropic内部员工并未完全达成共识,但许多人认为,到2025年底,Claude编写的代码质量仍然不如Anthropic员工手写代码,而今天两者大致持平。我们预计在今年内,Claude编写的代码质量将会更优。
这已经改变了Anthropic现在审查自己代码的方式。对代码库的拟议更改现在由自动化的Claude审查器读取,在合并之前查找错误、安全漏洞和其他缺陷。使用这个工具,我们进行了一项回顾性分析,发现如果对代码库的每次更改都进行自动化的Claude审查,那么claude.ai上过去事故背后的错误中,大约有三分之一在进入生产环境之前就能被捕获。编写这些代码的工程师是世界上构建此类系统最优秀的人才之一。Claude如今正在捕捉他们遗漏的错误。
Claude编写的代码在2025年底时比Anthropic人工编写的代码稍差,今天大致持平,我们预计在今年内它将严格优于人工代码。
Claude 很擅长运行实验,以达到他人设定的目标。每次 Anthropic 发布新模型时,我们都会进行同样的测试:我们给 Claude 一段用于训练一个小型 AI 模型的代码,然后要求它在仍能通过相同正确性检查的前提下,尽可能让这段代码运行得更快。目标和成功指标都是事先确定的,因此 Claude 的任务就是通过重写代码、运行代码、计时并不断重复,来寻找加速方法。这是一个微型化的实验研究循环。2025 年 5 月,Claude Opus 4 相比初始代码平均实现了约 3 倍加速。到 2026 年 4 月,Claude Mythos Preview 达到了约 52 倍加速。作为参照,一名熟练的人类研究人员需要四到八小时才能达到 4 倍加速。在该研究工作流的这一部分——即在定义清晰的实验中优化步骤——Claude 在不到一年的时间里,从极为有用进化到了超人类水平。
当前的大致状况是“人类提出想法,而模型能够以比以前快一个数量级的速度去实现、测试和评估这些想法。”
Claude 在自主提出实验方面也越来越出色。2026 年 4 月,Anthropic 发布了首个由 Claude 以端到端方式运行开放式研究项目的演示。由 Claude 驱动的 AI 智能体被分配了一个 AI 安全领域的开放性问题——大致来说,就是一个较弱的模型能否可靠地监督一个更强的模型?——然后让它们自行解决。这包括提出假设、测试假设、与并行运行的智能体共享发现结果,以及反复迭代。该任务有一个明确的性能“下限”和“上限”:下限是弱监督模型独自完成的水平;上限是强模型在正确答案上训练后的表现。两名人类研究人员在大约一周内,弥补了该差距中约 23%;而 AI 智能体在累计 800 小时内弥补了 97%,并使用了大约 18,000 美元的计算资源。这项工作存在一些限制条件:其结果未能干净地迁移到生产级规模的模型上,而且人类仍然选择了问题并创建了评分标准。但在这个边界内,每个实验都是由 AI 智能体自行设计的。方向设定是人类扮演的唯一有意义角色。
Claude 在 1-2 天时间内完成了这一切,几乎不需要我提供帮助。我觉得,如果一位(初级同事)在同样的时间内带着这样的结果回来找我,我会感到略微印象深刻。未来已经来了。
Claude 在研究会话中引导向研究发现的能力正在提升。我们检查了真实的 Claude Code 会话(2026年1月至3月间),在这些会话中,Anthropic 的研究人员与 Claude 合作解决开放式探究问题,比如找出训练运行为何不断崩溃,或模型为何在某个基准测试上得分不佳。在每个案例中,我们都发现了一个研究者走了弯路的关键时刻:他们追求了一个方向,导致会话偏离正轨,之后才最终回到正轨。然后,我们向各种 Claude 模型展示了会话偏离正轨之前的工作内容,并询问它接下来会做什么。另一个独立的 Claude 能够看到会话最终的结果,然后判断是 AI 还是人类提出了更好的下一步。
因为我们特意挑选了那些我们知道人类选择尚有改进空间的关键时刻(n=129),所以这并不是模型与人类判断之间的同类比较。这些时刻为我们提供了一组现实且具有挑战性的场景,在这些场景中正确的下一步并不明显,而人类的选择则作为一个有用的标尺来比较模型性能随时间的变化。在这个指标上,我们2025年11月的最佳模型(Opus 4.5)有51%的概率优于人类选择;到了2026年4月(Mythos Preview),这一比例增长到了64%。研究的日常工作很大程度上就是一连串这样的下一步决策,这使得该指标成为衡量模型最终能否自主运行调查的相关标准。我们将这一结果视为一个早期信号,表明 AI 系统在做出 AI 研究所需的判断决策方面正在不断进步。
“目前人类的比较优势仍然在于把握全局并跳出当下任务的局限进行思考。”
Anthropic 未来的工作可能会是什么样子?
证据表明,在 AI 开发过程的每一步中,人类角色都在缩减。一旦人类编写的代码与 AI 编写的代码质量达到同等水平,人类将完全停止编写代码,转而只进行代码审查。但如果他们无法像 Claude 生成代码那样快速地审查代码,那么人工审查将成为 AI 开发的瓶颈。类似地,一旦 Claude 能够运行实验,问题就转向了“这些实验中哪些值得运行?”简单来说:执行(即编写代码、运行实验、产生结果)现在几乎不消耗人类时间,尽管它仍需要计算成本。
目前人类仍具比较优势的一个领域是研究品鉴力与判断力,包括选择哪些问题真正重要、哪些结果值得信任,以及何时某个方向已走入死胡同。
过去,工作(和生活)都建立在人与人之间以微小互助构成的馈赠经济之上。"你能帮我跑通这个脚本吗?"……每一次求助都产生一点人情债,一点相互了解。[Claude] 更快,它不产生任何人情债,但每一次求助也都是一个错失的人类协作机会。
在一切顺利的日子里,我不禁觉得我做的任何事都不重要——一切都是自动化的,比我做得更好、更快。但到了什么都出问题的日子,我不理解为什么出问题,才意识到我已经完全不知道自己在做什么了。
万一我们错了呢?
针对上述证据,一个自然的反驳是:那些仍掌握在人类手中的工作——选择去解决哪些问题——才是最重要的。没有这种判断力,Claude 只是一个能干的助手,而不是一个能独自推动 AI 进步的系统。
目前尚不清楚当今的训练方法和架构能否解锁这种能力。但 AI 的进步很少来自"灵光乍现"的时刻。在 AI 近期历史上,有过几次这样的突破,比如 Transformer 架构或混合专家模型,但范式转变的想法往往数年才出现一次。在两次突破之间,大多数进步是渐进式的:我们把某个东西放大,看看哪里出了问题,修复它,然后再试。这恰恰是 Claude 现在擅长的流程。爱迪生说过,天才是 1% 的灵感加上 99% 的汗水。但我们看到,汗水正变得越来越自动化。越来越明显的是,推动前沿前进的很大一部分工作是可自动化的;大规模研究的进展主要取决于工具和资源,它们决定了你能多快进行实验、一次能进行多少个实验,以及能多快得到结果。
即使我们假设 Claude 永远不会拥有良好的研究品味,对我们证据的保守解读仍然意味着加速的复合。如果人类把大部分时间花在占个位数比例的方向性工作上,而让 Claude 处理其余部分,那意味着每个工程师或研究员所能引领的工作量都比以前大得多。我们看到的证据表明,Anthropic 的人员既在加速前进,也在覆盖更广的领域。实践中,这意味着 AI 已经让 Anthropic 比有效 AI 工具出现之前跑得更快了。
较不保守的解读是,Claude 研究判断力提升的早期证据——尽管目前还很狭隘——表明这项能力也在进步。“研究品味”或许只是另一种AI能力,AI系统会暂时无法掌握,然后逐渐变得擅长。我们在其他定性技能上也看到过类似模式,比如AI系统能够解释一个笑话为什么好笑、展示心智理论能力、以及解决语言谜题。
可能的未来
接下来会发生什么取决于两件事:这一趋势是否持续,以及如果持续,我们选择如何应对。我们可以想象至少三种未来情景:
趋势正在趋于停滞,但当今的 AI 能力已经广泛扩散。本文展示了许多指数级增长轨迹。但这些轨迹实际上可能呈现为 S 形曲线。我们可能正接近曲线的拐点——规模回报开始递减,曲线趋于平缓,最终变得平坦。区分优秀研究员与卓越研究员的关键,或许是一种无法通过增加计算和训练数据等投入的规模来获得的能力。若果真如此,突破这一瓶颈将需要全新的思路,比如一种能够取代当前所有前沿模型所使用的 Transformer 架构的新架构方案。
另一种可能是,制约 AI 进展的瓶颈或许不在模型本身,而在供应链:推进并扩散前沿技术可能需要比现有规模更多的能源和算力。芯片制造、电网扩容或互联带宽的节奏可能成为限制因素,而非智能本身。我们也不能排除 AI 生态系统遭受外部冲击、导致进展大幅放缓的可能性,例如计算或电力供应突然减少——这两种情况都会拖慢进展,并让实验室的前期投入成本更高。或者,我们可能未能预见到其他阻碍进步的障碍。
即使模型能力冻结在当前水平,我们仍可预期世界将发生重大变化。Glasswing 项目就是一个早期迹象:在最初几周内,Mythos Preview 在全球最重要的系统中发现了超过一万个高严重性和严重级别的软件漏洞——数量之多,以至于网络防御的瓶颈已经从此前的发现漏洞,转向了如何足够快地修补漏洞。而我们仍处于将当前模型扩散到更广泛经济领域的早期阶段,一家 100 人的公司越来越能够完成以往 1000 人公司的工作,因为每位员工都将坐拥一个由 AI 智能体组成的金字塔。
我们完整地列出这一情景,但认为它不太可能发生。我们能够测量的每一项能力——包括那些感觉“较模糊”的能力,例如代码质量以及在开放式任务上的表现——至今都遵循着相同的曲线。我们尚未看到这条曲线发生弯曲。在我们考虑的三种未来中,这一种将给政府和社会留出最多的适应时间。我们更担心接下来的两种未来,它们进展更快,准备空间也小得多。
AI 实验室持续看到效率的复合增长。在这一情境下,AI 开发变得高度自动化,但人类继续设定研究方向并评判结果。使用 AI 系统的组织会随着时间的推移变得高效得多,因此我们可以预期,这类组织中的每个人都会产生显著的产出乘数效应。100 人的公司能够完成通常需要 1 万或 10 万人组织才能完成的工作。这将对知识工作和政府服务带来革命性影响,但也可能被用于有害目的——从对全体人口的专制监控,到针对每个个体量身定制、且规模远超任何人类团队所能匹敌的影响力操作。在 Anthropic 这样的公司里,人类的角色将发生转变。人类将与 AI 系统合作,以扩大研究规模、产生新洞见,并且共同构建所需的系统,用来验证 AI 的输出是否值得信赖。
我们在此呈现的证据表明,我们很可能正朝着这个情境发展。但加速流程中的某个部分,往往只是把瓶颈转移到别处:整体速度受限于那些尚未提速的部分。在计算机科学中,这被称为阿姆达尔定律(Amdahl's law),同样的逻辑也适用于组织。Anthropic 已经遇到了阿姆达尔定律的一个典型特征:随着我们在组织内推动更多代码流转,人工代码审查已经成为新的瓶颈。我们在工程领域之外也遇到了这种摩擦。由于 Anthropic 员工与高性能模型协作,新想法、新计划、新工具和新模拟的数量激增——远超我们能够落实的能力范围。组织发现并修复这些瓶颈的速度,可能是一项会随着时间推移而不断改进的技能,而且可能成为任何组织中最重要的一项技能。
AI 系统本身将具备完全的递归自我改进能力,并开始构建自己的后继者。如果能力提升的技术趋势持续下去,并且 AI 系统能够发展出变革性人类创造力所固有的各项能力,那么 AI 系统能够自行设计和改进自身,这是有道理的。在这个世界里,AI 开发进步的节奏将完全由计算资源(或发现算法训练或推理中各种效率提升的速度)的可用性决定。人类在其开发过程中的作用将大幅减弱,很可能将我们的大部分精力转移到对 AI 系统运行的不断扩大的“虚拟实验室”进行监督、验证和确认上。我们预计,具备自动化 AI 研究开发能力的系统,其技能也将迁移到其他科学领域,从而开启对其他领域的革命性变革。
在这样一个未来,对齐问题如何得到解决——或者未得到解决——是我们最不确定的事情。模型可能会证明自己足够对齐、并且拥有足够的研究品味,以至于能够发现并实施我们尚未达到的新颖解决方案。如果情况并非如此,它们也可能足够明智,从而暂停开发。另一方面,当今模型中存在的少数不对齐案例,可能会随着模型构建其后继者而加剧,变得更加频繁但更难理解,直到我们最终失去对它们的控制。我们可能无法构建、集成和验证所需的工具,来了解我们实际上正处在哪一条趋势线上。
对于这样一个世界会是什么样子,我们缺乏良好的直觉,因为我们的经济目前是由人类和人类构建的工具所驱动的。就其本质而言,一个由快速递归自我改进驱动的世界,可能会被自我改进模型所主导,因为其能力将完全超越人类,并且该模型将扩散到整个经济领域。如果人类劳动不再具备竞争力,很难预测经济会变成什么样。
即使模型开发变得完全自动化和递归,我们也无法预测这对于大多数人的日常生活意味着什么。阿姆达尔定律在这里同样适用。递归智能可能导致《亲切的机器》中概述的许多好处在某些领域迅速实现。我们预计,具身智能(即,机器人技术)可能会紧随递归智能之后,并遵循类似的收益递增路径。
成本不断降低。更强大的智能可能帮助我们更快地在物理世界构建事物,开展更高效的救命药物临床试验,并发展出新型的协作方式。但仅实现递归改进本身,并不意味着工业生产方式、社会组织方式或市场运作方式会立即发生改变。更多的智能无法了解一种药物在几十年的使用中产生的作用,无法在宪法规定的时间之前举行选举,也无法在周末把一个陌生人变成老朋友。对大多数人来说,这个未来所能感知到的节奏仍将由瓶颈决定,即便上游的实验室以算力的速度运转。这种碰撞——递归式智能以越来越快的速度构建自身,与人类、人际关系和治理的世界相遇——是我们无法预知的未来的另一部分。
我们该怎么做?
如果能够有效减缓这项技术的发展,给自己更多时间来应对其巨大影响,我们认为这很可能是一件好事。但如果放缓仅仅让最不谨慎的行为者在技术上追赶上,那可能会让所有人都变得不那么安全。缺乏全球协调机制的情况下,公司和政府将不得不在竞争和地缘政治的压力下做出关于安全的艰难决定。
我们认为,如果世界能拥有减缓或暂时暂停前沿 AI 发展的选项,以便社会结构和 AI 对齐研究能够跟上技术的进步,那将是一件好事。Anthropic Institute 将与众多合作方一起开展研究并采取行动,帮助建立可信的放缓或暂停所需的系统。这些系统将使前沿 AI 开发者能够验证全球其他开发者是否确实已经停止或放缓,同时防止恶意行为者借协调放缓之名秘密超前。如果存在这样的系统,我们预计自己也会放缓或暂时暂停,前提是其他处于或接近前沿的开发者以可验证的方式也这样做。
有意义的放缓或暂停,需要多个处于或接近前沿且资源充足的实验室,在多个国家,同意在相同条件下停止。这还需要每一方都能核实其他方确实已经停止。由于人工智能系统的独特特性,这个军备控制问题中的可检测性(一个低于可核实性的标准)远比其他技术更具挑战性。训练运行比导弹发射井更容易隐藏,其输入是通用性的,而悄悄背叛的动机巨大,因为当其他方暂停时,继续推进的一方可能继承领先地位。一个可信的暂停还必须明确什么触发它、什么解除它、以及谁来裁决。
从原则上讲,这些并非完全不可能——世界已经为其他复杂技术建立了核查机制(例如《中程核力量条约》)——但这些机制的建立既需要基础设施,也需要信任,耗时数十年。我们没有那么长时间。相比之下,单个实验室的单方面暂停可以立即实现,但效果小得多:它会改变谁是领先者,但不会创造出当前缺失的更广泛的商议过程。
在未来几个月,我们将组织对话,让政策制定者、研究人员、公民社会和其他人工智能公司能够帮助回答本文提出的一些问题,特别是关于完全递归自我改进,以及如何为协调和商议创造更好的选项。我们将公布讨论的成果。共同探讨这些问题的窗口期已经到来,人工智能公司以外的人也应该参与其中。
Marina Favaro 和 Jack Clark 共同撰写了本文,Santi Ruiz 提供了编辑支持。Shan Carter、Romello Goodman 和 Nikki Makagiansar 根据 Brian Calvert 和 Jun Shern Chan 收集的数据制作了可视化内容。Daniel Freeman、Jim Baker、Max Young、Sarah Pollack、Francesco Mosconi、Holden Karnofsky、Andy Jones、Kevin Troy、Chloe Lubinski、Anton Korinek、Meg Tong、Andrew Ho、Dan Altman、Drake Thomas、Jack Shen、Sasha de Marigny 和 Avital Balwit 提供了反馈。
脚注
METR 的关键指标告诉你,在多项任务中,AI 系统能达到 50% 可靠性的时间范围,不过趋势线在 80% 可靠性时看起来是一样的。
特别是在向更开放的形式和更困难的任务(例如奥林匹克级别的数学题)转变时,基准测试往往在低于100%的水平上趋于饱和,原因是题目和答案集中存在如模糊的问题描述和无法解答的问题等错误。
Anthropic 的领导层曾公开估计,我们 90% 或更多的代码是由 Claude 编写的,包括脚本和实验性代码。而我们超过 80% 的指标衡量的是,可以归因于 Claude 的、合并到生产环境中的代码行比例。这是一种更为保守的衡量方式,原因有二:我们的归因流程存在缺口,并且那些未归因于 Claude 的代码行包括自动生成的代码和其他并非由人类手写的产物。
代码产出的激增正给所有人共享的基础设施带来压力。GitHub——全球大多数软件所构建的平台——在整个 2025 年见证了大约十亿次代码提交;到 2026 年中期,它每周见证了 2.75 亿次提交,全年预计将达到大约 140 亿次。该公司的 COO 曾表示,为了跟上节奏,他们正在“极其努力地”提升容量。
关于本调查方法的更多细节在 Claude Opus 4.7 系统卡的 2.3.5 节中进行了讨论。
许多受访者可能并未仔细思考如何解释问题定义中的各种偏差或细微之处,而 METR 最近的研究表明,开发人员对 AI 生产力提升的估算可能被高估。
加速程度的大小在很大程度上取决于初始代码留有多少改进空间,并且不应将其解读为现实世界的训练加速倍数。因此,绝对值倍数并非此处需要关注的重点。更具信息量的是,这种实验设置使得同类比较成为可能,既包括跨模型的比较(过去一年约 3 倍到 52 倍),也包括与熟练人类的比较(在完成相同任务的四到八小时内约 4 倍)。
作为对裁判偏差的检查,我们在另一组 127 个时间点上运行了相同的测试,在这些时间点上,人类的下一步行动已经很出色(与原始测试集相反,原始测试集中人类的方向尚有改进空间)。在那里,模型的建议被认为更好的情况仅占约 20%。
* 本文中来自 Anthropic 员工的引述均摘自内部讨论,并经许可使用。它们仅反映截至 2026 年 5 月的个人观点,不代表公司官方立场。