FrontierCode 基准测试：AI 编程评估新标准——维护者审核通过率最高仅 13.4%

AYi@AYi_AInotes

精选77

2026-06-09 08:44·6天前

精选理由

Cognition 这个新基准把尺子从「代码能不能跑」换成了「维护者愿不愿意 merge」，直接戳破现有编码评测的泡沫。Opus 4.8 第一但只有 13.4%，真实世界的编程距离「能用」还有九成路要走，做 coding agent 的团队必读。

AI 摘要

Cognition 发布 FrontierCode 基准测试，重新定义 AI 编程评估：由 20 多位顶级开源维护者手工制作 150 个任务（每个耗时 40+ 小时），依据 3000 多条规则判断维护者是否愿意合并代码。该基准指出 SWE-Bench 等超半数通过测试的代码实为不可维护的垃圾。结果中 Claude Opus 4.8 在最高难度档获 13.4%，GPT-5.5 为 6.3%，其余模型 1%–5%。这意味着即便最强模型，近九成代码仍无法通过有经验维护者审核。

Claude Opus 4.8 是目前最好的编码模型，这件事应该没啥太大争议了，我自己跑了这么久体感也是这样。

Cognition（Devin 的公司）刚发布的 FrontierCode 基准测试，彻底改变了 AI 编程能力的评判标准：不再只看"代码能不能跑过测试"，核心看看"维护者会不会愿意把这段代码合并进真实项目"。

以前的基准有多离谱？（黑人问号脸.jpg）

以前最火的评测叫 SWE-Bench，还有 TerminalBench 等， • 模型只要让测试通过就算"解决"了。 • 但 METR_Evals 研究发现：超过一半通过测试的代码，其实是不可维护的垃圾代码（slop）--风格混乱、改动范围失控、埋技术债、违反项目规范。 • 真实维护者看到后根本不会 merge（合并）。

结果就是：基准分数虚高，实际落地时却一塌糊涂，说白了就是让模型学会了考试作弊，而不是真正写好代码🤣

Opus 4.8最强，但 Cognition 刚发的 FrontierCode 给这个结论加了一层我之前没想到过的限定词：最好的模型，离写出别人愿意维护的代码，还有很远的距离。

以前的基准只看测试过没过，模型学会的是刷分，而不是写代码。

有人查过，超过一半通过测试的 PR 其实是不可维护的垃圾，

FrontierCode 换了一个完全不同的问法，二十多个顶级开源维护者，手搓了一百五十个任务，每个任务搭进去四十多个小时。

不看测试过没过，主要看代码风格、改动范围、回归风险、测试本身写得好不好，三千多条规则盯着，最后只问一句：如果你是维护者，这个 PR 你合不合。

Opus 4.8 在最难那档拿了 13.4%。GPT-5.5 是 6.3%，其他模型大多在 1% 到 5%。

13.4% 是第一名，但这个第一名意味着最难的那类真实任务里，十次里有将近九次，它的代码经不起一个有经验的维护者看一眼。

这就是这个基准最诚实的地方，它没说 Opus 4.8 不行，只是把尺子换了，

第一名的成绩单看起来也完全不一样了，以前的尺子量的是你能不能跑，现在的尺子量的是我愿不愿意跟你共事，而这是两件事。

CognitionIntroducing FrontierCode: a coding eval that raises the bar for difficulty & quality. Each task took 40+ hrs of work by leading open-source maintainers. Models ...

AnthropicOpenAI编码评测/基准

在 X 查看原推

AYi@AYi_AInotes · X