Cognition 这个新基准把尺子从「代码能不能跑」换成了「维护者愿不愿意 merge」,直接戳破现有编码评测的泡沫。Opus 4.8 第一但只有 13.4%,真实世界的编程距离「能用」还有九成路要走,做 coding agent 的团队必读。
Cognition 发布 FrontierCode 基准测试,重新定义 AI 编程评估:由 20 多位顶级开源维护者手工制作 150 个任务(每个耗时 40+ 小时),依据 3000 多条规则判断维护者是否愿意合并代码。该基准指出 SWE-Bench 等超半数通过测试的代码实为不可维护的垃圾。结果中 Claude Opus 4.8 在最高难度档获 13.4%,GPT-5.5 为 6.3%,其余模型 1%–5%。这意味着即便最强模型,近九成代码仍无法通过有经验维护者审核。
Claude Opus 4.8 是目前最好的编码模型,这件事应该没啥太大争议了,我自己跑了这么久体感也是这样。
Cognition(Devin 的公司)刚发布的 FrontierCode 基准测试,彻底改变了 AI 编程能力的评判标准: 不再只看"代码能不能跑过测试",核心看看"维护者会不会愿意把这段代码合并进真实项目"。
以前的基准有多离谱?(黑人问号脸.jpg)
以前最火的评测叫 SWE-Bench,还有 TerminalBench 等, • 模型只要让测试通过就算"解决"了。 • 但 METR_Evals 研究发现:超过一半 通过测试的代码,其实是不可维护的垃圾代码(slop)--风格混乱、改动范围失控、埋技术债、违反项目规范。 • 真实维护者看到后根本不会 merge(合并)。
结果就是:基准分数虚高,实际落地时却一塌糊涂,说白了就是让模型学会了考试作弊,而不是真正写好代码🤣
Opus 4.8最强,但 Cognition 刚发的 FrontierCode 给这个结论加了一层我之前没想到过的限定词:最好的模型,离写出别人愿意维护的代码,还有很远的距离。
以前的基准只看测试过没过,模型学会的是刷分,而不是写代码。
有人查过,超过一半通过测试的 PR 其实是不可维护的垃圾,
FrontierCode 换了一个完全不同的问法,二十多个顶级开源维护者,手搓了一百五十个任务,每个任务搭进去四十多个小时。
不看测试过没过,主要看代码风格、改动范围、回归风险、测试本身写得好不好,三千多条规则盯着,最后只问一句:如果你是维护者,这个 PR 你合不合。
Opus 4.8 在最难那档拿了 13.4%。GPT-5.5 是 6.3%,其他模型大多在 1% 到 5%。
13.4% 是第一名,但这个第一名意味着最难的那类真实任务里,十次里有将近九次,它的代码经不起一个有经验的维护者看一眼。
这就是这个基准最诚实的地方,它没说 Opus 4.8 不行,只是把尺子换了,
第一名的成绩单看起来也完全不一样了,以前的尺子量的是你能不能跑,现在的尺子量的是我愿不愿意跟你共事,而这是两件事。