关于模型 one-pass 能力与测评方向的讨论

karminski-牙医@karminski3

2026-06-12 07:32·3天前

AI 摘要

karminski认为，one-pass能力强（少思考即正确）的模型才是SOTA；需用agentic coding修复首次错误反显模型差，bug应在thinking中修复，而非依赖n+1次上下文，否则有诱导购买coding plan之嫌。@iamai_omni建议测评转向长期任务一致性，可构建loop测评，重点看后续几轮修复表现。

我的使用经验是， one-pass 能力越强（且能在较少的思考下one-pass）模型才是SOTA的. 要用 agentic coding 才能修复第一次犯的错反而是模型拉夸的表现，再不济也要在Interleaved thinking过程中修复. agentic coding 是用来解决工程量和运行时问题的. 不是用来修静态检查就行发现的bug的.更简单的说，你有bug不在thinking中修，反而非要在n+1次上下文中修复，是不是骗我买coding plan（x）？

✧ IAMAI ✧@karminski3 兄弟,测评方向错了,前沿模型的能力要往长期任务一致性上去看,这种几分钟的短期任务真的看不出什么,而且你可以尝试构建 loop 来测评这个任务,重点看后面模型用几轮来修复。

大佬观点推理编码

在 X 查看原推

karminski-牙医@karminski3 · X

2026-06-12 07:32·3天前

AI 摘要

大佬观点推理编码

在 X 查看原推x.com