Anthropic 发布旗舰大语言模型 Claude Opus 4.8,作为 Opus 4.7 的全面升级版,其在编程、智能体、推理和知识工作等基准测试中均超越前代。最显著的改进是模型诚实度大幅提升,对自身有缺陷代码视而不见的概率降低约四倍。同步推出三项新功能:Claude Code 支持动态工作流,可启动并行子智能体处理复杂任务;claude.ai 提供“努力控制”功能,允许用户调整模型思考深度;API 支持任务执行中实时更新指令。早期测试者反馈模型在判断力和可靠性上改善明显,价格与 Opus 4.7 保持一致。
Anthropic 今天发布了旗舰模型 Claude Opus 4.8,是 Opus 4.7 的全面升级版。
在编程、智能体、推理、知识工作四个维度的基准测试中,Opus 4.8 都超过了上一代。其中最值得注意的是「诚实度」的改变,模型对自己写出的有缺陷代码视而不见的概率,降低了约四倍。也就是说,它更愿意承认自己的错误,而不是强行辩护。
这次发布同步带来了三个新功能。
第一个是 Claude Code 里的动态工作流,可以在单次会话内启动数十甚至数百个并行子智能体,专门用来处理大规模、跨文件的复杂任务,比如全代码库的漏洞扫描和大型代码迁移。
第二个是 http://claude.ai 上的「努力控制」,用户可以手动调整模型的思考深度,用更少的 Token 处理简单问题,把算力留给真正需要的地方。
第三个是 API 层面支持在任务执行途中实时更新指令,不必中断整个流程重新开始。
来自 Databricks、Hebbia、Devin 等团队的早期测试者反馈说,模型在判断力和可靠性上有明显改善,尤其在长时间自主运行的任务里表现更稳。价格和 Opus 4.7 保持一致,没有涨价。