Claude Opus 4.8发布：强化编码与Agent能力

meng shao@shao__meng

2026-05-29 08:55·17天前

AI 摘要

Anthropic在宣布H轮650亿美金融资当日发布Claude Opus 4.8。新模型基于Opus 4.7，提升了判断力、诚实度与独立工作时长，更适合编码、智能体、知识工作及Claude Code等复杂长期任务。其编码与知识工作评测成绩为SWE-Bench Pro 69.2%、GDPval-AA 1890、Terminal-Bench 2.1 74.6%。模型在诚实度上提升4倍，能更准确地自我监控与汇报进度。智能体协作质量提高，判断更稳、工具使用更经济。计算机与浏览器智能体能力也得到加强，OSWorld-Verified得分83.4%，Online-Mind2Web得分84%。同时，Claude Code推出Dynamic Workflows，从单智能体升级为包含规划、并行与验证的多步骤工作流。新模型今日起以相同价格提供服务。

Claude Opus 4.8 发布：可靠性和执行能力进一步提升，更适合承担复杂、长期、多步骤的真实工作，尤其是编码、Agent 任务、知识工作和 Claude Code 场景。

刚好，就在 Anthropic 官宣 H 轮 650 亿美金融资的当天，难怪没有阻击 Google I/O，原来是在配合自家融资官宣（也是 Gemini Flash 3.5 太不值得狙击了吗？）

同时 Claude 另外两个模型：Claude Sonnet 4.6、Claude Haiku 4.5 还没有更新，还会有吗？

看看 Claude Opus 4.8 几个关键变化：

1. 编码与知识工作能力进一步提升，SWE-Bench Pro 69.2%、GDPval-AA 1890、Terminal-Bench 2.1 74.6%

2. 更诚实（4x），减少误判进度、主动标注不确定性，强调「自我监控 + 如实汇报」

3. Agent 协作质量：判断更稳、工具更省、任务更能跑完

4. 计算机 / 浏览器 Agent 继续提升，OSWorld-Verified：83.4%、Online-Mind2Web：84%，对 RPA、浏览器自动化、computer-use 产品意义最大

5. Claude Code Dynamic Workflows：从单 Agent 到「规划 + 并行 + 验证」

ClaudeIntroducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the ability to work independently for longer ...

智能体Anthropic模型发布编码

在 X 查看原推

meng shao@shao__meng · X