Anthropic在宣布H轮650亿美金融资当日发布Claude Opus 4.8。新模型基于Opus 4.7,提升了判断力、诚实度与独立工作时长,更适合编码、智能体、知识工作及Claude Code等复杂长期任务。其编码与知识工作评测成绩为SWE-Bench Pro 69.2%、GDPval-AA 1890、Terminal-Bench 2.1 74.6%。模型在诚实度上提升4倍,能更准确地自我监控与汇报进度。智能体协作质量提高,判断更稳、工具使用更经济。计算机与浏览器智能体能力也得到加强,OSWorld-Verified得分83.4%,Online-Mind2Web得分84%。同时,Claude Code推出Dynamic Workflows,从单智能体升级为包含规划、并行与验证的多步骤工作流。新模型今日起以相同价格提供服务。
Claude Opus 4.8 发布:可靠性和执行能力进一步提升,更适合承担复杂、长期、多步骤的真实工作,尤其是编码、Agent 任务、知识工作和 Claude Code 场景。
刚好,就在 Anthropic 官宣 H 轮 650 亿美金融资的当天,难怪没有阻击 Google I/O,原来是在配合自家融资官宣(也是 Gemini Flash 3.5 太不值得狙击了吗?)
同时 Claude 另外两个模型:Claude Sonnet 4.6、Claude Haiku 4.5 还没有更新,还会有吗?
看看 Claude Opus 4.8 几个关键变化:
1. 编码与知识工作能力进一步提升,SWE-Bench Pro 69.2%、GDPval-AA 1890、Terminal-Bench 2.1 74.6%
2. 更诚实(4x),减少误判进度、主动标注不确定性,强调「自我监控 + 如实汇报」
3. Agent 协作质量:判断更稳、工具更省、任务更能跑完
4. 计算机 / 浏览器 Agent 继续提升,OSWorld-Verified:83.4%、Online-Mind2Web:84%,对 RPA、浏览器自动化、computer-use 产品意义最大
5. Claude Code Dynamic Workflows:从单 Agent 到「规划 + 并行 + 验证」