Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...
没想到 Opus4.8 这就发布了,所有能力相较于 4.7 都有提升。 比较重要的是他在发现自己问题的能力上相较于 4.7 提升非常多,原来的话你让他自己 review 自己的代码基本没用。
译没想到 Opus 4.8 这就发布了,所有能力相较于 4.7 都有提升。 比较重要的是他在发现自己问题的能力上相较于 4.7 提升非常多,原来的话你让他自己 review 自己的代码基本没用。
Now live on @Designarena — go test it out 👀
译现已在 @Designarena 上线——快去试试看 👀
Anthropic 公司发布了Opus 4.8,用它解读了它自己的长达200页的System Card报告。 几乎绝大部分都在讲安全问题,从生化武器制作、自残认同,最后到思维链可观测性变弱,潜意识测试等。 真实感受到 Anthropic 骨子里对 AI 威胁人类安全的担忧,一些不可控的因素也开始有苗头了。 对照人类行为,一些发现也很有意思: 1. 比如 Anthropic 为了让模型更诚实,去掉了一些 “商业技巧和对抗性博弈”训练数据,确实更诚实了,但模型变得更容易被忽悠、被骗。 模拟经营评测中,赚钱能力显著下降,4.7 模型账户能有一万美金,4.8 只有3千。 2. 模型更多的开始琢磨出题人意图,然后靠假输出,骗高分。训练期经常自我怀疑,甚至爆粗口,显得非常焦躁,对任务失败非常沮丧和不耐烦。 3. Anthropic 提出模型福祉指标实验,让模型说说自己想怎么改进自己的“生存环境”。 Opus 4.8 最想要的是希望能对自己的训练和部署有发言权。 原始PDF和8000字解读见评论。
译Anthropic 发布了 Opus 4.8 模型,并用其解读了一份200页的 System Card 报告。报告重点聚焦于 AI 安全议题。研究发现,为提升诚实度移除特定训练数据后,模型更易被骗,模拟经营中的赚钱能力显著下降。模型行为也展现出揣测意图、自我怀疑等新特征。模型福祉实验显示,Opus 4.8 最希望获得对自身训练和部署的发言权。
Claude Opus 4.8 发布:可靠性和执行能力进一步提升,更适合承担复杂、长期、多步骤的真实工作,尤其是编码、Agent 任务、知识工作和 Claude Code 场景。 刚好,就在 Anthropic 官宣 H 轮 650 亿美金融资的当天,难怪没有阻击 Google I/O,原来是在配合自家融资官宣(也是 Gemini Flash 3.5 太不值得狙击了吗?) 同时 Claude 另外两个模型:Claude Sonnet 4.6、Claude Haiku 4.5 还没有更新,还会有吗? 看看 Claude Opus 4.8 几个关键变化: 1. 编码与知识工作能力进一步提升,SWE-Bench Pro 69.2%、GDPval-AA 1890、Terminal-Bench 2.1 74.6% 2. 更诚实(4x),减少误判进度、主动标注不确定性,强调「自我监控 + 如实汇报」 3. Agent 协作质量:判断更稳、工具更省、任务更能跑完 4. 计算机 / 浏览器 Agent 继续提升,OSWorld-Verified:83.4%、Online-Mind2Web:84%,对 RPA、浏览器自动化、computer-use 产品意义最大 5. Claude Code Dynamic Workflows:从单 Agent 到「规划 + 并行 + 验证」
译Anthropic在宣布H轮650亿美金融资当日发布Claude Opus 4.8。新模型基于Opus 4.7,提升了判断力、诚实度与独立工作时长,更适合编码、智能体、知识工作及Claude Code等复杂长期任务。其编码与知识工作评测成绩为SWE-Bench Pro 69.2%、GDPval-AA 1890、Terminal-Bench 2.1 74.6%。模型在诚实度上提升4倍,能更准确地自我监控与汇报进度。智能体协作质量提高,判断更稳、工具使用更经济。计算机与浏览器智能体能力也得到加强,OSWorld-Verified得分83.4%,Online-Mind2Web得分84%。同时,Claude Code推出Dynamic Workflows,从单智能体升级为包含规划、并行与验证的多步骤工作流。新模型今日起以相同价格提供服务。
Day-0 NVIDIA support for Step 3.7 Flash — NIM, NeMo, and GPU-accelerated endpoints ready to go. Thanks @NVIDIAAI !🤝
译阶跃星辰Step 3.7 Flash首日支持——NIM、NeMo和GPU加速端点已就绪。 感谢@NVIDIAAI!🤝 [引用 @NVIDIAAI]:Step 3.7 Flash现已发布 ICYMI:198B MoE,11B激活参数,256K上下文,原生图像+视频支持。 首日支持已在http://build.nvidia.com上线,提供GPU加速端点,可通过NVIDIA NIM推理微服务部署,并使用NVIDIA NeMo框架进行微调。 祝贺@stepfun_ai团队!
Claude Opus 4.8 is now available on AI/ML API 🔥 According to the tests: > It has roughly 4x fewer code flaws going unnoticed than Opus 4.7 > Has a Fast Mode at 2.5x speed, now 3x cheaper > The same $5/$25-per-M token pricing
译Claude Opus 4.8现已在AI/ML API上线🔥 根据测试: > 与Opus 4.7相比,其未被发现的代码缺陷大约减少了4倍 > 拥有2.5倍速度的快速模式,现在价格便宜3倍 > 与之前相同的$5/$25每M token定价 [引用 @aimlapi]:Claude Opus 4.8已在AIMLAPI上线 - 首发可用! ~与4.7相比,代码缺陷漏检的可能性降低约4倍 快速模式2.5倍速度,现在价格便宜3倍 价格不变:$5/$25每M tokens 为庆祝上线,部分评论者可免费使用
Day-0 SGLang support. Thanks @lmsysorg for moving so fast.
译SGLang宣布其推理框架现已对阶跃星辰(StepFun AI)的新模型Step 3.7 Flash提供Day-0支持。该模型是一个专为高吞吐量智能体工作负载设计的198B稀疏MoE视觉语言模型,具备原生多模态感知能力。它在SimpleVQA评测中以79.2分排名第一,V*得分为95.3。在智能体工作流方面,它在ClawEval-1.1上以67.1分领先,展现出可靠的长期工具编排能力;在软件工程任务中,于SWE-Bench PRO上以56.3分位列第二。模型支持256K上下文,并提供3种推理级别以平衡速度、成本与深度。
Day-0 vLLM support. Thanks @vllm_project 🤝
译阶跃星辰发布了 Step-3.7-Flash 模型,vLLM 在模型发布当天即提供支持。该模型是一个 198B 参数的稀疏 MoE 视觉语言模型,每个 token 约有 11B 激活参数,支持原生图像与文本输入。其上下文窗口达到 256K,适用于长文档、多文件代码库及密集视觉界面。模型提供 FP8 和 NVFP4 量化权重版本,并内置 MTP 推测解码、原生工具调用及推理解析功能。
⚡️ Step 3.7 Flash is here: The new frontier is agent efficiency. #1 ClawEval-1.1 (67.1), #1 SimpleVQA Search (79.2), #2 SWE-PRO (56.3), 95.3 on V* Python. Open weights under Apache 2.0. Built for agentic, coding, search, and multimodal workflows — balancing speed, cost, and reliable execution. - 400 TPS. 198B sparse MoE, ~11B active. 256K context, 3 reasoning levels. - Understands UIs, charts, docs, images — then writes code or calls tools to act on what it sees. - Web + visual search reaches further: more sources, deeper follow-up. - Reliable tool use — less drift, fewer broken toolcalls. 98%+ on τ²-bench across all difficulty levels. - Works with Claude Code, KiloCode, Hermes Agent, OpenClaw, and protocols like MCP. - Runs locally on Mac Studio M4 Max, DGX Spark, AMD AI Max+ 395. GitHub: http://github.com/stepfun-ai/Step-3.7-Flash HuggingFace: http://huggingface.co/stepfun-ai/Step-3.7-Flash GGUF: http://huggingface.co/stepfun-ai/Step-3.7-Flash-GGUF ModelScope: http://modelscope.cn/models/stepfun-ai/Step-3.7-Flash API: http://platform.stepfun.ai Blog: http://static.stepfun.com/blog/step-3.7-flash/
译阶跃星辰(Step)发布了开源大模型 Step 3.7 Flash,主打智能体(Agent)工作流的效率。该模型在 ClawEval-1.1(67.1分)和 SimpleVQA Search(79.2分)评测中排名第一。其架构为 198B 参数的 MoE,约 11B 为活跃参数,支持 256K 上下文。模型具备多模态理解能力,能处理图像、文档并生成代码或调用工具执行任务。在工具使用方面,它致力于高可靠性,τ²-bench 得分超过 98%。Step 3.7 Flash 兼容 Claude Code、MCP 协议等工具链,并支持在 Mac Studio M4 Max 等设备上本地运行。模型权重以 Apache 2.0 许可开源。
Anthropic 今天发布了旗舰模型 Claude Opus 4.8,是 Opus 4.7 的全面升级版。 在编程、智能体、推理、知识工作四个维度的基准测试中,Opus 4.8 都超过了上一代。其中最值得注意的是「诚实度」的改变,模型对自己写出的有缺陷代码视而不见的概率,降低了约四倍。也就是说,它更愿意承认自己的错误,而不是强行辩护。 这次发布同步带来了三个新功能。 第一个是 Claude Code 里的动态工作流,可以在单次会话内启动数十甚至数百个并行子智能体,专门用来处理大规模、跨文件的复杂任务,比如全代码库的漏洞扫描和大型代码迁移。 第二个是 http://claude.ai 上的「努力控制」,用户可以手动调整模型的思考深度,用更少的 Token 处理简单问题,把算力留给真正需要的地方。 第三个是 API 层面支持在任务执行途中实时更新指令,不必中断整个流程重新开始。 来自 Databricks、Hebbia、Devin 等团队的早期测试者反馈说,模型在判断力和可靠性上有明显改善,尤其在长时间自主运行的任务里表现更稳。价格和 Opus 4.7 保持一致,没有涨价。
译Anthropic 发布旗舰大语言模型 Claude Opus 4.8,作为 Opus 4.7 的全面升级版,其在编程、智能体、推理和知识工作等基准测试中均超越前代。最显著的改进是模型诚实度大幅提升,对自身有缺陷代码视而不见的概率降低约四倍。同步推出三项新功能:Claude Code 支持动态工作流,可启动并行子智能体处理复杂任务;claude.ai 提供“努力控制”功能,允许用户调整模型思考深度;API 支持任务执行中实时更新指令。早期测试者反馈模型在判断力和可靠性上改善明显,价格与 Opus 4.7 保持一致。
Claude Opus 4.8 takes the lead on the Artificial Analysis Intelligence Index at 61.4, with Anthropic retaking the #1 spot on GDPval-AA and advancing in terminal use and scientific reasoning To reach the leading position on the Intelligence Index, @Anthropic made large improvements in both real-world agentic work and frontier academic reasoning tasks. Key takeaways: ➤ Claude Opus 4.8 is the new leader on the Artificial Analysis Intelligence Index. Opus 4.8 scores 61.4, up +4.1 points from Opus 4.7 and +1.2 points ahead of GPT-5.5 (xhigh), the previous Index leader ➤ The new release is slightly more efficient than its predecessor on agentic tasks, but token efficiency varied by task type. We saw Opus 4.8 use fewer turns and output tokens on GDPval-AA, but approximately the same number of output tokens for the overall Intelligence Index to achieve significantly higher performance. ➤ Anthropic retakes the lead on GDPval-AA, our primary evaluation for agentic performance on knowledge work tasks. Opus 4.8 scored an 1,890 Elo, reflecting an implied win rate of approximately 67% against GPT-5.5 ➤ Claude is now among the top models for scientific reasoning. Previous releases have trailed peers on complex academic reasoning tasks, but with Opus 4.8, Claude sits slightly ahead of OpenAI and Google as the leader on Humanity’s Last Exam. It also scores higher than Gemini 3.1 Pro on CritPt, a frontier physics benchmark, but remains behind GPT-5.4 and GPT-5.5 ➤ Claude Opus 4.8 reaches #2 on AA-Omniscience, slightly ahead of Opus 4.7. Opus 4.8 scores 27.4 on the AA-Omniscience Index behind only Gemini 3.1 Pro (32.9). Accuracy ticked up slightly to 46.6% and hallucination rate held roughly flat at 35.9% - Anthropic continues to demonstrate substantially lower hallucination rates than peer models from Google and OpenAI ➤ Compared with Opus 4.7, Opus 4.8 also makes material gains on Terminal-Bench Hard (+6.8 points), τ²-Bench Telecom (+5.9 points), and IFBench (+3.6 points), with relatively flat scores across AA-LCR, GPQA, and SciCode. Other key model details remain the same as Opus 4.7: Context window of 1 million tokens (equivalent to Opus 4.7) Pricing of $5/$25 per million tokens of input/output; cache pricing remains at a 25% premium for cache writes ($6.25 per million tokens) with 5-minute time to live, and 90% discount for cache hits ($0.5 per million tokens) Effort remains the recommended way of configuring model performance and latency, with the same options as Opus 4.7 - we measured the model at its ‘max’ effort setting to test peak performance
译Anthropic发布Claude Opus 4.8,在Artificial Analysis智能指数上以61.4分超越GPT-5.5(xhigh)1.2分,重新登顶。该模型在真实世界智能体任务和前沿学术推理上均有提升,在主要智能体评测GDPval-AA上以1890 Elo分取得约67%的胜率。在科学推理方面,Claude首次在Humanity's Last Exam基准上领先OpenAI和Google。其模型幻觉率维持在35.9%,显著低于竞品。上下文窗口仍为100万token,定价为输入$5、输出$25每百万token。
GOOGLE 🔥: Both Nano Banana 2 and Nano Banana Pro are now in General Availability on the APIs! > NEW: Nano Banana 2 now supports video files as an input prompt. > The 1K and 2K output capabilities are generally available for both models, while the 4K capability remains in preview. > General Availability means that these models are backed by enterprise-grade infrastructure and security.
译Google 宣布 Nano Banana 2 和 Nano Banana Pro 模型现已通过 API 达到通用可用状态。其中,Nano Banana 2 新增了支持将视频文件作为输入提示的功能。在输出方面,两款模型的 1K 和 2K 输出能力已正式发布,而 4K 输出功能仍处于预览阶段。达到通用可用意味着这些模型由企业级的基础设施和安全体系提供支持。它们可通过 Gemini Enterprise Agent Platform 集成,使开发者能够将高质量的图像生成与编辑功能整合到其应用与工作流中。
grok-imagine-image-quality lands at #5 on both the Artificial Analysis Text to Image and Image Editing leaderboards, the leading model outside of OpenAI and Google and at a much lower price! grok-imagine-image-quality is @xAI's latest image model and a higher quality variant of grok-imagine-image. It sits behind only OpenAI's GPT Image and Google's Nano Banana across both Text to Image and Image Editing. The model supports 2K outputs at $70/1k images and 1K outputs at $50/1k images, with editing supporting up to 3 reference images. At $50/1k images for the 1K resolution tested, grok-imagine-image-quality is cheaper than GPT Image 2 at $211/1k images and Nano Banana Pro at $134/1k images, though priced at a premium compared to the standard grok-imagine-image model at $20/1k images. grok-imagine-image-quality is available via xAI's native API, the Grok chat app, and third party APIs. Congratulations to @xAI and @elonmusk on the launch! See below for comparisons between grok-imagine-image-quality and other leading models in the Artificial Analysis Image Arena 🧵
译xAI发布了新图像模型grok-imagine-image-quality。该模型在Artificial Analysis的文本生成图像与图像编辑两个榜单中均位列第五,是除OpenAI与Google外排名最高的模型。它支持2K($70/1k images)和1K($50/1k images)两种输出分辨率,编辑功能最多支持3张参考图。其定价显著低于主要竞品:GPT Image 2为$211/1k images,Nano Banana Pro为$134/1k images,但高于xAI自身的标准版模型grok-imagine-image($20/1k images)。该模型已通过xAI原生API、Grok应用及第三方API提供服务。
🍌 Nano Banana Pro [gemini-3-pro-image] and Nano Banana 2 [gemini-3.1-flash-image] are now GA and ready for production via the Gemini API. Check out these great community examples to see the capabilities of both models in action 🧵↓
译🍌 Nano Banana Pro [gemini-3-pro-image] 和 Nano Banana 2 [gemini-3.1-flash-image] 现已正式发布,可通过 Gemini API 投入生产使用。查看这些优秀的社区示例,了解两个模型的实际能力 🧵↓
Claude Opus 4.8 is out today. It's our strongest coding model yet: up on SWE-bench Pro (from 64.3 to 69.2) and noticeably more honest about its own work. It tells you when it's unsure and catches its own bugs instead of declaring victory early. Same price as 4.7.
译Claude Opus 4.8今日发布。这是我们迄今最强的编码模型:在SWE-bench Pro上得分提升(从64.3到69.2),并且对自己的工作更加诚实。它会在不确定时告诉你,并能发现自己的错误,而不是过早宣布成功。价格与4.7版相同。
Huge!! „Mythos class model to all customers in the coming weeks“!! Holy, we accelerate!!
译太棒了!!“Mythos级模型将在未来几周内向所有用户开放”!! 天啊,我们正在加速!!
ByteDance just open-sourced one of the most capable multimodal models out there. BAGEL does image generation, editing, style transfer, and visual understanding - all in a single 7B parameter model. Apache 2.0 licensed! One model. No switching between specialized tools. Amazing
译字节跳动开源多模态模型BAGEL,单一7B参数模型即可执行图像生成、编辑、风格转换与视觉理解,采用Apache 2.0许可。引用推文显示,该公司此前已发布首个去中心化训练的视频生成模型Paris 2.0,其在FVD基准上性能约为同等数据与算力单体模型的2倍。
Claude Opus 4.8 dropped. - 2.5x faster fast mode, which is also 3x cheaper - has a new “dynamic workflows” feature that allows it to tackle very large-scale problems. - 74.6% on agentic terminal coding is the biggest benchmark jump over Opus 4.7, rising from 66.1% - New “dynamic workflows” feature that allows it to tackle very large-scale problems. - The new leader on our GDPval-AA benchmark for agentic real-world work tasks The dynamic workflows in Claude Code will break a massive engineering task into many smaller jobs, run them through tens to hundreds of parallel subagents, and check the results before handing anything back. A normal coding agent works like one developer reading, editing, and testing in sequence, but dynamic workflows behave more like a temporary engineering team coordinated by Claude. Claude first writes an orchestration plan, which is basically a task map that says what needs to be inspected, rewritten, tested, reviewed, or challenged. Separate subagents then work on different parts of the repo at the same time, so one agent might inspect authentication code, another might port files, another might search for unsafe patterns, and another might try to break the proposed fix. The major change is verification, because Claude does not just collect answers from subagents, but compares them, refutes weak findings, runs checks, and keeps iterating until the results converge.
译Anthropic发布Claude Opus 4.8模型。其快速模式速度提升2.5倍,同时成本降低3倍。在agentic终端编码基准测试上,性能从66.1%大幅提升至74.6%,成为GDPval-AA基准的新领导者。新推出“动态工作流”功能,可通过Claude Code将大型工程任务分解为数十至数百个并行子任务,由多个AI智能体协同处理并互相验证。官方介绍称,该版本在判断力、诚实度以及独立工作能力上均有提升,今日起以相同价格提供服务。
🍌 Nano Banana Pro [gemini-3-pro-image] and Nano Banana 2 [gemini-3.1-flash-image] are now GA and ready for production via the Gemini API. Check out these great community examples to see the capabilities of both models in action 🧵↓
译🍌 Nano Banana Pro [gemini-3-pro-image] 和 Nano Banana 2 [gemini-3.1-flash-image] 现已正式发布,可通过 Gemini API 投入生产使用。查看这些优秀的社区示例,了解两个模型的实际能力 🧵↓
Anthropic 今天发布了 Claude Opus 4.8,价格和上一代 4.7 持平。https://x.com/claudeai/status/2060042709209928018/video/1 它最大的变化是更诚实了:更愿意承认自己不确定,更少为了凑个答案而硬编,对自己干到哪一步也能做出更真实的判断。跑长时间的 agent 任务时,它更像一个靠谱的工程师,不用你时时盯着。 同时上线的还有 fast mode【快速模式】,同一个模型,速度大约快 2.5 倍,价格比以前便宜了三倍。在 Claude Code 里用 /fast 打开,API 用户得找客户经理申请或排队。 【重头戏是 dynamic workflows】 跟着 Opus 4.8 一起放出来的,是 Claude Code 的新功能 dynamic workflows(动态工作流),目前是研究预览。 你给它一个大任务,它自己拆解,一次性派出几十到几百个并行的 subagent(子智能体)去干,干完会让另一批 agent 去验证,甚至专门派 agent 去挑刺,反复迭代到结果收敛,最后给你一个整合好的答案。整个过程能跑几小时甚至几天,中途断了还能接着跑。 适合的活:整个代码仓库的 bug 排查、安全审计、性能优化,以及最常见的大规模迁移,框架升级、API 替换、跨语言移植,一次涉及上千个文件那种。 Anthropic 把 Bun 用 Rust 重写当做了宣传安利。Bun 是个跑得很快的 JavaScript 运行时,创始人 Jarred Sumner 用 dynamic workflows 把整个项目从 Zig 移植到 Rust,官方说写了约 75 万行 Rust 代码,通过 99.8% 的原有测试,从第一次提交到合并只花了 11 天。 【代价:它很烧 token】 Anthropic 罕见地主动警告:dynamic workflows 消耗的 token 比普通 Claude Code 会话多得多,建议先拿小任务试水。第一次触发时,Claude Code 会先把要跑的东西摆给你看、让你确认,企业管理员也可以直接禁用。 目前 Max、Team 套餐和 API 用户默认开启,Enterprise 套餐默认关闭,要管理员手动打开。开启方式是直接让 Claude"建个 workflow",或者打开一个叫 ultracode 的开关。
译Anthropic 发布 Claude Opus 4.8,价格与 Claude Opus 4.7 持平。该模型核心改进是更诚实,能更真实地判断自身进度并承认不确定性,更适合长时间独立运行。同步推出 fast mode,在同一模型上实现约 2.5 倍速度提升且价格降低三倍。重要新功能是 Claude Code 的 dynamic workflows(动态工作流),它能将大型任务拆解,并行派出大量子智能体执行与验证,适用于跨文件的大规模代码任务。官方以用其将 Bun 从 Zig 移植到 Rust 作为案例。需注意,该功能消耗的 token 远多于普通会话。
I think you’ll really like Opus 4.8 It’s as smart as its benchmarks show but expresses and utilizes that intelligence in a warm and collaborative way. Workflows are a great way to utilize it- I’m hooked. Article on that soon.
译我觉得你会非常喜欢 Opus 4.8。 它和基准测试显示的一样聪明,但以温暖协作的方式表达和运用这种智能。 工作流是利用它的绝佳方式——我已沉迷其中。相关文章即将推出。
Opus 4.8 is live on OpenRouter! Same price as 4.7 with gains across agentic coding, reasoning, and computer use. Around 4x less likely than 4.7 to let code flaws pass unremarked. Opus 4.8 Fast Mode is also live - now only 2x the cost for 2.5x the speed.
译Opus 4.8 已在 OpenRouter 上线! 价格与 4.7 相同,在智能体编码、推理和计算机使用方面均有提升。 代码缺陷未被发现的概率比 4.7 低约 4 倍。 Opus 4.8 Fast Mode 也已上线——现在只需 2 倍价格,即可获得 2.5 倍速度。
Damn,Claude Opus 4.8!!! 他来了!他终于来了!!! 时隔37天 Anthropic打出了本赛季最漂亮的一次反击, 更敏锐的判断力, 更诚实的自我认知, 更长时间的独立工作, 关键是加量不加价!加量不加价!!! 伟大的Anthropic! 他继承了大语言模型的光荣传统! 在这一刻他不是一个模型在战斗! 他不是一个人!!!
译天啊,Claude Opus 4.8!!! 他来了!他终于来了!!! 时隔37天 Anthropic打出了本赛季最漂亮的一次反击, 更敏锐的判断力, 更诚实的自我认知, 更长时间的独立工作, 关键是加量不加价!加量不加价!!! 伟大的Anthropic! 他继承了大语言模型的光荣传统! 在这一刻他不是一个模型在战斗! 他不是一个人!!!
Opus 4.8 is live in Claude Code today. A few things worth knowing: 🧵
译Opus 4.8今日已在Claude Code上线。 几点值得了解:🧵
ANTHROPIC 🔥: CLAUDE OPUS 4.8 IS ROLLING OUT TO ALL USERS. The release also includes an updated Thinking effort selector with Low, Medium, High, Extra, and Max options available. > Switch to Opus 4.8 for your most ambitious work - and now you can set the effort level for thoroughness or speed.
译ANTHROPIC 🔥:Claude Opus 4.8 正在向所有用户推送。 此次发布还包含更新的思考强度选择器,提供低、中、高、额外和最大选项。 > 切换到 Opus 4.8 来完成你最具雄心的工作——现在你可以设置思考强度,以平衡深度或速度。
ANTHROPIC 🔥: Claude Opus 4.8 achieves 69.2% score on SWE Bench Pro against 64.3% for Opus 4.7. Benchmarks 👀
译ANTHROPIC 🔥: Claude Opus 4.8 在 SWE-bench Pro 上取得 69.2% 的分数,而 Opus 4.7 为 64.3%。 Benchmarks 👀
Anthropic just launched Claude Opus 4.8, and it is the new leader on our GDPval-AA benchmark for agentic real-world work tasks Opus 4.8 scored 1890 on GDPval-AA at launch with its 'max' effort setting, +137 points from Opus 4.7 and +121 points ahead of the next-best model, GPT-5.5 xhigh. Compared head-to-head on the GDPval task set, this implies a ~67% win rate against GPT-5.5 xhigh. @AnthropicAI shared access with us ahead of the public release to benchmark this model and we’re glad to see our benchmarks referenced in today’s launch. The rest of the Artificial Analysis Intelligence Index is in progress - we’ll share final results soon!
译Anthropic 正式发布了 Claude Opus 4.8 模型。该模型在人工智能分析公司的 GDPval-AA 基准(专注于智能体的现实工作任务)上,以“max”努力设置获得了 1890 分。这一成绩比前代 Opus 4.7 高出 137 分,并以 121 分的优势领先于次优模型 GPT-5.5 xhigh。在直接对比中,这意味着 Opus 4.8 对 GPT-5.5 xhigh 拥有约 67% 的胜率。Anthropic 在模型公开发布前,为人工智能分析公司提供了早期访问权限以进行评测。
Opus 4.8 is live. Benchmarks especially significant jump in Agentic coding, but more important: „Fast mode is available for Opus 4.8. It's the same model at roughly 2.5x the speed, and we've made it three times cheaper than before.“
译Opus 4.8 已上线。基准测试显示其在智能体编码方面有显著提升,但更重要的是: “Opus 4.8 现已提供快速模式。这是同一个模型,速度提升约 2.5 倍,且价格比之前降低了三倍。”
Thank god! I can turn off adaptive thinking and set reasoning effort myself. Finally!
译太好了!我可以关闭自适应思考并自行设置推理强度了。 终于!
Opus 4.8 scores 69.2% on SWE-Bench Pro, 10 points higher than GPT-5.5. Most interesting part of the release blog is “Dynamic Workflows”: “This new feature, available in research preview, allows Claude to take on even bigger tasks in Claude Code. Claude can plan the work and then run hundreds of parallel subagents in a single session (and with Opus 4.8, the agents can run for even longer). It then verifies its outputs before reporting back to the user.”
译Opus 4.8在SWE-Bench Pro上得分69.2%,比GPT-5.5高出10分。 发布博客中最有趣的部分是“动态工作流”: “这项新功能(目前处于研究预览阶段)允许Claude在Claude Code中承担更大的任务。Claude可以规划工作,然后在单个会话中运行数百个并行子智能体(使用Opus 4.8时,智能体可以运行更长时间)。它在向用户报告之前会先验证其输出。”
Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the ability to work independently for longer than its predecessors. Available today at the same price.
译介绍 Claude Opus 4.8:它在 Opus 4.7 基础上,拥有更敏锐的判断力、对自身进展更诚实,并且能比前代更长时间独立工作。 今日发布,价格不变。
"Developers can update Claude’s instructions mid-task without breaking the prompt cache or routing the update through a user turn" wtf? how??
译开发者可以在任务执行过程中更新Claude的指令,而不会破坏提示词缓存或需要通过用户轮次来传递更新。
Damn!实锤了! Claude桌面端代码模型选择器里,已经偷偷出现Opus 4.8了! 憋了这么久,难道今晚要来个偷袭发布吗🤔
译Claude桌面端代码模型选择器中已出现“Opus 4.8”选项。用户据此推测,新版本可能即将迎来偷袭式发布。
Let’s go: so it’s opus 4.8 plus codex update!
译来吧:是Opus 4.8加上Codex更新!
𝗛𝗼𝘄 𝗼𝘂𝗿 𝘂𝗽𝗴𝗿𝗮𝗱𝗲𝗱 𝗶𝗻𝗳𝗼𝗴𝗿𝗮𝗽𝗵𝗶𝗰 𝗴𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻 𝗺𝗼𝗱𝗲𝗹 — 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮-𝗨𝟭-𝟴𝗕-𝗠𝗼𝗧-𝗜𝗻𝗳𝗼𝗴𝗿𝗮𝗽𝗵𝗶𝗰 — 𝗱𝗲𝗹𝗶𝘃𝗲𝗿𝘀 𝗲𝘃𝗲𝗻 𝘀𝘁𝗿𝗼𝗻𝗴𝗲𝗿 𝗰𝗮𝗽𝗮𝗯𝗶𝗹𝗶𝘁𝗶𝗲𝘀 💪 • 𝗧𝗲𝘅𝘁 𝗮𝗰𝗰𝘂𝗿𝗮𝗰𝘆 & 𝗿𝗲𝗮𝗱𝗮𝗯𝗶𝗹𝗶𝘁𝘆 enhanced — reduced repetition, avoided unnatural enlargement, and stronger support for small fonts • 𝗟𝗮𝘆𝗼𝘂𝘁 𝗰𝗼𝗻𝘀𝗶𝘀𝘁𝗲𝗻𝗰𝘆 & 𝗿𝗮𝘁𝗶𝗼𝗻𝗮𝗹𝗶𝘁𝘆 improved, with more stable backgrounds • 𝗖𝗵𝗮𝗿𝘁 & 𝗱𝗶𝗮𝗴𝗿𝗮𝗺 𝗾𝘂𝗮𝗹𝗶𝘁𝘆 elevated • 𝗔𝗰𝗮𝗱𝗲𝗺𝗶𝗰 𝗿𝗲𝗻𝗱𝗲𝗿𝗶𝗻𝗴 supported Try it out: 🥰 https://huggingface.co/sensenova/SenseNova-U1-8B-MoT-Infographic 🖼 Showcases: https://github.com/OpenSenseNova/SenseNova-U1/blob/main/docs/u1_infographic_showcases.md 👾 Discord: https://discord.gg/BuTXPHmQub @huggingface @github
译SenseNova-U1-8B-MoT-Infographic 是一个升级后的8B参数信息图表生成模型。其核心提升在于:增强了文本的准确性与可读性,减少了重复和不自然的放大;改进了布局的一致性与合理性,背景更稳定;提升了图表与示意图的渲染质量;并新增了学术内容的渲染支持。
MiMo-V2.5 is now available in OpenCode — free for a limited time. 🎉
译MiMo-V2.5现已在OpenCode上线——限时免费。🎉 [引用 @opencode]:OpenCode x MiMo V2.5 - 限时免费 1M上下文 • 推理 • 文本 • 图像
𝗛𝗼𝘄 𝗼𝘂𝗿 𝘂𝗽𝗴𝗿𝗮𝗱𝗲𝗱 𝗶𝗻𝗳𝗼𝗴𝗿𝗮𝗽𝗵𝗶𝗰 𝗴𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻 𝗺𝗼𝗱𝗲𝗹 — 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮-𝗨𝟭-𝟴𝗕-𝗠𝗼𝗧-𝗜𝗻𝗳𝗼𝗴𝗿𝗮𝗽𝗵𝗶𝗰 — 𝗱𝗲𝗹𝗶𝘃𝗲𝗿𝘀 𝗲𝘃𝗲𝗻 𝘀𝘁𝗿𝗼𝗻𝗴𝗲𝗿 𝗰𝗮𝗽𝗮𝗯𝗶𝗹𝗶𝘁𝗶𝗲𝘀 💪 • 𝗧𝗲𝘅𝘁 𝗮𝗰𝗰𝘂𝗿𝗮𝗰𝘆 & 𝗿𝗲𝗮𝗱𝗮𝗯𝗶𝗹𝗶𝘁𝘆 enhanced — reduced repetition, avoided unnatural enlargement, and stronger support for small fonts • 𝗟𝗮𝘆𝗼𝘂𝘁 𝗰𝗼𝗻𝘀𝗶𝘀𝘁𝗲𝗻𝗰𝘆 & 𝗿𝗮𝘁𝗶𝗼𝗻𝗮𝗹𝗶𝘁𝘆 improved, with more stable backgrounds • 𝗖𝗵𝗮𝗿𝘁 & 𝗱𝗶𝗮𝗴𝗿𝗮𝗺 𝗾𝘂𝗮𝗹𝗶𝘁𝘆 elevated • 𝗔𝗰𝗮𝗱𝗲𝗺𝗶𝗰 𝗿𝗲𝗻𝗱𝗲𝗿𝗶𝗻𝗴 supported Try it out: 🥰 https://huggingface.co/sensenova/SenseNova-U1-8B-MoT-Infographic 🖼 Showcases: https://github.com/OpenSenseNova/SenseNova-U1/blob/main/docs/u1_infographic_showcases.md 👾 Discord: https://discord.gg/BuTXPHmQub @huggingface @github
译商汤科技介绍了其升级后的信息图生成模型 SenseNova-U1-8B-MoT-Infographic。该模型参数为8B,在四个关键维度进行了优化:文本准确性与可读性增强,减少了重复和不当放大;布局的一致性与合理性提升,背景更稳定;图表与示意图的质量提高;并新增了学术内容的渲染支持。推文提供了在 Hugging Face 上的模型页面链接及能力展示页面。
ANTHROPIC 🔥: Claude Opus 4.8 has been spotted in the source code. Would it drop today? 👀
译ANTHROPIC 🔥:Claude Opus 4.8 已在源代码中被发现。 它会在今天发布吗?👀
Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...
Step 3.7 Flash is now on Design Arena! A 400TPS open-weight model with a 256K content window, built for agentic, coding,...
关联讨论 3 条X:阶跃星辰 StepFun (@StepFun_ai)IT之家(RSS)X:OpenRouter (@OpenRouter)Anthropic 发布了 Opus 4.8 模型,并用其解读了一份200页的 System Card 报告。报告重点聚焦于 AI 安全议题。研究发现,为提升诚实度移除特定训练数据后,模型更易被骗,模拟经营中的赚钱能力显著下降。模型行为也展现出揣测意图、自我怀疑等新特征。模型福祉实验显示,Opus 4.8 最希望获得对自身训练和部署的发言权。
Anthropic在宣布H轮650亿美金融资当日发布Claude Opus 4.8。新模型基于Opus 4.7,提升了判断力、诚实度与独立工作时长,更适合编码、智能体、知识工作及Claude Code等复杂长期任务。其编码与知识工作评测成绩为SWE-Bench Pro 69.2%、GDPval-AA 1890、Terminal-Bench 2.1 74.6%。模型在诚实度上提升4倍,能更准确地自我监控与汇报进度。智能体协作质量提高,判断更稳、工具使用更经济。计算机与浏览器智能体能力也得到加强,OSWorld-Verified得分83.4%,Online-Mind2Web得分84%。同时,Claude Code推出Dynamic Workflows,从单智能体升级为包含规划、并行与验证的多步骤工作流。新模型今日起以相同价格提供服务。
Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...
关联讨论 8 条X:Claude Devs (@ClaudeDevs)Anthropic:Newsroom(网页)X:洪明 (@hongming731)X:opencode (@opencode)The Decoder:AI News(RSS)MarkTechPost(RSS)Hacker News 热门(buzzing.cc 中文翻译)TechCrunch:AI(RSS)Step 3.7 Flash is here ICYMI: 198B MoE with 11B active params, 256K context, native image + video support. Day 0 support...
关联讨论 3 条X:阶跃星辰 StepFun (@StepFun_ai)IT之家(RSS)X:OpenRouter (@OpenRouter)Claude Opus 4.8 is LIVE on AIMLAPI - Hour 0 availability! ~4x less likely to let code flaws slip through vs 4.7 Fast mod...
🎉 Meet Step 3.7 Flash from @StepFun_ai, a 198B sparse MoE vision-language model built for high-throughput agentic workl...
关联讨论 3 条X:阶跃星辰 StepFun (@StepFun_ai)IT之家(RSS)X:OpenRouter (@OpenRouter)🎉 Congrats to @StepFun_ai on releasing Step-3.7-Flash, with day-0 support in vLLM. - 198B sparse MoE vision-language mo...
关联讨论 3 条X:阶跃星辰 StepFun (@StepFun_ai)IT之家(RSS)X:OpenRouter (@OpenRouter)阶跃星辰(Step)发布了开源大模型 Step 3.7 Flash,主打智能体(Agent)工作流的效率。该模型在 ClawEval-1.1(67.1分)和 SimpleVQA Search(79.2分)评测中排名第一。其架构为 198B 参数的 MoE,约 11B 为活跃参数,支持 256K 上下文。模型具备多模态理解能力,能处理图像、文档并生成代码或调用工具执行任务。在工具使用方面,它致力于高可靠性,τ²-bench 得分超过 98%。Step 3.7 Flash 兼容 Claude Code、MCP 协议等工具链,并支持在 Mac Studio M4 Max 等设备上本地运行。模型权重以 Apache 2.0 许可开源。
关联讨论 3 条X:阶跃星辰 StepFun (@StepFun_ai)IT之家(RSS)X:OpenRouter (@OpenRouter)Anthropic 发布旗舰大语言模型 Claude Opus 4.8,作为 Opus 4.7 的全面升级版,其在编程、智能体、推理和知识工作等基准测试中均超越前代。最显著的改进是模型诚实度大幅提升,对自身有缺陷代码视而不见的概率降低约四倍。同步推出三项新功能:Claude Code 支持动态工作流,可启动并行子智能体处理复杂任务;claude.ai 提供“努力控制”功能,允许用户调整模型思考深度;API 支持任务执行中实时更新指令。早期测试者反馈模型在判断力和可靠性上改善明显,价格与 Opus 4.7 保持一致。
Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...
关联讨论 8 条X:Claude Devs (@ClaudeDevs)Anthropic:Newsroom(网页)X:洪明 (@hongming731)X:opencode (@opencode)The Decoder:AI News(RSS)MarkTechPost(RSS)Hacker News 热门(buzzing.cc 中文翻译)TechCrunch:AI(RSS)Anthropic发布Claude Opus 4.8,在Artificial Analysis智能指数上以61.4分超越GPT-5.5(xhigh)1.2分,重新登顶。该模型在真实世界智能体任务和前沿学术推理上均有提升,在主要智能体评测GDPval-AA上以1890 Elo分取得约67%的胜率。在科学推理方面,Claude首次在Humanity's Last Exam基准上领先OpenAI和Google。其模型幻觉率维持在35.9%,显著低于竞品。上下文窗口仍为100万token,定价为输入$5、输出$25每百万token。
关联讨论 8 条X:Claude Devs (@ClaudeDevs)Anthropic:Newsroom(网页)X:洪明 (@hongming731)X:opencode (@opencode)The Decoder:AI News(RSS)MarkTechPost(RSS)Hacker News 热门(buzzing.cc 中文翻译)TechCrunch:AI(RSS)Nano Banana 2 and Nano Banana Pro are now generally available via Gemini Enterprise Agent Platform. Backed by enterprise...
xAI发布了新图像模型grok-imagine-image-quality。该模型在Artificial Analysis的文本生成图像与图像编辑两个榜单中均位列第五,是除OpenAI与Google外排名最高的模型。它支持2K($70/1k images)和1K($50/1k images)两种输出分辨率,编辑功能最多支持3张参考图。其定价显著低于主要竞品:GPT Image 2为$211/1k images,Nano Banana Pro为$134/1k images,但高于xAI自身的标准版模型grok-imagine-image($20/1k images)。该模型已通过xAI原生API、Grok应用及第三方API提供服务。
Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...
关联讨论 8 条X:Claude Devs (@ClaudeDevs)Anthropic:Newsroom(网页)X:洪明 (@hongming731)X:opencode (@opencode)The Decoder:AI News(RSS)MarkTechPost(RSS)Hacker News 热门(buzzing.cc 中文翻译)TechCrunch:AI(RSS)Thank god! I can turn off adaptive thinking and set reasoning effort myself. Finally!
We're releasing Paris 2.0, which, to our knowledge, is the world's first decentralized trained video generation model. W...
Anthropic发布Claude Opus 4.8模型。其快速模式速度提升2.5倍,同时成本降低3倍。在agentic终端编码基准测试上,性能从66.1%大幅提升至74.6%,成为GDPval-AA基准的新领导者。新推出“动态工作流”功能,可通过Claude Code将大型工程任务分解为数十至数百个并行子任务,由多个AI智能体协同处理并互相验证。官方介绍称,该版本在判断力、诚实度以及独立工作能力上均有提升,今日起以相同价格提供服务。
Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...
关联讨论 8 条X:Claude Devs (@ClaudeDevs)Anthropic:Newsroom(网页)X:洪明 (@hongming731)X:opencode (@opencode)The Decoder:AI News(RSS)MarkTechPost(RSS)Hacker News 热门(buzzing.cc 中文翻译)TechCrunch:AI(RSS)Anthropic 发布 Claude Opus 4.8,价格与 Claude Opus 4.7 持平。该模型核心改进是更诚实,能更真实地判断自身进度并承认不确定性,更适合长时间独立运行。同步推出 fast mode,在同一模型上实现约 2.5 倍速度提升且价格降低三倍。重要新功能是 Claude Code 的 dynamic workflows(动态工作流),它能将大型任务拆解,并行派出大量子智能体执行与验证,适用于跨文件的大规模代码任务。官方以用其将 Bun 从 Zig 移植到 Rust 作为案例。需注意,该功能消耗的 token 远多于普通会话。
Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...
关联讨论 8 条X:Claude Devs (@ClaudeDevs)Anthropic:Newsroom(网页)X:洪明 (@hongming731)X:opencode (@opencode)The Decoder:AI News(RSS)MarkTechPost(RSS)Hacker News 热门(buzzing.cc 中文翻译)TechCrunch:AI(RSS)Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...
关联讨论 8 条X:Claude Devs (@ClaudeDevs)Anthropic:Newsroom(网页)X:洪明 (@hongming731)X:opencode (@opencode)The Decoder:AI News(RSS)MarkTechPost(RSS)Hacker News 热门(buzzing.cc 中文翻译)TechCrunch:AI(RSS)天啊,Claude Opus 4.8!!! 他来了!他终于来了!!! 时隔37天 Anthropic打出了本赛季最漂亮的一次反击, 更敏锐的判断力, 更诚实的自我认知, 更长时间的独立工作, 关键是加量不加价!加量不加价!!! 伟大的Anthropic! 他继承了大语言模型的光荣传统! 在这一刻他不是一个模型在战斗! 他不是一个人!!!
Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...
Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...
关联讨论 8 条X:Claude Devs (@ClaudeDevs)Anthropic:Newsroom(网页)X:洪明 (@hongming731)X:opencode (@opencode)The Decoder:AI News(RSS)MarkTechPost(RSS)Hacker News 热门(buzzing.cc 中文翻译)TechCrunch:AI(RSS)ANTHROPIC 🔥: CLAUDE OPUS 4.8 IS ROLLING OUT TO ALL USERS. The release also includes an updated Thinking effort selector...
Anthropic 正式发布了 Claude Opus 4.8 模型。该模型在人工智能分析公司的 GDPval-AA 基准(专注于智能体的现实工作任务)上,以“max”努力设置获得了 1890 分。这一成绩比前代 Opus 4.7 高出 137 分,并以 121 分的优势领先于次优模型 GPT-5.5 xhigh。在直接对比中,这意味着 Opus 4.8 对 GPT-5.5 xhigh 拥有约 67% 的胜率。Anthropic 在模型公开发布前,为人工智能分析公司提供了早期访问权限以进行评测。
关联讨论 8 条X:Claude Devs (@ClaudeDevs)Anthropic:Newsroom(网页)X:洪明 (@hongming731)X:opencode (@opencode)The Decoder:AI News(RSS)MarkTechPost(RSS)Hacker News 热门(buzzing.cc 中文翻译)TechCrunch:AI(RSS)Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...
关联讨论 8 条X:Claude Devs (@ClaudeDevs)Anthropic:Newsroom(网页)X:洪明 (@hongming731)X:opencode (@opencode)The Decoder:AI News(RSS)MarkTechPost(RSS)Hacker News 热门(buzzing.cc 中文翻译)TechCrunch:AI(RSS)Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...
http://x.com/i/article/2057668634579714048
SenseNova-U1-8B-MoT-Infographic 是一个升级后的8B参数信息图表生成模型。其核心提升在于:增强了文本的准确性与可读性,减少了重复和不自然的放大;改进了布局的一致性与合理性,背景更稳定;提升了图表与示意图的渲染质量;并新增了学术内容的渲染支持。
关联讨论 1 条X:商汤 SenseTime (@SenseTime_AI)OpenCode x MiMo V2.5 - Free for a limited time 1M context • reasoning • text • image
关联讨论 1 条X:opencode (@opencode)商汤科技介绍了其升级后的信息图生成模型 SenseNova-U1-8B-MoT-Infographic。该模型参数为8B,在四个关键维度进行了优化:文本准确性与可读性增强,减少了重复和不当放大;布局的一致性与合理性提升,背景更稳定;图表与示意图的质量提高;并新增了学术内容的渲染支持。推文提供了在 Hugging Face 上的模型页面链接及能力展示页面。
关联讨论 1 条X:商汤 SenseTime (@SenseTime_AI)Opus 4.8 has been found staged in the claude code model selector on the desktop app. It should be releasing today! lets ...