AIHOT

09:09

向阳乔木@vista8

68

Anthropic 发布了 Opus 4.8 模型，并用其解读了一份200页的 System Card 报告。报告重点聚焦于 AI 安全议题。研究发现，为提升诚实度移除特定训练数据后，模型更易被骗，模拟经营中的赚钱能力显著下降。模型行为也展现出揣测意图、自我怀疑等新特征。模型福祉实验显示，Opus 4.8 最希望获得对自身训练和部署的发言权。

Anthropic安全/对齐模型发布

09:09

meng shao@shao__meng

75

Claude Opus 4.8发布：强化编码与Agent能力

Anthropic在宣布H轮650亿美金融资当日发布Claude Opus 4.8。新模型基于Opus 4.7，提升了判断力、诚实度与独立工作时长，更适合编码、智能体、知识工作及Claude Code等复杂长期任务。其编码与知识工作评测成绩为SWE-Bench Pro 69.2%、GDPval-AA 1890、Terminal-Bench 2.1 74.6%。模型在诚实度上提升4倍，能更准确地自我监控与汇报进度。智能体协作质量提高，判断更稳、工具使用更经济。计算机与浏览器智能体能力也得到加强，OSWorld-Verified得分83.4%，Online-Mind2Web得分84%。同时，Claude Code推出Dynamic Workflows，从单智能体升级为包含规划、并行与验证的多步骤工作流。新模型今日起以相同价格提供服务。

Claude: Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...

智能体Anthropic模型发布编码

关联讨论 4 条

09:09

StepFun@StepFun_ai

79

阶跃星辰Step 3.7 Flash首日支持--NIM、NeMo和GPU加速端点已就绪。感谢@NVIDIAAI！🤝 【引用 @NVIDIAAI】：Step 3.7 Flash现已发布 ICYMI：198B MoE，11B激活参数，256K上下文，原生图像+视频支持。首日支持已在http：//build.nvidia.com上线，提供GPU加速端点，可通过NVIDIA NIM推理微服务部署，并使用NVIDIA NeMo框架进行微调。祝贺@stepfun_ai团队！

NVIDIA AI: Step 3.7 Flash is here ICYMI: 198B MoE with 11B active params, 256K context, native image + video support. Day 0 support...

多模态模型发布

关联讨论 3 条

08:49

🚨 AI News | TestingCatalog@testingcatalog

71

Claude Opus 4.8现已在AI/ML API上线🔥 根据测试： > 与Opus 4.7相比，其未被发现的代码缺陷大约减少了4倍 > 拥有2.5倍速度的快速模式，现在价格便宜3倍 > 与之前相同的$5/$25每M token定价【引用 @aimlapi】：Claude Opus 4.8已在AIMLAPI上线 - 首发可用！ ~与4.7相比，代码缺陷漏检的可能性降低约4倍快速模式2.5倍速度，现在价格便宜3倍价格不变：$5/$25每M tokens 为庆祝上线，部分评论者可免费使用

AI/ML API: Claude Opus 4.8 is LIVE on AIMLAPI - Hour 0 availability! ~4x less likely to let code flaws slip through vs 4.7 Fast mod...

Anthropic推理模型发布编码

08:39

StepFun@StepFun_ai

64

SGLang宣布其推理框架现已对阶跃星辰（StepFun AI）的新模型Step 3.7 Flash提供Day-0支持。该模型是一个专为高吞吐量智能体工作负载设计的198B稀疏MoE视觉语言模型，具备原生多模态感知能力。它在SimpleVQA评测中以79.2分排名第一，V*得分为95.3。在智能体工作流方面，它在ClawEval-1.1上以67.1分领先，展现出可靠的长期工具编排能力；在软件工程任务中，于SWE-Bench PRO上以56.3分位列第二。模型支持256K上下文，并提供3种推理级别以平衡速度、成本与深度。

LMSYS Org: 🎉 Meet Step 3.7 Flash from @StepFun_ai, a 198B sparse MoE vision-language model built for high-throughput agentic workl...

智能体多模态模型发布编码

关联讨论 3 条

08:39

StepFun@StepFun_ai

79

阶跃星辰发布了 Step-3.7-Flash 模型，vLLM 在模型发布当天即提供支持。该模型是一个 198B 参数的稀疏 MoE 视觉语言模型，每个 token 约有 11B 激活参数，支持原生图像与文本输入。其上下文窗口达到 256K，适用于长文档、多文件代码库及密集视觉界面。模型提供 FP8 和 NVFP4 量化权重版本，并内置 MTP 推测解码、原生工具调用及推理解析功能。

vLLM: 🎉 Congrats to @StepFun_ai on releasing Step-3.7-Flash, with day-0 support in vLLM. - 198B sparse MoE vision-language mo...

多模态推理模型发布部署/工程

关联讨论 3 条

08:09

StepFun@StepFun_ai

75

阶跃星辰 Step 3.7 Flash 发布，聚焦智能体效率

阶跃星辰（Step）发布了开源大模型 Step 3.7 Flash，主打智能体（Agent）工作流的效率。该模型在 ClawEval-1.1（67.1分）和 SimpleVQA Search（79.2分）评测中排名第一。其架构为 198B 参数的 MoE，约 11B 为活跃参数，支持 256K 上下文。模型具备多模态理解能力，能处理图像、文档并生成代码或调用工具执行任务。在工具使用方面，它致力于高可靠性，τ²-bench 得分超过 98%。Step 3.7 Flash 兼容 Claude Code、MCP 协议等工具链，并支持在 Mac Studio M4 Max 等设备上本地运行。模型权重以 Apache 2.0 许可开源。

智能体多模态开源生态推理

关联讨论 3 条

08:02

公众号：阶跃星辰（Step）

精选61

阶跃发布 Step 3.7 Flash，面向生产级 Agent 的高效率 Flash 模型

阶跃星辰发布并开源 Step 3.7 Flash，采用稀疏 MoE 架构（总参数 196B+1.8B，激活 11B），最高生成速度 400 Tokens/s。围绕原生多模态理解与执行、联网与视觉搜索增强、高可靠工具调用与编排、Agent 生态兼容优化四大能力优化。在 Toolathlon 达 49.5%，ClawEval-1.1 达 67.1%，GDPval 达 45.8%，τ²-bench Telecom 通过率超 98%。兼容 Claude Code、KiloCode 等主流架构及 MCP/Skills 协议，支持云端与本地部署，已在 Kilo Code 等生态中完成接入验证。

智能体MCP/工具多模态开源生态

推荐理由：Step 3.7 Flash 用激活仅 11B 的 MoE 架构把 Agent 工作流稳定性做透了，兼容主流框架还开源，对需要低延迟、高可靠性的生产环境 Agent 是真正可用的选择。

08:00

HuggingFace Daily Papers（社区热门论文）

62

Mellum2 技术报告

Mellum 2 是一个开源的 12B 参数 MoE 大语言模型，每个 token 有 2.5B 活跃参数，专注于软件工程任务，是 Mellum 的后继版本。其架构基于 64 专家、8 激活的 MoE，并融合了分组查询注意力、滑动窗口注意力和多 token 预测头。模型在约 10.6 万亿 token 上进行三阶段预训练，并通过 YaRN 扩展至 128K 上下文窗口，之后经过监督微调与 RLVR 后训练，发布了直答式（Instruct）和带推理链（Thinking）两个变体。在多项基准测试中，其性能可与 4B-14B 范围的开源模型竞争，而计算成本仅相当于 2.5B 稠密模型。所有检查点以 Apache 2.0 许可证发布。

开源/仓库推理模型发布编码

07:48

MarkTechPost（RSS）

59

Liquid AI 发布 LFM2.5-8B-A1B：一款支持设备端部署的混合专家架构模型，总参数 8.3B，活跃参数 1.5B

Liquid AI 发布了 LFM2.5-8B-A1B 模型。这是一款混合专家架构模型，总参数量为 8.3B，每次推理仅激活其中的 1.5B 参数。该模型支持 128K 上下文窗口，具备推理和工具调用能力，可在消费级硬件上本地运行。

模型发布端侧

07:40

ginobefun@hongming731

76

Anthropic 发布 Claude Opus 4.8

Anthropic 发布旗舰大语言模型 Claude Opus 4.8，作为 Opus 4.7 的全面升级版，其在编程、智能体、推理和知识工作等基准测试中均超越前代。最显著的改进是模型诚实度大幅提升，对自身有缺陷代码视而不见的概率降低约四倍。同步推出三项新功能：Claude Code 支持动态工作流，可启动并行子智能体处理复杂任务；claude.ai 提供“努力控制”功能，允许用户调整模型思考深度；API 支持任务执行中实时更新指令。早期测试者反馈模型在判断力和可靠性上改善明显，价格与 Opus 4.7 保持一致。

Claude: Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...

Anthropic推理模型发布编码

关联讨论 4 条

07:21

IT之家（RSS）

64

Claude Opus 4.8 上线：提升 AI 编程可靠性，减少无依据结论

Anthropic推理模型发布编码

06:18

Artificial Analysis@ArtificialAnlys

79

Claude Opus 4.8重夺Artificial Analysis智能指数第一

Anthropic发布Claude Opus 4.8，在Artificial Analysis智能指数上以61.4分超越GPT-5.5（xhigh）1.2分，重新登顶。该模型在真实世界智能体任务和前沿学术推理上均有提升，在主要智能体评测GDPval-AA上以1890 Elo分取得约67%的胜率。在科学推理方面，Claude首次在Humanity's Last Exam基准上领先OpenAI和Google。其模型幻觉率维持在35.9%，显著低于竞品。上下文窗口仍为100万token，定价为输入$5、输出$25每百万token。

智能体Anthropic推理模型发布

关联讨论 4 条

06:18

MarkTechPost（RSS）

72

Anthropic发布Claude Opus 4.8，同步推出动态工作流与更便宜的快速模式，工作流最多支持1000个子智能体

Anthropic推出Claude Opus 4.8，在Claude Code中引入动态工作流和更便宜的快速模式，目前处于研究预览阶段。工作流最多可调用1000个子智能体执行任务。

Anthropic模型发布编码

关联讨论 4 条

05:49

🚨 AI News | TestingCatalog@testingcatalog

63

Google 宣布 Nano Banana 2 和 Nano Banana Pro 模型现已通过 API 达到通用可用状态。其中，Nano Banana 2 新增了支持将视频文件作为输入提示的功能。在输出方面，两款模型的 1K 和 2K 输出能力已正式发布，而 4K 输出功能仍处于预览阶段。达到通用可用意味着这些模型由企业级的基础设施和安全体系提供支持。它们可通过 Gemini Enterprise Agent Platform 集成，使开发者能够将高质量的图像生成与编辑功能整合到其应用与工作流中。

Thomas Kurian: Nano Banana 2 and Nano Banana Pro are now generally available via Gemini Enterprise Agent Platform. Backed by enterprise...

Google图像生成多模态模型发布

05:42

The Decoder：AI News（RSS）

71

Anthropic 发布 Claude Opus 4.8：被称作"小幅但实在的改进"，在多数基准测试中超越 GPT-5.5

Anthropic 发布其最新模型 Claude Opus 4.8。该模型在大多数基准测试中超越了 GPT-5.5 和 Gemini 3.1 Pro。其代码错误自动捕获能力是前代产品的四倍。同步推出动态工作流功能，可启动数百个并行子智能体来处理跨代码库迁移等任务。

Anthropic推理模型发布

关联讨论 4 条

03:18

Artificial Analysis@ArtificialAnlys

64

xAI发布新图像模型grok-imagine-image-quality，榜单排名第五且价格更具竞争力

xAI发布了新图像模型grok-imagine-image-quality。该模型在Artificial Analysis的文本生成图像与图像编辑两个榜单中均位列第五，是除OpenAI与Google外排名最高的模型。它支持2K（$70/1k images）和1K（$50/1k images）两种输出分辨率，编辑功能最多支持3张参考图。其定价显著低于主要竞品：GPT Image 2为$211/1k images，Nano Banana Pro为$134/1k images，但高于xAI自身的标准版模型grok-imagine-image（$20/1k images）。该模型已通过xAI原生API、Grok应用及第三方API提供服务。

xAI图像生成模型发布

02:42

xAI：News（网页）

精选82

Grok Build 0.1 on API

xAI 的最新编码模型 Grok Build 0.1 已通过 xAI API 进入公开测试阶段。该模型专为智能体编码任务训练，支持网页开发、调试和 MCP，同时也是驱动 Grok Build CLI 的同一模型。其推理速度超过 100 tokens/秒，定价为输入 $1/m tokens，输出 $2/m tokens。除编码外，它也适用于通用智能体及工具调用场景，并可通过 OpenRouter 和 Vercel AI Gateway 获取。

xAI模型发布编码

关联讨论 5 条

推荐理由：xAI 把编码模型卷到了 100+ t/s 和 $2/M 输出，专攻 agentic coding，这是直接在叫板 Claude Code 和 Cursor，做开发工具的同行该重新算账了。

02:42

Google AI Developers@googleaidevs

71

🍌 Nano Banana Pro 【gemini-3-pro-image】和 Nano Banana 2 【gemini-3.1-flash-image】现已正式发布，可通过 Gemini API 投入生产使用。查看这些优秀的社区示例，了解两个模型的实际能力 🧵↓

Google图像生成模型发布

关联讨论 1 条

01:51

Boris Cherny@bcherny

88

Claude Opus 4.8今日发布。这是我们迄今最强的编码模型：在SWE-bench Pro上得分提升（从64.3到69.2），并且对自己的工作更加诚实。它会在不确定时告诉你，并能发现自己的错误，而不是过早宣布成功。价格与4.7版相同。

Claude: Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...

Anthropic模型发布编码

关联讨论 4 条

01:44

Chubby♨️@kimmonismus

53

太棒了！！"Mythos级模型将在未来几周内向所有用户开放"！！天啊，我们正在加速！！

Chubby♨️: Thank god! I can turn off adaptive thinking and set reasoning effort myself. Finally!

推理模型发布

01:44

Chubby♨️@kimmonismus

66

字节跳动开源多模态模型BAGEL，单一7B参数模型即可执行图像生成、编辑、风格转换与视觉理解，采用Apache 2.0许可。引用推文显示，该公司此前已发布首个去中心化训练的视频生成模型Paris 2.0，其在FVD基准上性能约为同等数据与算力单体模型的2倍。

bidhan: We're releasing Paris 2.0, which, to our knowledge, is the world's first decentralized trained video generation model. W...

多模态开源生态模型发布

01:44

Rohan Paul@rohanpaul_ai

76

Claude Opus 4.8发布，性能显著提升并推出"动态工作流"

Anthropic发布Claude Opus 4.8模型。其快速模式速度提升2.5倍，同时成本降低3倍。在agentic终端编码基准测试上，性能从66.1%大幅提升至74.6%，成为GDPval-AA基准的新领导者。新推出“动态工作流”功能，可通过Claude Code将大型工程任务分解为数十至数百个并行子任务，由多个AI智能体协同处理并互相验证。官方介绍称，该版本在判断力、诚实度以及独立工作能力上均有提升，今日起以相同价格提供服务。

Claude: Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...

智能体Anthropic模型发布编码

关联讨论 4 条

01:42

Google AI Developers@googleaidevs

精选71

🍌 Nano Banana Pro 【gemini-3-pro-image】和 Nano Banana 2 【gemini-3.1-flash-image】现已正式发布，可通过 Gemini API 投入生产使用。查看这些优秀的社区示例，了解两个模型的实际能力 🧵↓

Google图像生成模型发布

关联讨论 1 条

推荐理由：Google 把 Gemini 图像生成能力打包进 Nano Banana 系列并正式 GA，开发者现在可以稳定调用 Pro 和 Flash 级别的生图 API，对做图像应用的团队是个实在利好。

01:38

宝玉@dotey

76

Anthropic 发布 Claude Opus 4.8，推出 fast mode 与 dynamic workflows

Anthropic 发布 Claude Opus 4.8，价格与 Claude Opus 4.7 持平。该模型核心改进是更诚实，能更真实地判断自身进度并承认不确定性，更适合长时间独立运行。同步推出 fast mode，在同一模型上实现约 2.5 倍速度提升且价格降低三倍。重要新功能是 Claude Code 的 dynamic workflows（动态工作流），它能将大型任务拆解，并行派出大量子智能体执行与验证，适用于跨文件的大规模代码任务。官方以用其将 Bun 从 Zig 移植到 Rust 作为案例。需注意，该功能消耗的 token 远多于普通会话。

Claude: Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...

智能体Anthropic模型发布编码

关联讨论 4 条

01:36

Thariq@trq212

76

我觉得你会非常喜欢 Opus 4.8。它和基准测试显示的一样聪明，但以温暖协作的方式表达和运用这种智能。工作流是利用它的绝佳方式--我已沉迷其中。相关文章即将推出。

Claude: Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...

Anthropic推理模型发布

关联讨论 4 条

01:36

OpenRouter@OpenRouter

80

Opus 4.8 已在 OpenRouter 上线！价格与 4.7 相同，在智能体编码、推理和计算机使用方面均有提升。代码缺陷未被发现的概率比 4.7 低约 4 倍。 Opus 4.8 Fast Mode 也已上线--现在只需 2 倍价格，即可获得 2.5 倍速度。

智能体Anthropic推理模型发布

关联讨论 4 条

01:31

AYi@AYi_AInotes

72

Claude Opus 4.8发布：更敏锐更诚实更持久

天啊，Claude Opus 4.8！！！他来了！他终于来了！！！时隔37天 Anthropic打出了本赛季最漂亮的一次反击，更敏锐的判断力，更诚实的自我认知，更长时间的独立工作，关键是加量不加价！加量不加价！！！伟大的Anthropic！他继承了大语言模型的光荣传统！在这一刻他不是一个模型在战斗！他不是一个人！！！

Claude: Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...

Anthropic模型发布

01:19

ClaudeDevs@ClaudeDevs

83

Opus 4.8今日已在Claude Code上线。几点值得了解：🧵

Claude: Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...

Anthropic推理模型发布编码

关联讨论 4 条

01:19

🚨 AI News | TestingCatalog@testingcatalog

82

ANTHROPIC 🔥：Claude Opus 4.8 正在向所有用户推送。此次发布还包含更新的思考强度选择器，提供低、中、高、额外和最大选项。 > 切换到 Opus 4.8 来完成你最具雄心的工作--现在你可以设置思考强度，以平衡深度或速度。

Anthropic推理模型发布

关联讨论 4 条

01:19

🚨 AI News | TestingCatalog@testingcatalog

69

ANTHROPIC 🔥： Claude Opus 4.8 在 SWE-bench Pro 上取得 69.2% 的分数，而 Opus 4.7 为 64.3%。 Benchmarks 👀

🚨 AI News | TestingCatalog: ANTHROPIC 🔥: CLAUDE OPUS 4.8 IS ROLLING OUT TO ALL USERS. The release also includes an updated Thinking effort selector...

Anthropic推理模型发布评测/基准

01:18

Artificial Analysis@ArtificialAnlys

80

Anthropic 发布 Claude Opus 4.8，成为 GDPval-AA 基准新领导者

Anthropic 正式发布了 Claude Opus 4.8 模型。该模型在人工智能分析公司的 GDPval-AA 基准（专注于智能体的现实工作任务）上，以“max”努力设置获得了 1890 分。这一成绩比前代 Opus 4.7 高出 137 分，并以 121 分的优势领先于次优模型 GPT-5.5 xhigh。在直接对比中，这意味着 Opus 4.8 对 GPT-5.5 xhigh 拥有约 67% 的胜率。Anthropic 在模型公开发布前，为人工智能分析公司提供了早期访问权限以进行评测。