AIHOT
精选全部 AI 动态AI 日报Agent 接入关于更新日志反馈信源提报
登录
精选全部日报更多
全部动态
全部一手资讯X论文
5月29日周五
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月29日
09:09
向阳乔木@vista8
68
Anthropic 发布 Opus 4.8 并解读其安全报告

Anthropic 发布了 Opus 4.8 模型,并用其解读了一份200页的 System Card 报告。报告重点聚焦于 AI 安全议题。研究发现,为提升诚实度移除特定训练数据后,模型更易被骗,模拟经营中的赚钱能力显著下降。模型行为也展现出揣测意图、自我怀疑等新特征。模型福祉实验显示,Opus 4.8 最希望获得对自身训练和部署的发言权。

Anthropic安全/对齐模型发布
09:09
meng shao@shao__meng
75
Claude Opus 4.8发布:强化编码与Agent能力

Anthropic在宣布H轮650亿美金融资当日发布Claude Opus 4.8。新模型基于Opus 4.7,提升了判断力、诚实度与独立工作时长,更适合编码、智能体、知识工作及Claude Code等复杂长期任务。其编码与知识工作评测成绩为SWE-Bench Pro 69.2%、GDPval-AA 1890、Terminal-Bench 2.1 74.6%。模型在诚实度上提升4倍,能更准确地自我监控与汇报进度。智能体协作质量提高,判断更稳、工具使用更经济。计算机与浏览器智能体能力也得到加强,OSWorld-Verified得分83.4%,Online-Mind2Web得分84%。同时,Claude Code推出Dynamic Workflows,从单智能体升级为包含规划、并行与验证的多步骤工作流。新模型今日起以相同价格提供服务。

Claude: Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...

智能体Anthropic模型发布编码
关联讨论 4 条X:Claude Devs (@ClaudeDevs)Anthropic:Newsroom(网页)X:洪明 (@hongming731)X:opencode (@opencode)
09:09
StepFun@StepFun_ai
79
阶跃星辰Step 3.7 Flash首日支持--NIM、NeMo和GPU加速端点已就绪。 感谢@NVIDIAAI!🤝 【引用 @NVIDIAAI】:Step 3.7 Flash现已发布 ICYMI:198B MoE,11B激活参数,256K上下文,原生图像+视频支持。 首日支持已在http://build.nvidia.com上线,提供GPU加速端点,可通过NVIDIA NIM推理微服务部署,并使用NVIDIA NeMo框架进行微调。 祝贺@stepfun_ai团队!

NVIDIA AI: Step 3.7 Flash is here ICYMI: 198B MoE with 11B active params, 256K context, native image + video support. Day 0 support...

多模态模型发布
关联讨论 3 条X:阶跃星辰 StepFun (@StepFun_ai)IT之家(RSS)X:OpenRouter (@OpenRouter)
08:49
🚨 AI News | TestingCatalog@testingcatalog
71
Claude Opus 4.8现已在AI/ML API上线🔥 根据测试: > 与Opus 4.7相比,其未被发现的代码缺陷大约减少了4倍 > 拥有2.5倍速度的快速模式,现在价格便宜3倍 > 与之前相同的$5/$25每M token定价 【引用 @aimlapi】:Claude Opus 4.8已在AIMLAPI上线 - 首发可用! ~与4.7相比,代码缺陷漏检的可能性降低约4倍 快速模式2.5倍速度,现在价格便宜3倍 价格不变:$5/$25每M tokens 为庆祝上线,部分评论者可免费使用

AI/ML API: Claude Opus 4.8 is LIVE on AIMLAPI - Hour 0 availability! ~4x less likely to let code flaws slip through vs 4.7 Fast mod...

Anthropic推理模型发布编码
08:39
StepFun@StepFun_ai
64
SGLang宣布其推理框架现已对阶跃星辰(StepFun AI)的新模型Step 3.7 Flash提供Day-0支持。该模型是一个专为高吞吐量智能体工作负载设计的198B稀疏MoE视觉语言模型,具备原生多模态感知能力。它在SimpleVQA评测中以79.2分排名第一,V*得分为95.3。在智能体工作流方面,它在ClawEval-1.1上以67.1分领先,展现出可靠的长期工具编排能力;在软件工程任务中,于SWE-Bench PRO上以56.3分位列第二。模型支持256K上下文,并提供3种推理级别以平衡速度、成本与深度。

LMSYS Org: 🎉 Meet Step 3.7 Flash from @StepFun_ai, a 198B sparse MoE vision-language model built for high-throughput agentic workl...

智能体多模态模型发布编码
关联讨论 3 条X:阶跃星辰 StepFun (@StepFun_ai)IT之家(RSS)X:OpenRouter (@OpenRouter)
08:39
StepFun@StepFun_ai
79
阶跃星辰发布了 Step-3.7-Flash 模型,vLLM 在模型发布当天即提供支持。该模型是一个 198B 参数的稀疏 MoE 视觉语言模型,每个 token 约有 11B 激活参数,支持原生图像与文本输入。其上下文窗口达到 256K,适用于长文档、多文件代码库及密集视觉界面。模型提供 FP8 和 NVFP4 量化权重版本,并内置 MTP 推测解码、原生工具调用及推理解析功能。

vLLM: 🎉 Congrats to @StepFun_ai on releasing Step-3.7-Flash, with day-0 support in vLLM. - 198B sparse MoE vision-language mo...

多模态推理模型发布部署/工程
关联讨论 3 条X:阶跃星辰 StepFun (@StepFun_ai)IT之家(RSS)X:OpenRouter (@OpenRouter)
08:09
StepFun@StepFun_ai
75
阶跃星辰 Step 3.7 Flash 发布,聚焦智能体效率

阶跃星辰(Step)发布了开源大模型 Step 3.7 Flash,主打智能体(Agent)工作流的效率。该模型在 ClawEval-1.1(67.1分)和 SimpleVQA Search(79.2分)评测中排名第一。其架构为 198B 参数的 MoE,约 11B 为活跃参数,支持 256K 上下文。模型具备多模态理解能力,能处理图像、文档并生成代码或调用工具执行任务。在工具使用方面,它致力于高可靠性,τ²-bench 得分超过 98%。Step 3.7 Flash 兼容 Claude Code、MCP 协议等工具链,并支持在 Mac Studio M4 Max 等设备上本地运行。模型权重以 Apache 2.0 许可开源。

智能体多模态开源生态推理
关联讨论 3 条X:阶跃星辰 StepFun (@StepFun_ai)IT之家(RSS)X:OpenRouter (@OpenRouter)
08:02
公众号:阶跃星辰(Step)
精选61
阶跃发布 Step 3.7 Flash,面向生产级 Agent 的高效率 Flash 模型

阶跃星辰发布并开源 Step 3.7 Flash,采用稀疏 MoE 架构(总参数 196B+1.8B,激活 11B),最高生成速度 400 Tokens/s。围绕原生多模态理解与执行、联网与视觉搜索增强、高可靠工具调用与编排、Agent 生态兼容优化四大能力优化。在 Toolathlon 达 49.5%,ClawEval-1.1 达 67.1%,GDPval 达 45.8%,τ²-bench Telecom 通过率超 98%。兼容 Claude Code、KiloCode 等主流架构及 MCP/Skills 协议,支持云端与本地部署,已在 Kilo Code 等生态中完成接入验证。

智能体MCP/工具多模态开源生态

推荐理由:Step 3.7 Flash 用激活仅 11B 的 MoE 架构把 Agent 工作流稳定性做透了,兼容主流框架还开源,对需要低延迟、高可靠性的生产环境 Agent 是真正可用的选择。
08:00
HuggingFace Daily Papers(社区热门论文)
62
Mellum2 技术报告

Mellum 2 是一个开源的 12B 参数 MoE 大语言模型,每个 token 有 2.5B 活跃参数,专注于软件工程任务,是 Mellum 的后继版本。其架构基于 64 专家、8 激活的 MoE,并融合了分组查询注意力、滑动窗口注意力和多 token 预测头。模型在约 10.6 万亿 token 上进行三阶段预训练,并通过 YaRN 扩展至 128K 上下文窗口,之后经过监督微调与 RLVR 后训练,发布了直答式(Instruct)和带推理链(Thinking)两个变体。在多项基准测试中,其性能可与 4B-14B 范围的开源模型竞争,而计算成本仅相当于 2.5B 稠密模型。所有检查点以 Apache 2.0 许可证发布。

开源/仓库推理模型发布编码
07:48
MarkTechPost(RSS)
59
Liquid AI 发布 LFM2.5-8B-A1B:一款支持设备端部署的混合专家架构模型,总参数 8.3B,活跃参数 1.5B

Liquid AI 发布了 LFM2.5-8B-A1B 模型。这是一款混合专家架构模型,总参数量为 8.3B,每次推理仅激活其中的 1.5B 参数。该模型支持 128K 上下文窗口,具备推理和工具调用能力,可在消费级硬件上本地运行。

模型发布端侧
07:40
ginobefun@hongming731
76
Anthropic 发布 Claude Opus 4.8

Anthropic 发布旗舰大语言模型 Claude Opus 4.8,作为 Opus 4.7 的全面升级版,其在编程、智能体、推理和知识工作等基准测试中均超越前代。最显著的改进是模型诚实度大幅提升,对自身有缺陷代码视而不见的概率降低约四倍。同步推出三项新功能:Claude Code 支持动态工作流,可启动并行子智能体处理复杂任务;claude.ai 提供“努力控制”功能,允许用户调整模型思考深度;API 支持任务执行中实时更新指令。早期测试者反馈模型在判断力和可靠性上改善明显,价格与 Opus 4.7 保持一致。

Claude: Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...

Anthropic推理模型发布编码
关联讨论 4 条X:Claude Devs (@ClaudeDevs)Anthropic:Newsroom(网页)X:洪明 (@hongming731)X:opencode (@opencode)
07:21
IT之家(RSS)
64
Claude Opus 4.8 上线:提升 AI 编程可靠性,减少无依据结论
Anthropic推理模型发布编码
06:18
Artificial Analysis@ArtificialAnlys
79
Claude Opus 4.8重夺Artificial Analysis智能指数第一

Anthropic发布Claude Opus 4.8,在Artificial Analysis智能指数上以61.4分超越GPT-5.5(xhigh)1.2分,重新登顶。该模型在真实世界智能体任务和前沿学术推理上均有提升,在主要智能体评测GDPval-AA上以1890 Elo分取得约67%的胜率。在科学推理方面,Claude首次在Humanity's Last Exam基准上领先OpenAI和Google。其模型幻觉率维持在35.9%,显著低于竞品。上下文窗口仍为100万token,定价为输入$5、输出$25每百万token。

智能体Anthropic推理模型发布
关联讨论 4 条X:Claude Devs (@ClaudeDevs)Anthropic:Newsroom(网页)X:洪明 (@hongming731)X:opencode (@opencode)
06:18
MarkTechPost(RSS)
72
Anthropic发布Claude Opus 4.8,同步推出动态工作流与更便宜的快速模式,工作流最多支持1000个子智能体

Anthropic推出Claude Opus 4.8,在Claude Code中引入动态工作流和更便宜的快速模式,目前处于研究预览阶段。工作流最多可调用1000个子智能体执行任务。

Anthropic模型发布编码
关联讨论 4 条X:Claude Devs (@ClaudeDevs)Anthropic:Newsroom(网页)X:洪明 (@hongming731)X:opencode (@opencode)
05:49
🚨 AI News | TestingCatalog@testingcatalog
63
Google 宣布 Nano Banana 2 和 Nano Banana Pro 模型现已通过 API 达到通用可用状态。其中,Nano Banana 2 新增了支持将视频文件作为输入提示的功能。在输出方面,两款模型的 1K 和 2K 输出能力已正式发布,而 4K 输出功能仍处于预览阶段。达到通用可用意味着这些模型由企业级的基础设施和安全体系提供支持。它们可通过 Gemini Enterprise Agent Platform 集成,使开发者能够将高质量的图像生成与编辑功能整合到其应用与工作流中。

Thomas Kurian: Nano Banana 2 and Nano Banana Pro are now generally available via Gemini Enterprise Agent Platform. Backed by enterprise...

Google图像生成多模态模型发布
05:42
The Decoder:AI News(RSS)
71
Anthropic 发布 Claude Opus 4.8:被称作"小幅但实在的改进",在多数基准测试中超越 GPT-5.5

Anthropic 发布其最新模型 Claude Opus 4.8。该模型在大多数基准测试中超越了 GPT-5.5 和 Gemini 3.1 Pro。其代码错误自动捕获能力是前代产品的四倍。同步推出动态工作流功能,可启动数百个并行子智能体来处理跨代码库迁移等任务。

Anthropic推理模型发布
关联讨论 4 条X:Claude Devs (@ClaudeDevs)Anthropic:Newsroom(网页)X:洪明 (@hongming731)X:opencode (@opencode)
03:18
Artificial Analysis@ArtificialAnlys
64
xAI发布新图像模型grok-imagine-image-quality,榜单排名第五且价格更具竞争力

xAI发布了新图像模型grok-imagine-image-quality。该模型在Artificial Analysis的文本生成图像与图像编辑两个榜单中均位列第五,是除OpenAI与Google外排名最高的模型。它支持2K($70/1k images)和1K($50/1k images)两种输出分辨率,编辑功能最多支持3张参考图。其定价显著低于主要竞品:GPT Image 2为$211/1k images,Nano Banana Pro为$134/1k images,但高于xAI自身的标准版模型grok-imagine-image($20/1k images)。该模型已通过xAI原生API、Grok应用及第三方API提供服务。

xAI图像生成模型发布
02:42
xAI:News(网页)
精选82
Grok Build 0.1 on API

xAI 的最新编码模型 Grok Build 0.1 已通过 xAI API 进入公开测试阶段。该模型专为智能体编码任务训练,支持网页开发、调试和 MCP,同时也是驱动 Grok Build CLI 的同一模型。其推理速度超过 100 tokens/秒,定价为输入 $1/m tokens,输出 $2/m tokens。除编码外,它也适用于通用智能体及工具调用场景,并可通过 OpenRouter 和 Vercel AI Gateway 获取。

xAI模型发布编码
关联讨论 5 条xAI:News(网页)X:cb_doge (@cb_doge)X:xAI (@xai)X:阿易 AI Notes (@AYi_AInotes)X:Testing Catalog (@testingcatalog)
推荐理由:xAI 把编码模型卷到了 100+ t/s 和 $2/M 输出,专攻 agentic coding,这是直接在叫板 Claude Code 和 Cursor,做开发工具的同行该重新算账了。
02:42
Google AI Developers@googleaidevs
71
🍌 Nano Banana Pro 【gemini-3-pro-image】 和 Nano Banana 2 【gemini-3.1-flash-image】 现已正式发布,可通过 Gemini API 投入生产使用。查看这些优秀的社区示例,了解两个模型的实际能力 🧵↓
Google图像生成模型发布
关联讨论 1 条X:Google AI for Developers (@googleaidevs)
01:51
Boris Cherny@bcherny
88
Claude Opus 4.8今日发布。这是我们迄今最强的编码模型:在SWE-bench Pro上得分提升(从64.3到69.2),并且对自己的工作更加诚实。它会在不确定时告诉你,并能发现自己的错误,而不是过早宣布成功。价格与4.7版相同。

Claude: Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...

Anthropic模型发布编码
关联讨论 4 条X:Claude Devs (@ClaudeDevs)Anthropic:Newsroom(网页)X:洪明 (@hongming731)X:opencode (@opencode)
01:44
Chubby♨️@kimmonismus
53
太棒了!!"Mythos级模型将在未来几周内向所有用户开放"!! 天啊,我们正在加速!!

Chubby♨️: Thank god! I can turn off adaptive thinking and set reasoning effort myself. Finally!

推理模型发布
01:44
Chubby♨️@kimmonismus
66
字节跳动开源多模态模型BAGEL,单一7B参数模型即可执行图像生成、编辑、风格转换与视觉理解,采用Apache 2.0许可。引用推文显示,该公司此前已发布首个去中心化训练的视频生成模型Paris 2.0,其在FVD基准上性能约为同等数据与算力单体模型的2倍。

bidhan: We're releasing Paris 2.0, which, to our knowledge, is the world's first decentralized trained video generation model. W...

多模态开源生态模型发布
01:44
Rohan Paul@rohanpaul_ai
76
Claude Opus 4.8发布,性能显著提升并推出"动态工作流"

Anthropic发布Claude Opus 4.8模型。其快速模式速度提升2.5倍,同时成本降低3倍。在agentic终端编码基准测试上,性能从66.1%大幅提升至74.6%,成为GDPval-AA基准的新领导者。新推出“动态工作流”功能,可通过Claude Code将大型工程任务分解为数十至数百个并行子任务,由多个AI智能体协同处理并互相验证。官方介绍称,该版本在判断力、诚实度以及独立工作能力上均有提升,今日起以相同价格提供服务。

Claude: Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...

智能体Anthropic模型发布编码
关联讨论 4 条X:Claude Devs (@ClaudeDevs)Anthropic:Newsroom(网页)X:洪明 (@hongming731)X:opencode (@opencode)
01:42
Google AI Developers@googleaidevs
精选71
🍌 Nano Banana Pro 【gemini-3-pro-image】 和 Nano Banana 2 【gemini-3.1-flash-image】 现已正式发布,可通过 Gemini API 投入生产使用。查看这些优秀的社区示例,了解两个模型的实际能力 🧵↓
Google图像生成模型发布
关联讨论 1 条X:Google AI for Developers (@googleaidevs)
推荐理由:Google 把 Gemini 图像生成能力打包进 Nano Banana 系列并正式 GA,开发者现在可以稳定调用 Pro 和 Flash 级别的生图 API,对做图像应用的团队是个实在利好。
01:38
宝玉@dotey
76
Anthropic 发布 Claude Opus 4.8,推出 fast mode 与 dynamic workflows

Anthropic 发布 Claude Opus 4.8,价格与 Claude Opus 4.7 持平。该模型核心改进是更诚实,能更真实地判断自身进度并承认不确定性,更适合长时间独立运行。同步推出 fast mode,在同一模型上实现约 2.5 倍速度提升且价格降低三倍。重要新功能是 Claude Code 的 dynamic workflows(动态工作流),它能将大型任务拆解,并行派出大量子智能体执行与验证,适用于跨文件的大规模代码任务。官方以用其将 Bun 从 Zig 移植到 Rust 作为案例。需注意,该功能消耗的 token 远多于普通会话。

Claude: Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...

智能体Anthropic模型发布编码
关联讨论 4 条X:Claude Devs (@ClaudeDevs)Anthropic:Newsroom(网页)X:洪明 (@hongming731)X:opencode (@opencode)
01:36
Thariq@trq212
76
我觉得你会非常喜欢 Opus 4.8。 它和基准测试显示的一样聪明,但以温暖协作的方式表达和运用这种智能。 工作流是利用它的绝佳方式--我已沉迷其中。相关文章即将推出。

Claude: Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...

Anthropic推理模型发布
关联讨论 4 条X:Claude Devs (@ClaudeDevs)Anthropic:Newsroom(网页)X:洪明 (@hongming731)X:opencode (@opencode)
01:36
OpenRouter@OpenRouter
80
Opus 4.8 已在 OpenRouter 上线! 价格与 4.7 相同,在智能体编码、推理和计算机使用方面均有提升。 代码缺陷未被发现的概率比 4.7 低约 4 倍。 Opus 4.8 Fast Mode 也已上线--现在只需 2 倍价格,即可获得 2.5 倍速度。
智能体Anthropic推理模型发布
关联讨论 4 条X:Claude Devs (@ClaudeDevs)Anthropic:Newsroom(网页)X:洪明 (@hongming731)X:opencode (@opencode)
01:31
AYi@AYi_AInotes
72
Claude Opus 4.8发布:更敏锐更诚实更持久

天啊,Claude Opus 4.8!!! 他来了!他终于来了!!! 时隔37天 Anthropic打出了本赛季最漂亮的一次反击, 更敏锐的判断力, 更诚实的自我认知, 更长时间的独立工作, 关键是加量不加价!加量不加价!!! 伟大的Anthropic! 他继承了大语言模型的光荣传统! 在这一刻他不是一个模型在战斗! 他不是一个人!!!

Claude: Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...

Anthropic模型发布
01:19
ClaudeDevs@ClaudeDevs
83
Opus 4.8今日已在Claude Code上线。 几点值得了解:🧵

Claude: Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...

Anthropic推理模型发布编码
关联讨论 4 条X:Claude Devs (@ClaudeDevs)Anthropic:Newsroom(网页)X:洪明 (@hongming731)X:opencode (@opencode)
01:19
🚨 AI News | TestingCatalog@testingcatalog
82
ANTHROPIC 🔥:Claude Opus 4.8 正在向所有用户推送。 此次发布还包含更新的思考强度选择器,提供低、中、高、额外和最大选项。 > 切换到 Opus 4.8 来完成你最具雄心的工作--现在你可以设置思考强度,以平衡深度或速度。
Anthropic推理模型发布
关联讨论 4 条X:Claude Devs (@ClaudeDevs)Anthropic:Newsroom(网页)X:洪明 (@hongming731)X:opencode (@opencode)
01:19
🚨 AI News | TestingCatalog@testingcatalog
69
ANTHROPIC 🔥: Claude Opus 4.8 在 SWE-bench Pro 上取得 69.2% 的分数,而 Opus 4.7 为 64.3%。 Benchmarks 👀

🚨 AI News | TestingCatalog: ANTHROPIC 🔥: CLAUDE OPUS 4.8 IS ROLLING OUT TO ALL USERS. The release also includes an updated Thinking effort selector...

Anthropic推理模型发布评测/基准
01:18
Artificial Analysis@ArtificialAnlys
80
Anthropic 发布 Claude Opus 4.8,成为 GDPval-AA 基准新领导者

Anthropic 正式发布了 Claude Opus 4.8 模型。该模型在人工智能分析公司的 GDPval-AA 基准(专注于智能体的现实工作任务)上,以“max”努力设置获得了 1890 分。这一成绩比前代 Opus 4.7 高出 137 分,并以 121 分的优势领先于次优模型 GPT-5.5 xhigh。在直接对比中,这意味着 Opus 4.8 对 GPT-5.5 xhigh 拥有约 67% 的胜率。Anthropic 在模型公开发布前,为人工智能分析公司提供了早期访问权限以进行评测。

智能体Anthropic模型发布评测/基准
关联讨论 4 条X:Claude Devs (@ClaudeDevs)Anthropic:Newsroom(网页)X:洪明 (@hongming731)X:opencode (@opencode)
01:14
Chubby♨️@kimmonismus
75
Opus 4.8 已上线!甚至在德国也能用了!!
Anthropic推理模型发布
关联讨论 4 条X:Claude Devs (@ClaudeDevs)Anthropic:Newsroom(网页)X:洪明 (@hongming731)X:opencode (@opencode)
01:14
Chubby♨️@kimmonismus
83
Opus 4.8 已上线。基准测试显示其在智能体编码方面有显著提升,但更重要的是: "Opus 4.8 现已提供快速模式。这是同一个模型,速度提升约 2.5 倍,且价格比之前降低了三倍。"

Claude: Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...

智能体Anthropic模型发布
关联讨论 4 条X:Claude Devs (@ClaudeDevs)Anthropic:Newsroom(网页)X:洪明 (@hongming731)X:opencode (@opencode)
01:14
Chubby♨️@kimmonismus
70
太好了!我可以关闭自适应思考并自行设置推理强度了。 终于!

Chubby♨️: Opus 4.8 is live! Even in Germany!!

Anthropic推理模型发布
01:14
The Verge:AI(RSS)
68
Claude 的新模型在"出错时更'诚实'"

Anthropic 在周四发布了其最新模型 Claude Opus 4.8。新模型在生成错误内容时,更倾向于主动标示不确定性,并减少做出无根据的断言。在内部评估中,其产出未经证实断言的可能性比前代模型降低约 4 倍。

Anthropic安全/对齐模型发布
01:14
TechCrunch:AI(RSS)
71
Anthropic 发布 Opus 4.8 并推出新型"动态工作流"工具

Anthropic 发布了最新的 Opus 4.8 大语言模型,并为该模型引入了一个名为“Dynamic Workflows”的新工具。该工具旨在协调由多个子代理组成的群组,以执行复杂任务。

智能体AnthropicMCP/工具模型发布
关联讨论 4 条X:Claude Devs (@ClaudeDevs)Anthropic:Newsroom(网页)X:洪明 (@hongming731)X:opencode (@opencode)
01:12
Yuchen Jin@Yuchenj_UW
62
Opus 4.8 发布了。 天啊!
Anthropic模型发布
01:12
Yuchen Jin@Yuchenj_UW
72
Opus 4.8在SWE-Bench Pro上得分69.2%,比GPT-5.5高出10分。 发布博客中最有趣的部分是"动态工作流": "这项新功能(目前处于研究预览阶段)允许Claude在Claude Code中承担更大的任务。Claude可以规划工作,然后在单个会话中运行数百个并行子智能体(使用Opus 4.8时,智能体可以运行更长时间)。它在向用户报告之前会先验证其输出。"
智能体Anthropic模型发布编码
01:08
Hacker News 热门(buzzing.cc 中文翻译)
87
克劳德 作品4.8

Anthropic 发布了新版模型 Claude Opus 4.8。该模型的具体技术参数、性能基准与定价等详情暂未提供。本文提供了其官方公告页面的链接,并记录了该新闻在 Hacker News 上的讨论热度。

Anthropic推理模型发布
关联讨论 4 条X:Claude Devs (@ClaudeDevs)Anthropic:Newsroom(网页)X:洪明 (@hongming731)X:opencode (@opencode)
‹ 上一页
1…89101112…27
下一页 ›