Fable 5 is state-of-the-art on nearly all tested benchmarks, with exceptional performance in software engineering, knowl...
Anthropic 家的模型文字水平高,从他们家的模型起名就能看得出来。 haiku sonnet opus fable mythos 隔壁 OpenAI 家就土了很多,理科生无疑。
Want to build an AI Agent that runs an entire short drama pipeline? 🎬 Welcome to the AI Showrunner Arena! Use frontier video models (Wan / HappyHorse) to automate scriptwriting, storyboarding, and editing to win your share of the $70,000+ prize pool. 🔗 Register now: https://click.qwencloud.com/m/20000000281/
译想要构建一个能运行整条短剧制作管线的AI智能体?🎬 欢迎来到AI Showrunner Arena!使用前沿视频模型(Wan / HappyHorse)来自动化脚本编写、分镜和剪辑,赢取总计超过70,000美元的奖金池。 🔗 立即注册:https://click.qwencloud.com/m/20000000281/
Anthropic Claude 系列模型,价格真的是遥遥领先 如果 Claude Fable 5 来个 Fast Mode,难道要: input $60, output $300 ??? 你 (token) 比我挣得都多,我咋用?
如果你对 Claude Fable 5 到底有多贵还没有概念,咱们做个简单对比。 Claude Fable 5 和 Step 3.7 Flash 官方 API 价格倍数: · 输入 ≈ 50 倍 · 输出 ≈ 50 倍 · 缓存命中输入 ≈ 100 倍 如果再算上 Claude Fast Mode (速度 x 3,价格 x 6) · 输入 ≈ 300 倍 · 输出 ≈ 300 倍 · 缓存命中输入 ≈ 600 倍 而 Fast Mode 下,其实还是 Step 3.7 Flash 输出更快 😂
译博主对比Claude Fable 5与Step 3.7 Flash官方API价格:输入/输出约50倍,缓存命中输入约100倍;开启Fast Mode(速度×3,价格×6)后分别升至约300倍、300倍、600倍。作为实例,用Step 3.7 Flash完成真实Coding Agent任务:将Agent Memory运行痕迹(含memory events、structured facts、memory chunks等)生成为单文件HTML工具agent_memory_inspector.html,可查看8条事件、9条事实、8个chunk、9/9测试通过等信息,展示了模型将混乱Agent traces转化为可用检查工具的能力。
The demand for software is going to be off the charts
译在 @Google AI Studio 中,我们现在每周制作超过 1,200,000 个应用(还在增长),自 2 月下旬以来已创建超过 18,000,000 个 🤯 进展仍在继续!!!
之前买高铁票没有注意,居然直接可以选择静音车厢。 车险内没有手机外放震天响的短视频声音,旅途Vibe Coding 简直不要太爽啊! 刚刚有人外放声音,乘务员直接当场制止😂 太爽了…
猴哥都主动祝贺Anthropic 的Fable 5 了。 那么,问题来了。 Google 人呢? 虽然,Google 也是A社30 亿美金的大股东,但也要努力啊!
AI Agent 正在改变知识工作的方式 Perplexity 和哈佛商学院合作,基于 Perplexity Computer 和 Search 的真实使用数据,首次系统比较「对话助手」与「通用 Agent」对知识工作的实际影响。得出一个核心结论:Agent 提高任务自主性、降低成本、扩大工作边界——用户从「操作者」转向「监督者」。 https://research.perplexity.ai/articles/how-ai-agents-reshape-knowledge-work Agent 最新的分工:用户描述目标,系统跨工具规划、执行、必要时暂停确认,最终交付成品。Perplexity 的产品演进也沿这条线:Search(2022)→ Comet 浏览器 Agent(2025)→ Computer 通用编排器(2026)。 # 三点核心发现 1. 自主性:机器工作时间大幅拉长,质量未降 用「初始查询高度相似」的 1 万对会话做对照: · 机器执行时间:Computer 平均 26 分钟 vs Search 33 秒(约 48 倍);中位数为 9 分钟 vs 14 秒(约 40 倍) · 用户中断率相近:约 3.7% vs 3.4%,长时自主并未带来更多放弃 · 人机协作点增加:13% 的 Computer 查询会暂停请求用户输入(审批、澄清),Search 仅 0.3%——符合 Agent「多数自主 + 关键检查点」的模式 · 跨工具调用:Computer 通过 MCP/API 连接外部服务,连接器调用频率约为 Search 的 4–12 倍 · 跟进行为变化:整体推进任务的倾向相近(约 53%),但 Computer 用户更多做扩展与审阅(24.6% 审阅修订),Search 用户更多做澄清与短指令(确认、重试、格式调整) · 满意度:有意义的下一轮不满,Computer 1.3% vs Search 2.9%(降约 55%) 要点:自主性提升不等于质量下降;用户角色从「逐步指挥」转向「验收与迭代」。 2. 效率:时间与人均成本显著下降 比较两种模式: · Search + 人:Search 检索综合,人手工执行 · Computer + 人:Computer 跑流程,人定范围、审结果 因无法直接观测人工耗时,研究用三种方法交叉验证: · 工具分类法:把 Computer 工具分为「Search 类」(检索综合)与「Do 类」(需人手工执行的步骤),估算熟练专业人士的等效时间 · LLM 估算法:让模型估算「有 Search 答案但仍需手工执行」的耗时 · 用户访谈:25 位活跃用户的半结构化访谈 主要结果(工具分类法): · 平均任务时间:269 分钟 → 36 分钟(节省约 87%) · 综合模型成本与 BLS 行业时薪后,任务成本平均降约 94%(约 16 倍) · 18 个领域普遍有效:时间节省 79–92%,成本节省 87–96% · 编程最极端:596 分钟 → 48 分钟(时间 -92%,成本 -96%) 稳健性:即使假设人工步骤被高估 8 倍、或 Computer 监督时间被低估 12 倍,Computer 仍有优势。LLM 估算与访谈方向一致(访谈中位数约 25 倍加速)。 权衡:前期需更明确的目标设定与结果审阅,但单位工作的人工投入大幅下降,尤其适合长链路、多步骤流程。 3. 范围:横向跨界 + 纵向升维 横向(跨职业边界): · 8 个职业集群、8000 用户样本中,Computer 用户 59% 的查询超出主职业,Search 为 50% · Search 的跨职业查询多集中在数字技术;Computer 则更多流向营销、管理、金融等需执行而非仅检索的领域 纵向(认知复杂度): · 按 Bloom 修订分类:76% Computer 查询属高阶认知(Search 55%);50% 为「创造」层级(Search 26%) · 抽象/非例行任务:Computer 71% vs Search 53% · 知识域广度(O*NET):平均 2.40 vs 1.74 个领域(+38%);需 3 个以上领域的比例 51% vs 17% · 工作活动广度同样右移;约 23–41% 的 Computer 查询涉及 Search 中从未出现过的任务类型,集中在软件开发、文档生产、数据可视化等「能产出」而非「能解释」的工作 要点:Agent 不只让旧任务更快,还让用户承担更广、更深的工作——单人可触达原本需多角色协作的流程。
译Perplexity与哈佛商学院基于3个月真实数据,比较对话助手Search与通用Agent Computer对知识工作的影响。核心发现:①自主性:Computer平均执行26分钟(Search仅33秒),用户中断率相近(3.7% vs 3.4%),满意度不满降低55%;②效率:任务时间从269分钟降至36分钟(节省87%),成本降94%(约16倍),编程领域时间降92%成本降96%;③范围:Computer 59%查询超出主职业(Search 50%),76%为高阶认知(Search 55%),50%达创造层级(Search 26%)。用户角色从逐步指挥转向验收与迭代。
Text-To-Lottie: 一套 「Agent Skill + 本地预览 Harness」 的组合,让 Agent 生成 Lottie,在浏览器里实时验收 开源作者 @konstipaulus ,开源地址: https://github.com/diffusionstudio/lottie 安装方式:npx skills add diffusionstudio/lottie Skill:教 Codex / Claude Code / Cursor 等 Agent 如何写出 Skottie 可渲染的 Lottie JSON Harness:基于 Skia CanvasKit(Skottie)的全屏播放器 + React 控制面板,Agent 写入 public/lottie.json 后 Vite 热重载,立刻可见 技术架构 · 输出物:标准 Bodymovin JSON(public/lottie.json) · 渲染引擎:Skottie(非 lottie-web)—— 与 AE 导出路径更接近,也更适合程序化生成 · 预览闭环:写文件 → 保存 → 页面自动刷新 → 肉眼验收 · 可编辑性:Skottie Slots + controls.json,实时调颜色、尺寸等参数 · Agent 验收:URL 参数 ?frame=60&paused=1 精确定位帧,截图比对,不靠拖进度条 作者给的五条 Prompt 指南 1. 给具体素材:SVG、真实数据、截图;抽象描述质量明显下降 2. 用动效术语:ease-in / ease-out / ease-in-out,对应 Lottie 关键帧贝塞尔手柄 3. 像摄影师思考:pan / zoom / hold—— 用父级 Group 的 transform 模拟镜头 4. 声明需要的控件:默认只有背景色;颜色、描边宽度等需显式要求 Slots 5. 锁定时间规格:如「150 帧、30 FPS」= 5 秒成片,避免 Agent 随意猜时长 适用 / 不适用 1. 适合: · 单场景、短时长 Motion Graphics · SVG → Lottie(Figma 导出路径) · 数据可视化动效(K 线、图表、指标) · 需要透明背景、矢量、可嵌入 UI 的动效 2. 不适合: · 多镜头剪辑、音视频合成 → 用 Remotion · 复杂角色绑定、粒子、3D → AE 手工或专用工具更合适 · 需要 lottie-web 全特性兼容时 → Skottie 子集有差异
译开源项目 Text-To-Lottie 提供一套 Agent Skill 和本地预览工具,让 Codex/Claude Code/Cursor 等 Agent 生成标准 Bodymovin JSON(public/lottie.json),通过 Skottie 渲染引擎在浏览器中实时验收。安装命令:`npx skills add diffusionstudio/lottie`。技术特点:输出标准 Lottie JSON,使用 Skottie 渲染(非 lottie-web);基于 Vite 热重载实现自动刷新闭环;支持通过 Skottie Slots + controls.json 调整颜色、尺寸;Agent 可用 URL 参数 `?frame=60&paused=1` 精确定位帧截图。Prompt 指南包括:给具体素材、使用动效术语、pan/zoom/hold 模拟镜头、显式声明 Slots、锁定时间规格。适合单场景短时长 Motion Graphics、SVG→Lottie、数据可视化、透明背景矢量动效;不适合多镜头剪辑、复杂角色绑定、粒子、3D 或需 lottie-web 全特性的场景。
好消息:Claude 重置了所有用量 官方对使用Fable 的四条建议: 1. 给它分配比之前模型能处理的更大、更具雄心的任务。 2. 将 xhigh/high 努力程度作为默认设置以获得最佳性能,med 用于更快的交互式会话。 3. 重新调整你的技能和 CLAUDE.md。针对先前模型编写的指令会让 Fable 陷入陈旧的模式,先让它运用自己的判断力。 4. 从提供任务转向提供目标。描述完成的样子以及如何验证,然后让 Fable 找到路径(/loop 和 /goal 就是为此设计的)。
译Claude 重置了所有用量。官方对使用 Fable 提出四条建议:分配比之前模型能处理的更大任务;默认使用 xhigh/high 努力程度以获得最佳性能,med 用于更快的交互式会话;重新调整技能和 CLAUDE.md,避免旧指令让 Fable 陷入陈旧模式;从提供任务转向提供目标,描述完成样貌并让 Fable 通过 /loop 和 /goal 自行寻找路径。
congrats to the Anthropic team on Fable!!
译祝贺 Anthropic 团队推出 Fable!!
So excited to see that scaling still works.
译非常兴奋看到规模扩展仍然有效。
Fable 5 超越人类还为时尚早! 给大家带来 Anthropic Fable 5 的测试速报! 直接用了 xhigh, 让它从0写一个光追渲染, 整体效果是好的, 尤其是 PBR 与 BRDF 写得都非常棒. 但是遇到了个奇怪的问题, 它声明变量竟然位置搞错了, 有一个变量的声明比引用晚了. 导致直接报错. 所以感觉模型能力是有的, 但是内部机制可能会有问题, 比如可能是光追的核心逻辑, 在神经网络中激活度特别高, 导致模型生成时过分的注意算法实现, 忽略了变量声明这种小细节. 另外, 这玩意我是用不起了... 就视频中这个网页, 2刀进去了... 我承认AI超越人类还为时尚早, 因为我的的工资没这么高哈哈哈哈哈🥲. #fable5 #anthropic #mythos
译用户测试 Anthropic Fable 5,使用 xhigh 模式让其从零编写光追渲染器。生成的 PBR 与 BRDF 代码质量出色,但出现变量声明晚于引用的错误,导致代码直接报错。推测模型过度关注核心算法逻辑,忽略了变量声明等细节。此外,成本高昂,仅生成该网页就花费 2 美元。作者调侃 AI 超越人类还为时尚早——因为自己的工资负担不起。
Claude Fable 5 launched today at #1 on the Artificial Analysis Intelligence Index, putting Anthropic nearly 5 points ahead of any other lab’s best model We supported @AnthropicAI with pre-release evaluation of Claude Fable 5. Claude Fable 5 scores 64.9 on the Artificial Analysis Intelligence Index, claiming the #1 rank overall. It is ~5 points ahead of the closest non-Anthropic model (GPT-5.5), and Anthropic models now occupy both of the top 2 places. Key takeaways for Claude Fable 5 (adaptive reasoning with max effort and Opus 4.8 as fallback model): ➤ New safety guardrails for Mythos-class models: Claude Fable 5 uses the same underlying model as Claude Mythos 5 for public usage, with additional guardrails for potentially-harmful cybersecurity, biology, chemistry, and distillation-related queries. We tested Fable 5 using Anthropic’s new ‘fallback’ mechanism, which can route safety-flagged messages to Claude Opus 4.8. Anthropic states that fallback occurs in fewer than 5% of sessions on average, and we recorded fallback routing in ~8% of tasks across the Intelligence Index (mostly in scientific questions from evaluations like GPQA, AA-Omniscience and Humanity’s Last Exam) ➤ State-of-the-art Intelligence: Claude Fable 5 takes the #1 position on the Artificial Analysis Intelligence Index, scoring 64.9 and setting the highest score on 5 of the 10 underlying benchmarks. On AA-Omniscience, our knowledge and hallucination benchmark, Fable 5 scores 40, +7 points over the previous leader, Gemini 3.1 Pro Preview, driven primarily by higher accuracy. We generally observe a strong relationship between AA-Omniscience accuracy and model size in open weights models, which suggests Fable 5 could be larger than previous public Anthropic models ➤ Frontier agentic capability: Claude Fable 5 is at the frontier across all three agentic evaluations in the Index: GDPval-AA (real-world work tasks), Terminal-Bench Hard (agentic coding), and Tau2-bench Telecom (tool use for customer service). Its GDPval-AA Elo of 1932 is a significant jump from the previous leader, Claude Opus 4.8, further extending Anthropic’s lead in agentic capabilities ➤ Leading HLE score, but refusal and fallback in 9% of tasks: Claude Fable 5 scores 53% on Humanity’s Last Exam, more than 7 points ahead of the next-best model, Claude Opus 4.8 (max). Fable 5 triggers safety guardrails on 9% of HLE tasks, falling back to Claude Opus 4.8. Including this fallback usage, running HLE with Fable 5 costs ~$2.2k, the highest of any model we have evaluated Key model details: ➤ Context window: Claude Fable 5 retains the same 1M token context window as Claude Opus 4.8 ➤ Price: Claude Fable 5 is priced at $10/$50 per 1M input/output tokens, 2x the token price of Claude Opus 4.8. The cache write/read price is $12.50/$1 per million tokens ➤ Availability: Claude Fable 5 is included in Pro, Max, Team, and seat-based Enterprise plans through June 22, consuming 2x Opus usage. From June 23, usage will require credits, with Anthropic saying it plans to restore subscription access once capacity allows
译Claude Fable 5 发布即位列 Artificial Analysis Intelligence Index 第一,得分 64.9,领先第二名的 GPT-5.5 约 5 分。该模型采用自适应推理(最大努力模式)并以 Opus 4.8 作为回退模型。在 AA-Omniscience 知识测试中得分 40,领先此前最高分的 Gemini 3.1 Pro Preview 7 分;HLE 得分 53%,领先 Opus 4.8 超 7 个百分点。约 9% 任务触发安全护栏并回退。定价 $10/$50 每百万输入/输出 token(Opus 4.8 的两倍),缓存读写 $12.50/$1;上下文窗口保持 1M token。通过 Pro、Max、Team 等计划可用至 6 月 22 日,之后需消耗积分。
Claude Fable 5 发布 好可能是好一些,贵是真的贵,再搭配 Loop,token 成本原地起飞了。
自己的平台,做起广告来就是这么肆无忌惮 😂 Grok Build...
海外大佬@MatthewBerman 测评了一周Fable 5 的实战总结。 一句话总结:我想说的是我们还是老老实实用Opus、GPT就行了。 又贵又不适合做普通的Vibe Coding,专业领域,超长时任务可能才能驾驭。 真的没有半点“驾驶”这种烈马还是给牛逼的人吧!
译海外博主 Matthew Berman 对 Fable 5 进行了一周实战测评。结论是 Fable 5 价格高昂,不适合普通 Vibe Coding 场景,仅在专业领域、超长时任务中可能有所发挥。相比之下,Opus 和 GPT 等模型更可靠、更具性价比,建议普通用户优先选择 Opus 和 GPT。
兄弟们,Google 这个发布直接毫无存在感了… 昨晚Google 发布了Gemini 3.5 实时翻译模型。 早上就被A社的Fable 5 刷屏,都看不到Google的影子😂 Google把Gemini 3.5 Live Translate直接推到公开预览,低延迟语音对语音翻译一次性覆盖70多种语言、整整2000种语言对,把“语言不通”这个最后的人类沟通天堑当场砸成碎片。 它现在就能通过Gemini API接入,开发者随便扔进app里,实时对话、客服、直播、跨国会议,全都秒变无缝全球模式。 以前大家默认实时语音翻译只能对付主流语言,最冷门的小语种很多模型厂商不会去做。 这次Google一口气把那些最偏、最小众的语言对全拉进来,直接让任何应用都能全球通吃。 这套东西上线后最狠的地方,是把实时翻译从“偶尔能用”变成了“随时随地标配”,开发者手里终于多了一把能把产品瞬间推向全世界的钥匙。 不知道和Qwen 一些模型的对比效果如何,之前阿里的一些小语种模型也不错…
译Google 推出 Gemini 3.5 Live Translate 实时翻译模型,已进入公开预览阶段,通过 Gemini API 提供低延迟语音到语音翻译,覆盖 70+ 种语言、2000 种语言对,包括大量冷门小语种。开发者可将该能力集成到实时对话、客服、直播、跨国会议等场景中。主推文指出该发布被 Anthropic Fable 5 刷屏抢了风头,并提及阿里 Qwen 系列小语种模型的可比性。
6.22 日 后只能调用API使用了! 到时候是不是就知道真正的“中转站”到底是不是真的有“中转”模型Fable5 了😂
译Fable 5 模型标注“Included until June 22”,订阅用户此前可免费体验,6月22日后仅能通过API使用。主推文猜测届时将验证所谓“中转站”是否真正提供Fable 5模型(暗示可能存在假模型)。
自此,Claude 的产品线完整,整条线都是用艺术作品在命名: Haiku — 俳句,极简短小,一瞬即永恒 Sonnet — 十四行诗,结构严谨,意境深远 Opus — 拉丁语的作品,特指分量最重的那一部 Fable — 寓言,故事包裹深意,人人读得懂 Mythos — 神话,宏大叙事,世界观的底座
译推文指出 Claude 产品线现已完整,所有模型均以艺术作品命名:Haiku(俳句)——极简短小,一瞬即永恒;Sonnet(十四行诗)——结构严谨,意境深远;Opus(拉丁语,特指分量最重的作品);Fable(寓言)——故事包裹深意,人人读得懂;Mythos(神话)——宏大叙事,世界观的底座。整条产品线通过艺术名称体现各模型定位。
Claude Fable 5 的三个很奇葩的地方 1. 虽然目前在 Token Plan 里,但在6月22日之后,Token Plan 就不能用 Fable 了,只能通过 API 调用 2. Fable 的安全护栏有点离谱,任何生物学的基础知识都无法询问,比如「线粒体是什么」这种初中生物的问题,想研究生物医药?只能申请 Mythos 3. Fable 禁止被用来做模型相关的研发,官方的理由是模型已经能够加速自身发展,所以竞争对手用 Fable 改进自家模型违反了服务条款。WTF? 这两天美国那边还在吹 Loop,自己打通了 Loop,然后不让其他家进入 Loop,这不是很闭环呐... 国产开源模型多加油,拯救世界靠你们了。
译Claude Fable 5 近日曝出三大争议:Token Plan 用户 6 月 22 日后无法使用 Fable,仅能 API 调用;安全护栏过严,禁问“线粒体是什么”,生物研究须申请 Mythos;禁止用于模型研发,称竞争对手用 Fable 改进自家模型违反条款。推文批评美国厂商一边鼓吹打通 Loop,一边阻止其他玩家进入,形成闭环。
btw insane amounts of alpha in telling claude code to "review my code for issues" on Fable rn while it is not pay per use be prepared to be in abject horror that you shipped anything to prod without a Fable Check™ first
译swyx 表示,当前在 Fable 上让 Claude Code 执行 "review my code for issues" 时不按使用量收费,建议开发者在发布前先用 Fable Check™ 检查,否则可能发现已上线代码存在严重问题。他引用自己重跑 FC Diamond 历史数据的推文,指出官方表格/图表未充分反映 Fable 的起飞程度——Fable 是不同级别的模型,带有明显的"大模型气息"。
Tesla AI chip design engineering reviews are so great! Team is awesome. Our AI6 chip might set a record for most amount of usable intelligence from a wafer when factoring in yield.
译Tesla AI芯片设计工程评审太棒了!团队很出色。 我们的AI6芯片在考虑良率后,可能会创下每晶圆可用智能量最高的记录。
How many consultants can I replace with a fable 5 workflow.
译一个 fable 5 工作流能替换多少顾问?
BREAKING NEWS: Anthropic's latest model will NOT help you if it thinks your ML research/ML engineering is interesting, and/or will secretly degrade its IQ so that the average engineer won't notice. We are already seeing Anthropic's latest model's moderation filters our GPU inference research and programming 😭
译突发新闻:Anthropic 的最新模型如果认为你的 ML 研究/ML 工程有趣,就不会帮助你,并且/或者会秘密降低其智商,以便普通工程师不会注意到。我们已经看到 Anthropic 最新模型的内容审核过滤了我们的 GPU 推理研究和编程 😭
http://x.com/i/article/2064485562875260928 # BestBlogs 早报 · 06-10|Claude 安全分层、企业智能体治理、双语语音 Agent 在线阅读和收听:https://www.bestblogs.dev/explore/brief/2026-06-10 ## 导语 今天这期 BestBlogs 早报,适合作为一份关于「生产级 AI」的阅读地图。过去几个月,很多讨论还停在模型是不是更聪明、Agent demo 是不是更惊艳;今天的三篇精讲把问题往前推了一层:当模型能力继续上升,谁来定义可用边界?当企业真的部署了成千上万个 Agent,上线后的运营成本、反馈闭环和确定性流程怎么跟上?当语音 Agent 面向真实客户,用户在一句话里切换两种语言,ASR 层的错误又会怎样传导到后面的工单、策略和回复? 把这篇图文版当作播客的延展阅读:先读三篇精讲,建立「模型能力、企业治理、入口评测」三条主线,再用速览和补充阅读补齐 RAG、Skill、CLI、基础设施和推荐系统等工程侧细节。 一个更实用的读法,是把今天所有文章都放进同一张生产链路图里:上游是 Anthropic、HRM-Text 这类模型与架构能力;中间是 RAG、Skill、Foundry、Copilot CLI 这些把能力包装成工作流的平台层;下游是 Salesforce、OpenAI 财务团队、语音 Agent、教育试验和 Netflix 推荐这类真实应用场景;最底层则是 DeepSeek-V4 云原生推理这样的基础设施。这样看,今天的主题不是某个单点突破,而是 AI 系统如何从可演示、可调用,继续走向可运营、可评测、可承担责任。 所以这期更适合边读边做笔记:每看到一个新模型或新平台,都顺手记下它解决的是能力、流程、评测、治理还是基础设施问题。这样读完之后,你得到的不是一串新闻标题,而是一组可迁移的判断标准,也更容易判断下一轮 AI 产品更新究竟补上了哪一块短板。 ## 精讲一:Anthropic 发布新一代 Claude:Fable 5 与网络安全版 Mythos 5 Anthropic 发布新一代 Claude:Fable 5 与网络安全版 Mythos 5 是今天最适合放在第一位的文章,因为它不是单纯宣布一个更强的模型,而是把能力提升、访问分层、风险控制和商业价格放在同一个发布里讨论。Anthropic 将 Claude Fable 5 推向通用用户,同时把同一底层模型以 Mythos 5 的形式开放给少量可信网络安全伙伴。这个安排本身就是信号:前沿模型的发布逻辑正在从「一个模型给所有人」转向「同一能力在不同风险场景下被不同方式包装、降级和授权」。 原文最值得抓住的事实有几组。第一,Fable 5 被描述为目前 Anthropic 面向一般用户开放的最强模型,在软件工程、知识工作、视觉、科学研究等任务上都有明显提升,任务越长、越复杂,领先幅度越突出。第二,Anthropic 明确承认这类能力会带来网络安全等高风险滥用,所以对部分请求会改由 Claude Opus 4.8 响应;由于安全规则设得保守,平均少于 5% 的会话会触发这种降级。第三,Mythos 5 与 Fable 5 使用同一底层模型,但在部分领域放宽安全限制,先通过 Project Glasswing 面向网络防御者和基础设施伙伴部署。第四,价格也被一起给出:每百万输入 token 10 美元、每百万输出 token 50 美元,低于 Claude Mythos Preview 的一半。 这些信息放在一起,重点就不只是「Claude 又变强了」。更重要的是,模型厂商开始把能力、风险和客户资格拆成可运营的产品层级。对普通开发者来说,Fable 5 的关键价值可能是更长任务、更复杂代码迁移和更强文档推理;对安全团队来说,Mythos 5 的意义则在于把高风险能力放进可信访问计划,而不是简单地对所有人开放或全部封锁。原文还提到早期案例,包括在 50-million-line Ruby 代码库上做迁移、在生命科学中加速药物设计假设探索等。这些案例不应被读成「任何团队马上都能复制」,而应读成厂商用来说明模型长程自治能力正在进入真实工作流的证据。 从产品采用角度看,这篇文章还给企业买方一个判断框架:当供应商说模型更强时,应该追问能力提升出现在哪些任务长度、哪些业务流程、哪些风险领域;当供应商说安全可控时,应该追问降级策略是否透明、误伤率如何衡量、什么请求会被转给更弱模型;当供应商说有更高权限版本时,应该追问访问资格、审计机制和责任主体。换句话说,前沿模型的采购不再只是比较跑分、价格和上下文窗口,而是要把模型当成有访问层级的基础设施来评估。 它和今天另外两篇精讲之间有很强的呼应。Salesforce 的文章讨论企业 Agent 上线后的运营,ServiceNow 的 ASR 基准讨论语音入口的可靠性;Anthropic 这篇则是在底层模型层面提出同一个问题:AI 能力越接近生产核心,越不能只看 benchmark,还要看权限、降级、监控和事故边界。阅读建议是先看发布中的安全分层和价格段落,再看软件工程与知识工作案例,最后回到 Mythos 5 的可信访问机制。这样读能避免被「最强模型」的表述带偏,而是把它放进企业采用 AI 的真实治理链路里。 ## 精讲二:Salesforce 从 20,000 个企业智能体部署中学到的经验 Salesforce 从 20,000 个企业智能体部署中学到的经验 的价值在于,它把 Agent 的讨论从「怎么做一个 demo」拉回到「怎么在企业里长期跑下去」。ByteByteGo 借 Salesforce Agentforce 的生产部署复盘了一个很现实的事实:很多 Agent 失败不是因为模型完全不能用,而是因为团队低估了上线之后的运营工作。文章提到 Salesforce 已有超过 20,000 个企业客户运行 Agentforce,支持 Agent 单项就处理了超过 3 million 次对话,这给它的经验总结提供了足够的生产背景。 这篇文章先把 Agentforce 拆成几层:用户通过 Slack、聊天窗口或消息应用进入 engagement layer;agent layer 负责推理、决策、监控和编排;system of work 连接销售、服务、商务等真正承载业务动作的应用;context layer 提供数据和元数据;贯穿全栈的 trust layer 负责多模型、权限和 guardrails。这个架构图本身并不神秘,很多企业平台都会画类似的层次。真正有意思的是后面的工作量反转:传统软件往往把大部分努力放在上线前,而 AI Agent 的大部分工作发生在上线后。原文用一种很直白的方式说,Agent 不是发布后就完成,而是发布后才开始学习哪里会误判、哪里需要更确定的流程、哪里需要重新定义 KPI。 具体方法上,文章强调了几个比 prompt 更重要的环节。首先是反馈循环,团队要能把失败对话、用户评价、业务结果和改进动作串起来。其次是上下文治理,Salesforce 的案例里提到从 135,000 篇帮助文档中选取相关内容,并把上下文从 100K tokens 级别裁剪到 2K tokens 左右,这说明生产 Agent 的效果并不是「给模型越多越好」,而是要让检索、过滤和业务语境足够精确。第三是确定性流程:有些步骤不适合交给模型自由发挥,比如退款、权限变更、关键字段写入和合规判断,需要被约束在可追踪的工作流里。 这篇文章也把一个常被忽略的角色摆到台前:业务团队本身。企业 Agent 不是工程团队写完后交付给业务部门使用的普通软件,而是需要业务人员持续标注成功与失败、定义哪些回答可接受、哪些动作必须升级人工、哪些知识库内容已经过期。帮助文档、CRM 数据、工单历史和政策规则如果没有清洗和归属,Agent 很容易在看似合理的回答中放大旧流程的问题。Salesforce 的经验因此更像一套组织运行建议:先把反馈、KPI 和人工兜底设计好,再谈更高的自动化比例。 它的重要性在于,很多团队今天仍然把 Agent 当成一个更会聊天的界面,忽略了企业系统里真正贵的部分是责任边界。谁批准动作?谁观察失败?谁定义成功?谁把一次错误转成可复现的测试?这些都不是一个更长的 system prompt 能解决的。和 Anthropic 的发布对照看,底层模型可以更强,但企业采用它的瓶颈往往在组织和平台能力;和 ASR 基准对照看,入口转写如果错了,后面的 Agent 再聪明也会在错误上下文里自信执行。阅读这篇时,建议重点看「上线后运营」而不是产品宣传:把它当成一份 Agent 项目复盘清单,逐条映射到自己团队有没有日志、评测集、回放机制、业务 KPI 和人工兜底。 ## 精讲三:语音智能体能否处理双语客户?前沿 ASR 在语码转换语音上的基准测试 语音智能体能否处理双语客户?前沿 ASR 在语码转换语音上的基准测试 切中的是语音 Agent 的入口问题。很多语音产品 demo 看起来流畅,是因为输入被控制得很干净:单一语言、清晰句子、标准任务。但真实企业场景里,客户可能一句话里先用西班牙语描述问题,再夹一个英文产品名;员工可能用法语问 HR 政策,中间插入英文岗位、系统或报错信息。ServiceNow AI 在 Hugging Face 发布的这组基准,就专门评估 ASR 系统在 code-switching 语音上的表现。 原文背景很清楚:全球超过一半人口会说不止一种语言,语码转换并不是少数人的异常行为,而是很多双语用户的自然交流方式。企业服务场景尤其如此,因为 HR、ITSM、客服和内部支持会同时出现本地语言、英文软件名、政策术语和工单字段。ServiceNow 团队因此把 ASR 放在第一步评估,因为转写错误会沿着语音 Agent 的整个 pipeline 传播:转写错了,意图识别、检索、策略判断和最终回复都会跟着偏。 这组基准覆盖四组语言对:Spanish-English、French-English、Canadian French-English 和 German-English。数据来自 HR 与 IT 服务管理相关场景,包括福利、薪资、密码重置、VPN 访问、设备排障等常见任务。指标也不只看传统的 WER。文章同时报告 WER、Semantic Word Error Rate 和 Answer Error Rate,分别观察字面转写、语义保留和下游回答影响。这个设计很重要,因为生产系统真正关心的不只是一个词有没有拼对,而是错误是否改变了用户意图、工单类别或解决路径。原文的主要结论是,code-switching 的成本会随语言对和模型而变化;ElevenLabs Scribe V2、Gemini 3 Flash 与 AssemblyAI Universal 3-Pro 在多项指标上更稳。 对产品团队来说,这篇的落点尤其实际。很多语音 Agent 项目会把失败归因于 LLM 没理解、知识库没命中或 prompt 不够清晰,但如果 ASR 在第一步就把语言切换、专有名词、工号、系统名或政策关键词转错,后面的模块其实是在处理一个已经变形的问题。企业如果面向多语言客户,应该把语码转换纳入灰度测试,而不是等上线后从投诉里发现问题。更进一步,评测集也不该只收集标准客服句子,还要覆盖短句、口语、省略、产品名混用和不同语言中嵌入英文术语的表达。 这篇文章和今天的企业 Agent 主线关系很密。Salesforce 的经验告诉我们,上线后要有反馈闭环;这篇则提醒我们,反馈闭环必须从输入层开始,而不是只在 LLM 输出层打补丁。Anthropic 的发布强调能力和安全分层;语音 Agent 则说明能力边界还包括语言、口音、术语和场景分布。对要做客服、HR 或 IT helpdesk 语音产品的团队来说,这篇最值得学的不是某个榜单名次,而是评测框架:先定义真实任务、真实语言混合方式和下游损失,再比较模型。阅读建议是先看 Introduction 和 Benchmark 部分,理解为什么要把 ASR 与下游回答一起评估;如果时间有限,再直接看结果和错误分析,把它当作建立自家语音 Agent 测试集的模板。 三篇精讲合在一起,给出的其实是一条很朴素的工程原则:不要把 AI 系统的可靠性寄托在单个最强模型上。模型层要有能力分级和访问控制,平台层要有日志、指标、反馈和确定性流程,入口层要用真实用户语言和真实任务分布做评测。只要其中任何一层被忽略,系统都可能在 demo 中显得聪明,却在生产中变得难以解释、难以修复、难以承担责任。 ## 速览 Gemini 引导式学习:塞拉利昂随机对照试验结果 Google DeepMind 分享了与 Fab AI、塞拉利昂教育部合作的随机对照试验。研究在 Port Loko District 的 12 所学校、1,763 名初中学生中进行,为期 8 周,评估 Gemini Guided Learning 对数学进步的影响。文章的价值不在于把 AI 包装成教师替代品,而是给「AI 如何辅助教育」提供了更接近政策和课堂现实的证据:要看学习效果、教师角色、批判性思维保护,而不只是问答体验是否顺滑。 如何更科学、方向可控的实现 Skill 的“自进化”? 这篇阿里云开发者文章把 Agent Skill 的自动沉淀从经验话题拉回研究脉络,集中解读 Trace2Skill、EvoSkill、SkillOpt 三条路线。它讨论的不是「让 Agent 自动写更多 Skill」这么简单,而是如何避免沉淀质量不高、更新后效果变差、Skill 库膨胀难管理等问题。适合正在搭建 Agent 平台或内部工作流工具的团队阅读,尤其适合和今天 Salesforce 的上线后反馈闭环一起看。 生产环境中常见的 10 个 RAG 错误 Towards Data Science 这篇文章总结了生产级 RAG 的十类坑,覆盖文档解析、问题解析、检索和生成多个环节。它最有用的提醒是:很多失败不是因为模型不够强,而是因为团队把文档和问题都当成扁平字符串处理,没有把结构、字段、上下文和任务边界建模清楚。对合规、理赔、合同审查或企业知识库场景来说,这篇能帮助你把「召回更多内容」改成「构造更可靠的信息对象」。 只给一份文档,Qwen3.7-Max 从 0 交付双端应用 通义实验室与 Efflora 团队的实验让 Qwen3.7-Max 只基于一份产品调研文档,在隔离环境里从 0 交付移动端和 Web 端应用。文章里更值得看的不是「模型写了多少代码」,而是它如何处理规划、架构、模块拆分、数据模型、接口、验证和修复。它和 Claude Fable 5 的长程软件工程案例形成对照:Agent 工程质量不是一次生成出来的,而是在约束、验证和闭环中逐步收敛。 OpenAI 如何打造 AI 原生财务团队:工程师嵌入、ChatGPT、Codex 与工作流智能体 这条 OpenAI 视频从企业职能部门角度讲 AI 原生运营。财务负责人 Stacie Faggioli 介绍了工程师嵌入财务团队、使用 ChatGPT、Excel 智能体、Codex 仪表盘和工作流 Agent 的方法。它适合和 Salesforce 文章配对阅读:一个讲平台型 Agent 如何规模化部署,另一个讲企业内部职能如何重组工作方式。重点不是工具清单,而是把自动化能力嵌进真实流程和责任结构。 业界首次:DeepSeek-V4 基于国产 AI 芯片+SGLang RBG 的云原生推理方案在招商银行落地 招商银行信息技术部这篇实践文把视角拉到 AI 基础设施。文章围绕 DeepSeek-V4 Flash 的大 EP 推理服务,讲 PD 分离、Router、Prefill、Decode、多角色拓扑、动态端口分配、服务发现、多级故障自愈和原地升级。它提醒我们,生产级 AI 不只是模型和应用层的问题;当推理从单机走向分布式集群,Kubernetes 原生工作负载并不能自然表达所有拓扑和故障联动。 4000 行代码撑起一个 Agent 框架?nanobot 架构深度解析 腾讯云开发者对 HKUDS nanobot 的拆解很适合用来校准 Agent 框架复杂度。文章提到 nanobot 以约 3,935 行核心代码实现集中式 AgentLoop、ReAct 循环、Markdown 技能系统、文件系统记忆和多渠道接入,并对比了 LangChain 级别的大型框架。它不是说所有系统都应极简,而是展示了控制面集中化带来的可理解性,以及这种设计在复杂编排、可观测性和扩展性上的边界。 速览里的七篇可以分成三组来读。教育试验、OpenAI 财务团队和 Qwen3.7-Max 应用交付,回答的是 AI 在具体业务里如何证明价值;Skill 自进化、RAG 错误和 nanobot,则回答 Agent 工程该如何沉淀、约束和保持可维护;DeepSeek-V4 云原生推理实践提醒我们,所有上层能力最终都要落在算力、网络、调度和故障恢复之上。如果只挑一组,建议按自己的岗位选择,而不是按热度选择。 ## 补充阅读 多媒体积木块 这篇 Hugging Face 博客展示了一个 Agent 如何通过两个 Space 的 agents.md 端点串起图像生成和 3D 重建,做出巴黎纪念碑 3D 画廊。它补充的是「工具可组合」方向,适合关心多媒体 Agent、Space 生态和未来软件接口形态的人。 Microsoft Foundry 新增运行时、工具链与治理能力,助力生产级智能体 InfoQ 梳理了 Build 2026 上 Microsoft Foundry 的新能力,包括托管 Agent、程序性记忆、Foundry IQ、MAI 模型、可观测性和治理。它是 Salesforce 文章的生态侧补充,适合正在比较企业 Agent 平台选型的读者。 从一次性提示词到工作流:如何在 GitHub Copilot CLI 中使用自定义智能体 GitHub Blog 介绍 Copilot CLI 的自定义 Agent:用 Markdown 配置文件沉淀团队专属流程,自动化安全审计、IaC 合规、发布文档和事件响应。它适合想把临时 prompt 变成可复用团队工作流的工程团队。 Introducing FrontierCode FrontierCode 关注模型能否写出高质量、可合并的生产代码,而不只是通过正确性测试。它能补充 Claude Fable 5 与 Qwen3.7-Max 两条软件工程新闻,适合关心 AI 编码评测、代码审查标准和真实仓库质量的人。 新架构模型 HRM-Text 创新纪录!1B 参数、1000 美元,图灵奖得主都亲自下场了 机器之心解读 HRM-Text:约 1B 参数、较低训练成本、分层递归架构和针对性训练目标。它补充的是模型架构效率路线,适合不只看大模型 scale,也关心「更少参数和数据能否换来更高推理产出」的读者。 个性化推荐的价值:来自 Netflix 的证据 这篇 arXiv 经济学论文用 Netflix 收视数据量化个性化推荐的因果影响,认为个性化推荐相较更简单算法可提升 4%-12% 的用户参与度。它适合推荐系统、增长和内容平台读者,尤其适合思考「精准匹配」与「曝光效应」的区别。 ## 今日阅读路径 如果你只有 20 分钟,先读三篇:第一篇读 Anthropic 发布新一代 Claude:Fable 5 与网络安全版 Mythos 5,建立对前沿模型能力分层和安全降级的认识;第二篇读 Salesforce 从 20,000 个企业智能体部署中学到的经验,把视角从模型切到企业上线后的运营闭环;第三篇读 语音智能体能否处理双语客户?前沿 ASR 在语码转换语音上的基准测试,补上语音入口和评测方法。 如果你还有 30 分钟,接着读 生产环境中常见的 10 个 RAG 错误、如何更科学、方向可控的实现 Skill 的“自进化”? 和 Microsoft Foundry 新增运行时、工具链与治理能力,助力生产级智能体。这三篇会把今天的主线从模型与 Agent 产品,延伸到知识检索、Skill 迭代和平台治理。最后,如果你更偏基础设施或编码评测,再补 业界首次:DeepSeek-V4 基于国产 AI 芯片+SGLang RBG 的云原生推理方案在招商银行落地 与 Introducing FrontierCode。 更具体地说,今天可以按角色来读。产品负责人先看 Salesforce、ServiceNow 和 Google DeepMind,因为它们分别回答「上线后怎么运营」「真实用户输入怎么评测」「AI 辅助学习怎样证明有效」。工程负责人先看 Anthropic、RAG 错误、Foundry 和 Copilot CLI,因为它们覆盖模型能力、知识系统、平台治理和工作流复用。基础设施与平台团队则应把招商银行 DeepSeek-V4 落地实践、nanobot 架构和 FrontierCode 放在一起看:前者提醒你推理服务的云原生复杂度,后两者提醒你框架和评测都要回到可维护、可合并、可运行的真实标准。这样分层阅读,今天的 16 条内容就不会散成新闻列表,而会形成一条从模型发布到企业落地的完整链路。
BestBlogs 早报 · 06-10 # Claude Fable 5 / 企业智能体 / 双语语音 Agent / RAG / AI 治理 [1] ★ 精讲|Anthropic 发布新一代 Claude:Fable 5 与网络安全版 Mythos 5 Anthropic 将 Claude Fable 5 推向大众,并把同一底层模型以 Mythos 5 形式给可信网络安全伙伴使用。原文把能力提升、安全降级和价格放在一起:高风险请求平均少于 5% 会降级到 Opus 4.8,价格为每百万输入 10 美元、输出 50 美元,还列出 50-million-line 代码迁移、药物设计约 10 倍加速等案例。 来源:Anthropic News https://www.bestblogs.dev/article/11f30fed [2] ★ 精讲|语音智能体能否处理双语客户?前沿 ASR 在语码转换语音上的基准测试 ServiceNow AI 在 Hugging Face 发布语码转换 ASR 基准,直接切中语音 Agent 的真实入口问题:双语用户会在 HR 和 IT 服务场景中自然切换语言。它覆盖 4 组语言对、7 个 ASR 系统,并用 WER、SWER、AER 区分转写准确率和下游语义影响,结论是 Scribe V2、Gemini 3 Flash 与 AssemblyAI 在双语输入上最稳,更贴近生产。 来源:Hugging Face - Blog https://www.bestblogs.dev/article/4aec841d [3] ★ 精讲|Salesforce 从 20,000 个企业智能体部署中学到的经验 ByteByteGo 借 Salesforce Agentforce 的 20,000 个企业客户复盘生产级 Agent:支持 Agent 已处理 3 million 次对话,但真正难点是上线后运营。文章把传统软件的工作量分布反转成 AI Agent 90% 在上线后,并用 135,000 篇帮助文档、100K 到 2K tokens 的上下文裁剪说明反馈循环、KPI 和确定性流程为什么比继续堆 prompt 更关键。 来源:ByteByteGo Newsletter https://www.bestblogs.dev/article/d12e437d [4] 如何更科学、方向可控的实现 Skill 的“自进化”? 本文深入解析 Trace2Skill、EvoSkill、SkillOpt 三篇里程碑式论文,对比归纳法、自验证与训练范式三种 Skill 自进化路径,探讨如何更科学、可控地实现 Agent Skill 的自动化迭代。 来源:阿里云开发者 https://www.bestblogs.dev/article/8fcfc162 [5] 生产环境中常见的 10 个 RAG 错误 本文指出了生产级 RAG 系统中十个常见陷阱,这些陷阱分布在解析、问题解析、检索和生成四个环节,并论证了大多数失败源于将文档和问题视为非结构化字符串而非结构化对象。 来源:Towards Data Science https://www.bestblogs.dev/article/37dc70a7 [6] 只给一份文档,Qwen3.7-Max 从 0 交付双端应用 本文详细介绍了通义实验室与 Efflora 团队基于 Qwen3.7-Max 模型,仅凭一份产品调研文档,在隔离环境中从零交付移动端和 Web 端两套可运行应用的实验过程与工程方法论。 来源:通义实验室 https://www.bestblogs.dev/article/8d85909c [7] Gemini 引导式学习:塞拉利昂随机对照试验结果 塞拉利昂的一项随机对照试验表明,Google Gemini 的引导式学习功能显著提升了数学学习效果,学生在八周内取得了相当于 2.5 年的学业进步。 来源:Google DeepMind News https://www.bestblogs.dev/article/a01d514e [8] 4000 行代码撑起一个 Agent 框架?nanobot 架构深度解析 本文深度解析开源 Agent 框架 nanobot 的架构设计,分析其以 4000 行核心代码实现极简 ReAct 循环、Markdown 技能系统、文件系统记忆等关键决策的优势与局限,并提炼可迁移的架构模式。 来源:腾讯云开发者 https://www.bestblogs.dev/article/9a3cb912 [9] OpenAI 如何打造 AI 原生财务团队:工程师嵌入、ChatGPT、Codex 与工作流智能体 [视频] OpenAI 财务负责人 Stacie Faggioli 介绍,公司如何把工程师、ChatGPT、Excel 智能体、Codex 仪表盘和工作流智能体嵌入财务流程,用更精简的团队运营 AI 原生财务组织。 来源:OpenAI https://www.bestblogs.dev/video/d90e3d0 [10] 业界首次:DeepSeek-V4 基于国产 AI 芯片+SGLang RBG 的云原生推理方案在招商银行落地 本文由招商银行信息技术部撰写,详细介绍了基于 SGLang RBG 组件在国产 AI 芯片上落地 DeepSeek-V4 大 EP 推理服务的云原生方案,重点剖析了动态端口分配、服务发现、多级故障自愈与原地升级等核心机制的设计与实现。 来源:AI 前线 https://www.bestblogs.dev/article/e9abd77b --- http://BestBlogs.dev · 发现真正适合你的高质量内容 根据你感兴趣的来源和兴趣标签,每天为你生成一份专属的「我的早报」。立即体验:https://bestblogs.dev
译Anthropic发布Claude Fable 5与Mythos 5,输入$10/M、输出$50/M,5%高风险请求降级到Opus 4.8,药物设计加速10倍。ServiceNow发布语码转换ASR基准,覆盖4组语言对、7个ASR系统,Scribe V2、Gemini 3 Flash和AssemblyAI表现最稳。Salesforce从20,000个Agentforce企业客户总结:支持Agent处理3百万次对话,上线后运营是难点。
Wix VP @IShmool 推出的免费课程「Zero to Claude Code」支持简体中文了! 作者还专门用中文官宣,并表达了对中文 AI 社区朋友们的感谢! 学起来:http://zero2claude.dev
译Wix VP @IShmool 推出的免费课程「Zero to Claude Code」现已支持简体中文,作者专门用中文官宣并感谢中文 AI 社区。该课程面向零基础学习者,讲解如何用 Claude Code 从零构建真实产品。已有 300 名中国学生参与学习。课程完全免费,访问 zero2claude.dev 即可开始。
Why I think Anthropic's uneven safety policies with the release of Claude Fable 5 undermine the broader AI community's cohesion and accelerate us to more uncertainty and risk in AI's near-term evolution. https://www.interconnects.ai/p/claude-fable-5-and-new-ai-safety
译我认为Anthropic在发布Claude Fable 5时的不均衡安全政策损害了更广泛AI社区的凝聚力,并加速了AI短期发展中更大的不确定性和风险。
兄弟们,大家没有等来Mythos! 但等来了同门兄弟Fable 5啊! Anthropic把Mythos级别的超级怪物直接做成安全版扔给全世界用,把“越强越危险”的 说法抛在脑后! Claude Fable 5今天全网开闸,基准测试几乎全线SOTA,尤其软件工程、知识工作、科研和视觉这些硬活儿,长任务越复杂它领先得越离谱。 他们自己也承认这模型太猛,cyber、生物化学、蒸馏这些窄领域会自动fallback到Opus 4.8,平均每20次对话才触发一次,还会老实告诉你。 同时给一小撮可信的cyber防御和关键基础设施团队放出完全版Mythos 5,后面还会逐步扩大受信任访问。 以前大家都觉得前沿模型要么锁死不给用,要么一放就出事,结果Anthropic用这套精准safeguard直接证明:真正顶级的AI从来不是能力跟安全二选一,是把两者同时拉到极致。
译Anthropic 发布 Claude Fable 5,这是经过安全处理的 Mythos 级模型,能力超越以往任何公开发布模型。它在软件工程、知识工作、科研和视觉等基准测试中几乎全线 SOTA,长任务越复杂领先越明显。在网络、生物化学、蒸馏等高风险领域,模型会自动回退至 Opus 4.8,平均每 20 次对话触发一次。同时,Anthropic 向少数可信的网络安全与关键基础设施团队开放完全版 Mythos 5,后续将扩大受信任访问。此举证明顶尖 AI 可在能力与安全之间同时达到极致。
这么看Fable5 的效果有点明显啊,交互细节和动效都很到位。
这个开源小模型3B 到底行不行啊? Cohere直接把30B参数的MoE小模型扔到Apache 2.0开源,还专门为agentic coding量身打磨! North Mini Code只有3B active参数,在Artificial Analysis Coding Index上跑到33.4,跟同量级对手打得有来有回,却能本地跑、随便改、随便玩。 它真正狠的地方是把agentic性能做到底,社区随便拿去实验、反馈、迭代,开发者第一次能真正把coding agent握在自己手里,而不是租云端黑盒。 以前大家默认开源coding模型要么弱要么慢,结果Cohere用这个小家伙直接告诉你:真正能改变游戏规则的,从来不是参数堆多高,而是谁敢把最锋利的工具彻底放开。 这波开源一出,开发者手里终于多了一把能自己掌控、自己进化的coding利器。
译Cohere推出North Mini Code开源模型,总参数30B,活跃参数仅3B,采用Apache 2.0许可。该模型在Artificial Analysis Coding Index上跑出33.4分,与同量级模型竞争,专为智能体编程(agentic coding)优化,支持本地运行、自由修改和迭代。开发者首次能完全掌控coding agent,而非依赖云端黑盒。
这可真不是好饭不怕晚啊!!! Gemini 模型已经通过了Apple Foundation Models 框架和Xcode中原生支持,Apple的开发者就可以使用。 我想说现在正经开发,谁还用Gemini了…
译Google 宣布 Gemini 模型已通过 Apple Foundation Models 框架及 Xcode 原生支持,向数百万 Apple 开发者开放。开发者可在共享 API 接口上切换本地与云端推理,构建智能体式应用并提升开发速度;Xcode 内还提供 Gemini 智能体编码辅助,加速多步骤开发任务。
http://x.com/i/article/2064479983104602112 # Fable 测评了一周的真实感受:这才是真正的下一代模型,但也是也有不少“怪癖”!(译) 【Matthew Berman 最新测评】Fable(Mythos)测了一周:这才是真正的下一代模型,但也有一堆“怪癖”! 原帖见👇 申明: 本文由海外博主@MatthewBerman 测评,以下的“我”指其本人哈,请悉知。 tl;dr:我这周一直在狂测 Fable(Mythos),用完之后只有一个感觉——它和其他模型完全不是一个次元的东西。 无论是使用体验还是定价,都给我一种“下一代正式登场”的震撼。但它也确实有一些很明显的怪癖。 优点篇(The Good) Workflow 模式直接封神。我随便扔给它一个“full code review”的指令,结果它瞬间拉起几百个 agent 并行狂干,给我项目里的几乎每个文件都单独配了一个专属 agent。 bug、边缘 case、文档缺失、UX 体验问题……全都被它挖出来了。 我之前给 Claude、GPT 下过一模一样的 prompt,它们找出来的问题连它一半都不到。 更离谱的是它的自主性。比以前任何 Claude 或 GPT 都敢自己闷头干活,一干就是好几个小时。 最关键的是——我敢把任务彻底扔给它。 它会毫不犹豫地烧一大堆 token,直到把目标彻底干完。 每次我一启动 Fable,就感觉它像接了个史诗级大项目一样,斗志满满。 我现在给它扔超级复杂、长周期的任务时,信心前所未有的足。 几乎想不出有什么任务能把它难住,它也特别“渴望”挑战这种硬骨头。 这就是 Fable 最亮眼的地方——超长时域任务(long horizon tasks)。 我现在都想象不出它的超长时域任务 极限到底在哪。 槽点篇(Quirks) 不过它也不是无敌神模型,有几个毛病还挺明显: 1. 极度啰嗦 + 信息密度爆炸 解释一个东西能直接钻进草丛深处。 我专门更新了 claude.md 来压它,结果还是压不住。 我得反复让它“说人话”。 不光是字多,信息密度高到让我一度怀疑自己是不是变笨了…… 说真的,信息密度这事儿我以前真没那么重视。 现在发现:在固定 token 预算下,谁能塞更多有效信息,谁就等于“更聪明且更便宜”。 这也是未来 agent 自己发明超高密度语言的绝佳理由。 1. 疯狂问 clarifying questions 一个简单 prompt 能被它拆成:问问题 → 总结我的回答 → 确认总结 → 出 spec → 确认 spec → 确认 agent 策略(并行还是串行)→ 最后才开始干活…… 我其实希望它自己做决策。Anthropic 官方说更新 system prompt 之后就能好。 1. 速度真的慢 比之前的 Opus 甚至 GPT 都慢。启动慢,思考过程也慢,和我以前爱 Opus 的点完全相反(Opus 以前又快又会抄近道)。 Fable 哪怕简单任务也慢慢爬,我看着计时器往上跳,输出 tokens 半天不动,五分钟才用几千 token。它就是想把每件事都做到极致彻底,这就必然要花时间。 总结 & 小贴士 Pro tip:把 effort level 直接拉到最低,比你以为的还低。 它在中档的时候就已经想得非常非常多,低档依然强得离谱,只是思考时间会短一些。 所有这些怪癖其实都是能修的——模型优化 + 更多算力提速,再加上 fine-tuning/RL 和 system prompt 调教,就能解决啰嗦和过度谨慎的问题。 最终 结果: Fable5 真的强到离谱,我现在还在摸索怎么把它用出最爽的体验。 它给我的感觉是——它就想吃最难的任务,简单活儿都觉得不过瘾。 这是全新测试运行 的第一次公开亮相,就已经是我用过的最强模型了。 这点,才是我这几天一直忍不住反复思考的。 Berryxia:原文来自 Matthew Berman,实际测评等我门自己来看看。 目前这么高的价格来说,还是用起我的opus4.7 吧,博主大哥说的就是简单的任务就没有必要选择它。 难啃的骨头更适合它,而不是拿小Case测试它。就一点才大用的感觉,杀鸡焉用牛刀啊!
译Matthew Berman 一周实测 Fable(Mythos),认为这是真正的下一代模型,但存在明显怪癖。优点:Workflow 模式能瞬间拉起几百个 agent 并行全量代码审查,找出 bug 和边缘 case 的数量是 Claude/GPT 的一倍以上;自主性极强,敢于长时间自主完成超长时域任务。缺点:极度啰嗦、信息密度过高;喜欢反复问澄清问题;速度慢,简单任务五分钟才输出几千 token。建议把 effort level 调到最低。总结:Fable 5 是当前最强模型,适合最复杂的任务,但价格高昂,简单任务不推荐。
A 社有毒啊,新模型被禁止用来做模型相关开发。。。 鉴于近期模型能够加速自身的发展,我们已实施新的干预措施,以限制Claude在针对前沿大语言模型(LLM)开发的请求中的有效性(例如,构建预训练流程、分布式训练基础设施或机器学习加速器设计)。使用Claude开发竞争性模型已经违反了我们的服务条款,但通过我们的安全机制来执行此限制可以避免加速那些最愿意违反这些条款的实体。 与我们在网络安全、生物化学和蒸馏尝试方面的干预措施不同,这些安全机制不会对用户可见。Fable 5不会切换到其他模型。相反,这些安全机制将通过提示修改、引导向量或参数高效的微调(PEFT)等方法来限制效果。这些干预措施不会影响绝大多数的编码工作。我们估计它们将影响约0.03%的流量,集中在不到0.1%的组织中。当这些干预措施生效时,我们预计除了限制其在开发前沿LLM方面的能力外,对模型的行为影响很小。Claude仍将对用户的请求做出有帮助的回应。在该模型发布后,我们将继续提高检测方法的准确性。
译Anthropic(A社)对Claude新模型实施隐蔽安全干预,故意限制其在开发前沿LLM(包括构建预训练流程、分布式训练基础设施、ML加速器设计)方面的有效性。该干预通过提示修改、引导向量或参数高效微调(PEFT)实现,对用户不可见,仅影响约0.03%流量及不到0.1%组织。引用指出这意在削弱模型对前沿LLM研究的能力,对研究社区造成恶劣影响。
The fact that Anthropic may take away subscription access to Fable in two weeks is weird & discourages investing in learning about the model. Subscription use is how you figure out what the model is good for, since it allows experimentation. Only having paid access is limiting.
译Anthropic 可能在两周内取消 Fable 的订阅访问权限,这很奇怪,也阻碍了用户投入学习模型。 订阅使用是了解模型优势的方式,因为它允许实验。只有付费访问很受限。
再次命中 🫡
译小道消息称,Anthropic 将于今晚发布其最强 AI 模型 Mythos。主推文简短回应:“再次命中 🫡”
yay weekly reset, thanks!
译Anthropic重置了产品使用限制,并分享四条使用Fable模型的技巧:1)分配比此前模型更宏大、更具挑战性的任务;2)默认使用xhigh/high effort获最佳性能,medium适合快速交互;3)重写Skills和CLAUDE.mds,避免旧指令限制Fable的自主判断;4)从提供任务转向提供目标,描述完成状态和验证方式,让Fable自行规划路径(/loop与/goal命令专为此设计)。
Enjoy!
译ClaudeDevs 已为所有用户重置了 5 小时和每周的速率限制,并附上 "Enjoy Fable 5!"。主推文仅回应 "Enjoy!"。
Cool to see University of North Dakota (where I took a number of classes growing up) innovating and trying out offering A.I degrees: https://www.nytimes.com/2026/06/08/us/ai-college-degrees.html
译看到北达科他大学(我小时候在那里上过不少课)创新并尝试提供AI学位,很酷:https://www.nytimes.com/2026/06/08/us/ai-college-degrees.html
Fable 5 is state-of-the-art on nearly all tested benchmarks, with exceptional performance in software engineering, knowl...
我这次用 Step 3.7 Flash 测了一个真实 Coding Agent 任务: 把一组 Agent Memory 的运行痕迹,做成本地可检查的 Memory Inspector。 输入不是干净需求文档,是一个已有 Local Age...
In @GoogleAIStudio we are now making more than 1,200,000 apps a week (and growing) with more than 18,000,000 created sin...
congrats to the Anthropic team on Fable!!
Perplexity与哈佛商学院基于3个月真实数据,比较对话助手Search与通用Agent Computer对知识工作的影响。核心发现:①自主性:Computer平均执行26分钟(Search仅33秒),用户中断率相近(3.7% vs 3.4%),满意度不满降低55%;②效率:任务时间从269分钟降至36分钟(节省87%),成本降94%(约16倍),编程领域时间降92%成本降96%;③范围:Computer 59%查询超出主职业(Search 50%),76%为高阶认知(Search 55%),50%达创造层级(Search 26%)。用户角色从逐步指挥转向验收与迭代。
We published new research with Harvard on the shift from chat interfaces to autonomous agents like Computer. Over 3 mont...
关联讨论 1 条X:Perplexity (@perplexity_ai)开源项目 Text-To-Lottie 提供一套 Agent Skill 和本地预览工具,让 Codex/Claude Code/Cursor 等 Agent 生成标准 Bodymovin JSON(public/lottie.json),通过 Skottie 渲染引擎在浏览器中实时验收。安装命令:`npx skills add diffusionstudio/lottie`。技术特点:输出标准 Lottie JSON,使用 Skottie 渲染(非 lottie-web);基于 Vite 热重载实现自动刷新闭环;支持通过 Skottie Slots + controls.json 调整颜色、尺寸;Agent 可用 URL 参数 `?frame=60&paused=1` 精确定位帧截图。Prompt 指南包括:给具体素材、使用动效术语、pan/zoom/hold 模拟镜头、显式声明 Slots、锁定时间规格。适合单场景短时长 Motion Graphics、SVG→Lottie、数据可视化、透明背景矢量动效;不适合多镜头剪辑、复杂角色绑定、粒子、3D 或需 lottie-web 全特性的场景。
Introducing text-to-lottie: an open source skill and harness for generating production ready Lottie animations with code...
Claude 重置了所有用量。官方对使用 Fable 提出四条建议:分配比之前模型能处理的更大任务;默认使用 xhigh/high 努力程度以获得最佳性能,med 用于更快的交互式会话;重新调整技能和 CLAUDE.md,避免旧指令让 Fable 陷入陈旧模式;从提供任务转向提供目标,描述完成样貌并让 Fable 通过 /loop 和 /goal 自行寻找路径。
用户测试 Anthropic Fable 5,使用 xhigh 模式让其从零编写光追渲染器。生成的 PBR 与 BRDF 代码质量出色,但出现变量声明晚于引用的错误,导致代码直接报错。推测模型过度关注核心算法逻辑,忽略了变量声明等细节。此外,成本高昂,仅生成该网页就花费 2 美元。作者调侃 AI 超越人类还为时尚早——因为自己的工资负担不起。
Claude Fable 5 发布即位列 Artificial Analysis Intelligence Index 第一,得分 64.9,领先第二名的 GPT-5.5 约 5 分。该模型采用自适应推理(最大努力模式)并以 Opus 4.8 作为回退模型。在 AA-Omniscience 知识测试中得分 40,领先此前最高分的 Gemini 3.1 Pro Preview 7 分;HLE 得分 53%,领先 Opus 4.8 超 7 个百分点。约 9% 任务触发安全护栏并回退。定价 $10/$50 每百万输入/输出 token(Opus 4.8 的两倍),缓存读写 $12.50/$1;上下文窗口保持 1M token。通过 Pro、Max、Team 等计划可用至 6 月 22 日,之后需消耗积分。
关联讨论 37 条X:Kim (@kimmonismus)X:Rohan Paul (@rohanpaul_ai)X:Testing Catalog (@testingcatalog)X:邵猛 (@shao__meng)X:Yuchen Jin (@Yuchenj_UW)Nathan Lambert:Interconnects(RSS)TechCrunch:AI(RSS)Anthropic:Newsroom(网页)X:Anthropic (@AnthropicAI)Hacker News 热门(buzzing.cc 中文翻译)X:阿易 AI Notes (@AYi_AInotes)Bloomberg:Technology(RSS)公众号:卡尔的AI沃茨The Decoder:AI News(RSS)X:OpenRouter (@OpenRouter)X:Perplexity (@perplexity_ai)The Verge:AI(RSS)Simon Willison 博客X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Claude (@claudeai)X:Eric Zakariasson (@ericzakariasson)X:宝玉 (@dotey)X:Boris Cherny (@bcherny)X:Andrej Karpathy (@karpathy)Claude Code:GitHub Releases(RSS)X:歸藏 (@op7418)X:Artificial Analysis (@ArtificialAnlys)IT之家(RSS)公众号:数字生命卡兹克X:卡兹克 (@Khazix0918)X:小互 (@xiaohu)X:Berry Xia (@berryxia)MarkTechPost(RSS)Ars Technica:AI(RSS)Gary Marcus:The Road to AI We Can Trust(RSS)Tomer Tunguz 博客(VC 分析)Introducing Claude Fable 5: a Mythos-class model that we've made safe for general use. Its capabilities exceed those of ...
海外博主 Matthew Berman 对 Fable 5 进行了一周实战测评。结论是 Fable 5 价格高昂,不适合普通 Vibe Coding 场景,仅在专业领域、超长时任务中可能有所发挥。相比之下,Opus 和 GPT 等模型更可靠、更具性价比,建议普通用户优先选择 Opus 和 GPT。
http://x.com/i/article/2064479983104602112
Google 推出 Gemini 3.5 Live Translate 实时翻译模型,已进入公开预览阶段,通过 Gemini API 提供低延迟语音到语音翻译,覆盖 70+ 种语言、2000 种语言对,包括大量冷门小语种。开发者可将该能力集成到实时对话、客服、直播、跨国会议等场景中。主推文指出该发布被 Anthropic Fable 5 刷屏抢了风头,并提及阿里 Qwen 系列小语种模型的可比性。
Gemini 3.5 Live Translate is now in Public Preview via the Gemini API, delivering low-latency speech-to-speech translati...
关联讨论 9 条X:Google DeepMind (@GoogleDeepMind)X:Jeff Dean (@JeffDean)X:Google AI for Developers (@googleaidevs)X:Logan Kilpatrick (@OfficialLoganK)X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)X:Google AI (@GoogleAI)The Decoder:AI News(RSS)Ars Technica:AI(RSS)Fable 5 的这个"Included until June 22"是什么意思?订阅用户只在六月22号前才能免费体验一下么,后面要单独收费吗?
推文指出 Claude 产品线现已完整,所有模型均以艺术作品命名:Haiku(俳句)——极简短小,一瞬即永恒;Sonnet(十四行诗)——结构严谨,意境深远;Opus(拉丁语,特指分量最重的作品);Fable(寓言)——故事包裹深意,人人读得懂;Mythos(神话)——宏大叙事,世界观的底座。整条产品线通过艺术名称体现各模型定位。
Claude Fable 5 近日曝出三大争议:Token Plan 用户 6 月 22 日后无法使用 Fable,仅能 API 调用;安全护栏过严,禁问“线粒体是什么”,生物研究须申请 Mythos;禁止用于模型研发,称竞争对手用 Fable 改进自家模型违反条款。推文批评美国厂商一边鼓吹打通 Loop,一边阻止其他玩家进入,形成闭环。
just finished rerunning FC Diamond on my historical charts. none of the official tables/charts are capturing the degree ...
Anthropic发布Claude Fable 5与Mythos 5,输入$10/M、输出$50/M,5%高风险请求降级到Opus 4.8,药物设计加速10倍。ServiceNow发布语码转换ASR基准,覆盖4组语言对、7个ASR系统,Scribe V2、Gemini 3 Flash和AssemblyAI表现最稳。Salesforce从20,000个Agentforce企业客户总结:支持Agent处理3百万次对话,上线后运营是难点。
http://x.com/i/article/2064485562875260928
Wix VP @IShmool 推出的免费课程「Zero to Claude Code」现已支持简体中文,作者专门用中文官宣并感谢中文 AI 社区。该课程面向零基础学习者,讲解如何用 Claude Code 从零构建真实产品。已有 300 名中国学生参与学习。课程完全免费,访问 zero2claude.dev 即可开始。
zero2claude 正式推出简体中文版。 已有 300 名中国学生在学习用 Claude Code 从零开始构建真正的产品。 感谢 @shao__meng 和中国 AI 社区的支持 🇨🇳 免费课程,零基础也能上手。
Anthropic 发布 Claude Fable 5,这是经过安全处理的 Mythos 级模型,能力超越以往任何公开发布模型。它在软件工程、知识工作、科研和视觉等基准测试中几乎全线 SOTA,长任务越复杂领先越明显。在网络、生物化学、蒸馏等高风险领域,模型会自动回退至 Opus 4.8,平均每 20 次对话触发一次。同时,Anthropic 向少数可信的网络安全与关键基础设施团队开放完全版 Mythos 5,后续将扩大受信任访问。此举证明顶尖 AI 可在能力与安全之间同时达到极致。
Introducing Claude Fable 5: a Mythos-class model that we've made safe for general use. Its capabilities exceed those of ...
关联讨论 37 条X:Kim (@kimmonismus)X:Rohan Paul (@rohanpaul_ai)X:Testing Catalog (@testingcatalog)X:邵猛 (@shao__meng)X:Yuchen Jin (@Yuchenj_UW)Nathan Lambert:Interconnects(RSS)TechCrunch:AI(RSS)Anthropic:Newsroom(网页)X:Anthropic (@AnthropicAI)Hacker News 热门(buzzing.cc 中文翻译)X:阿易 AI Notes (@AYi_AInotes)Bloomberg:Technology(RSS)公众号:卡尔的AI沃茨The Decoder:AI News(RSS)X:OpenRouter (@OpenRouter)X:Perplexity (@perplexity_ai)The Verge:AI(RSS)Simon Willison 博客X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Claude (@claudeai)X:Eric Zakariasson (@ericzakariasson)X:宝玉 (@dotey)X:Boris Cherny (@bcherny)X:Andrej Karpathy (@karpathy)Claude Code:GitHub Releases(RSS)X:歸藏 (@op7418)X:Artificial Analysis (@ArtificialAnlys)IT之家(RSS)公众号:数字生命卡兹克X:卡兹克 (@Khazix0918)X:小互 (@xiaohu)X:Berry Xia (@berryxia)MarkTechPost(RSS)Ars Technica:AI(RSS)Gary Marcus:The Road to AI We Can Trust(RSS)Tomer Tunguz 博客(VC 分析)Cohere推出North Mini Code开源模型,总参数30B,活跃参数仅3B,采用Apache 2.0许可。该模型在Artificial Analysis Coding Index上跑出33.4分,与同量级模型竞争,专为智能体编程(agentic coding)优化,支持本地运行、自由修改和迭代。开发者首次能完全掌控coding agent,而非依赖云端黑盒。
Small: 30 billion parameters, 3B active. Efficient: Benchmarks to 33.4 on the Artificial Analysis Coding Index, competit...
Google 宣布 Gemini 模型已通过 Apple Foundation Models 框架及 Xcode 原生支持,向数百万 Apple 开发者开放。开发者可在共享 API 接口上切换本地与云端推理,构建智能体式应用并提升开发速度;Xcode 内还提供 Gemini 智能体编码辅助,加速多步骤开发任务。
Gemini models are now accessible to millions of Apple developers through Apple's Foundation Models framework and nativel...
Matthew Berman 一周实测 Fable(Mythos),认为这是真正的下一代模型,但存在明显怪癖。优点:Workflow 模式能瞬间拉起几百个 agent 并行全量代码审查,找出 bug 和边缘 case 的数量是 Claude/GPT 的一倍以上;自主性极强,敢于长时间自主完成超长时域任务。缺点:极度啰嗦、信息密度过高;喜欢反复问澄清问题;速度慢,简单任务五分钟才输出几千 token。建议把 effort level 调到最低。总结:Fable 5 是当前最强模型,适合最复杂的任务,但价格高昂,简单任务不推荐。
Anthropic(A社)对Claude新模型实施隐蔽安全干预,故意限制其在开发前沿LLM(包括构建预训练流程、分布式训练基础设施、ML加速器设计)方面的有效性。该干预通过提示修改、引导向量或参数高效微调(PEFT)实现,对用户不可见,仅影响约0.03%流量及不到0.1%组织。引用指出这意在削弱模型对前沿LLM研究的能力,对研究社区造成恶劣影响。
mythos will be bad ON PURPOSE on ai "frontier llm research" tasks, this is very very sad for the research community also...
小道消息:Anthropic 将于今晚发布其最强 AI 模型Mythos...
We've reset usage limits across our products! For those just starting to test Fable, here's four tips for using it more ...
We've reset 5-hour and weekly rate limits for all users. Enjoy Fable 5!