Anthropic发布Claude Fable 5与Mythos 5,输入$10/M、输出$50/M,5%高风险请求降级到Opus 4.8,药物设计加速10倍。ServiceNow发布语码转换ASR基准,覆盖4组语言对、7个ASR系统,Scribe V2、Gemini 3 Flash和AssemblyAI表现最稳。Salesforce从20,000个Agentforce企业客户总结:支持Agent处理3百万次对话,上线后运营是难点。
BestBlogs 早报 · 06-10
# Claude Fable 5 / 企业智能体 / 双语语音 Agent / RAG / AI 治理
【1】 ★ 精讲|Anthropic 发布新一代 Claude:Fable 5 与网络安全版 Mythos 5 Anthropic 将 Claude Fable 5 推向大众,并把同一底层模型以 Mythos 5 形式给可信网络安全伙伴使用。原文把能力提升、安全降级和价格放在一起:高风险请求平均少于 5% 会降级到 Opus 4.8,价格为每百万输入 10 美元、输出 50 美元,还列出 50-million-line 代码迁移、药物设计约 10 倍加速等案例。 来源:Anthropic News https://www.bestblogs.dev/article/11f30fed
【2】 ★ 精讲|语音智能体能否处理双语客户?前沿 ASR 在语码转换语音上的基准测试 ServiceNow AI 在 Hugging Face 发布语码转换 ASR 基准,直接切中语音 Agent 的真实入口问题:双语用户会在 HR 和 IT 服务场景中自然切换语言。它覆盖 4 组语言对、7 个 ASR 系统,并用 WER、SWER、AER 区分转写准确率和下游语义影响,结论是 Scribe V2、Gemini 3 Flash 与 AssemblyAI 在双语输入上最稳,更贴近生产。 来源:Hugging Face - Blog https://www.bestblogs.dev/article/4aec841d
【3】 ★ 精讲|Salesforce 从 20,000 个企业智能体部署中学到的经验 ByteByteGo 借 Salesforce Agentforce 的 20,000 个企业客户复盘生产级 Agent:支持 Agent 已处理 3 million 次对话,但真正难点是上线后运营。文章把传统软件的工作量分布反转成 AI Agent 90% 在上线后,并用 135,000 篇帮助文档、100K 到 2K tokens 的上下文裁剪说明反馈循环、KPI 和确定性流程为什么比继续堆 prompt 更关键。 来源:ByteByteGo Newsletter https://www.bestblogs.dev/article/d12e437d
【4】 如何更科学、方向可控的实现 Skill 的"自进化"? 本文深入解析 Trace2Skill、EvoSkill、SkillOpt 三篇里程碑式论文,对比归纳法、自验证与训练范式三种 Skill 自进化路径,探讨如何更科学、可控地实现 Agent Skill 的自动化迭代。 来源:阿里云开发者 https://www.bestblogs.dev/article/8fcfc162
【5】 生产环境中常见的 10 个 RAG 错误 本文指出了生产级 RAG 系统中十个常见陷阱,这些陷阱分布在解析、问题解析、检索和生成四个环节,并论证了大多数失败源于将文档和问题视为非结构化字符串而非结构化对象。 来源:Towards Data Science https://www.bestblogs.dev/article/37dc70a7
【6】 只给一份文档,Qwen3.7-Max 从 0 交付双端应用 本文详细介绍了通义实验室与 Efflora 团队基于 Qwen3.7-Max 模型,仅凭一份产品调研文档,在隔离环境中从零交付移动端和 Web 端两套可运行应用的实验过程与工程方法论。 来源:通义实验室 https://www.bestblogs.dev/article/8d85909c
【7】 Gemini 引导式学习:塞拉利昂随机对照试验结果 塞拉利昂的一项随机对照试验表明,Google Gemini 的引导式学习功能显著提升了数学学习效果,学生在八周内取得了相当于 2.5 年的学业进步。 来源:Google DeepMind News https://www.bestblogs.dev/article/a01d514e
【8】 4000 行代码撑起一个 Agent 框架?nanobot 架构深度解析 本文深度解析开源 Agent 框架 nanobot 的架构设计,分析其以 4000 行核心代码实现极简 ReAct 循环、Markdown 技能系统、文件系统记忆等关键决策的优势与局限,并提炼可迁移的架构模式。 来源:腾讯云开发者 https://www.bestblogs.dev/article/9a3cb912