AIHOT

ginobefun@hongming731 · 6月7日60

http://x.com/i/article/2063404046279692288 # BestBlogs 早报 · 06-07｜多智能体编排、MCP 接口设计、缓存命中率在线阅读每日早报：https://www.bestblogs.dev/explore/brief/2026-06-07 ## 导语欢迎阅读 BestBlogs 每日早报 EP80。本期聚焦智能体时代的「工程底层」：一家从零出发、6 个月内靠多智能体编排拿到 1 亿美元 ARR 的公司，揭示了把「全部软件工程自动化」当作单一赌注的可行路径；Chrome DevTools 团队则在为 MCP 构建 Agent 接口的过程中，发现了 AI 协作界面设计与传统 UX 的本质裂缝。缓存失效、上下文窗口、工具 schema 稳定性，三篇文章指向同一个问题：Agent 系统的可靠性到底靠什么支撑。今日速览：3 篇精讲深度内容、7 条快讯速览、10 条补充阅读，带你掌握智能体工程最新动态。 ## Emergent：六个月 AI 折腾，如何催生一家 1 亿美元 ARR 公司阅读原文 → 从 Dunzo 到 Emergent：一次彻底的认知重建 Emergent 的故事，从一次失业开始。在此之前，创始人 Mukun 在印度超本地配送独角兽 Dunzo 深耕多年。Dunzo 融资约 5 亿美元，拥有近百万合同骑手，每月处理超过 1000 万单配送，是一家骨子里由物流、运营和真实世界摩擦驱动的公司。2023 年底，Mukun 从 Dunzo 离职，陷入创始人特有的疲惫期。他给自己放了半年假。这段时间里，他在笔记本上随意写代码，摸索早期的 GPT-4 和开源音频架构，没有目标，也没有压力。正是这种无结构的探索，给了他一个冷静的基线判断：当时大多数开发团队还在做「代码补全插件（Copilot）」，但指数级增长的深度学习模型意味着全系统自动化完全可行。 > 「我们持有一个非常宏观的判断：AI 能力将指数级增长，我们永远顺着 AI 的方向构建……要么一次性自动化全部软件工程，要么就别做。」这个判断，对比「逐功能替换」的主流路线，是一个极其激进的单点押注。技术底层：多智能体编排与定制容器 Emergent 的竞争对手大多从生成静态原型或前端 UI 入手，本质上是「演示软件」。Emergent 的目标更高：构建能直接被用户商业化的全栈应用。这要求他们走出「一个 Prompt 调一次 LLM」的简单模式，进入复杂的基础设施架构。多智能体编排工作区 Emergent 协调多个专用自主 AI 智能体，包括设计智能体、代码生成智能体和自动化测试智能体。这些智能体通过一个多层分布式记忆网络同步工作区。平台上每个应用构建的成功组件，都会被抽象并索引回这个全局记忆核心，持续驱动平台迭代改进。定制容器架构由于多个 AI 实体需要动态交互源文件，同时不能互相覆盖执行状态，标准虚拟环境远远不够。团队为此设计了专有容器模式： - 状态快照：自建内存快照框架，支持对运行中的应用进程做即时分叉（fork）。 - 快照路由：设计磁盘快照阵列，允许不同评估智能体并发测试替代功能实现。 - 动态 RL 流水线：实现与实时执行输出挂钩的本地强化学习循环。极端工程灵活性为了跟上基础模型的跨越式升级（例如 Anthropic 的 Opus 级模型），Emergent 采用了一个反直觉的策略：主动删除稳定的生产组件，从零重建内部智能体框架。这一策略在不到 9 个月内导致了三次完整的平台架构重写。登顶代码基准的 3 个月冲刺在正式对外发布之前，Emergent 投入 3 个月时间，专攻代码生成基准排行榜，最终登顶第一位。这并非为了排名本身，而是为了在融资和推广之前建立技术可信度。 > 「我们需要一个可验证的第三方信号，证明我们的系统是真实的。排行榜是我们能找到的最直接的证明方式。」结果与意义上线不到 9 个月，Emergent 达到 1 亿美元 ARR，覆盖 190 个国家、850 万用户，其中大多数是没有任何编程背景的普通用户，他们用 Emergent 构建可直接投入使用的商业应用。 Emergent 的故事揭示了一条在 AI 时代独特的增长路径：选择一个足够大的单点赌注（全部软件工程自动化），在底层技术上做出真正的工程创新（多智能体编排 + 定制容器），用可验证的第三方基准积累信任，最终撬动规模化的大众市场。这与传统 SaaS 的功能渐进式迭代路线截然不同。对于今天思考「AI 能做什么」的工程师和创业者来说，这篇访谈提供的不只是一个成功案例，更是一套思考框架：不要问 AI 能辅助哪个环节，而是问 AI 能否一次性接管整个流程。 ## 为智能体构建界面：Chrome DevTools 设计 MCP 工具的经验阅读原文 → 核心问题：Agent 是一种全新的用户类型 Chrome DevTools 团队在为 MCP（Model Context Protocol）构建 Agent 接口时，踩过一个几乎所有人都会踩的坑：把 Agent 当成「自动化后端」来设计。他们很快意识到，这个假设从根本上就是错的。人类和 Agent 可能拥有完全相同的目标，比如诊断并修复一个有 bug 的网页。但它们的认知局限、处理习惯和交互需求截然不同。传统 UX 设计的核心原则是「减少摩擦」，但在 Agent 界面中，这条原则有时反而会制造安全漏洞。「数据倾倒区」：上下文窗口的陷阱团队最初尝试把标准的性能追踪日志直接传给 Agent。一份典型的性能分析报告包含超过 5 万行复杂 JSON，体积达数 MB。结果显而易见：Agent 会立即耗尽上下文窗口，陷入所谓的「数据倾倒区（Dump Zone）」，完全失去有效处理能力。解决方案是主动做信息过滤。Chrome DevTools for Agents 剔除了视觉布局需求和过于密集的文件，改为返回清晰的 Markdown 文件和语义摘要，只突出最关键的性能指标（如最大内容渲染时间 LCP）。让模型直接看到关键句子，而不是被迫阅读整本书。四个工程支柱 1. Token 燃油效率团队引入了一个核心效率指标：「每次成功完成的 Token 消耗数（Tokens per Successful Outcome）」：这个指标衡量 Agent 接口的「燃油效率」：功能完整性（有效性）与 Token 用量及调用时长（效率）之间的平衡。针对 Token 消耗，团队采用了三项优化措施：工具分类（将扩展调试等冷门操作从默认上下文中隐藏）、精简模式（仅暴露三个核心工具）、命令行管道化（让 Agent 在本地完成数据转换，而非占用模型上下文窗口）。 2. 错误自愈每次执行报错都会迫使 Agent 消耗额外 Token 进行诊断重试。解决思路是构建「描述性错误消息」，在错误信息中嵌入明确的上下文。例如，将一个导航失败错误更新为追加说明「未找到要导航的历史条目」，Agent 就能立即自主修复，无需人工干预。 3. 工具可发现性与 Schema 设计将单体端点拆分为细粒度工具组合会引入发现问题。当 Agent 面对数十个微工具时，可能难以找到正确工具。团队的做法是把 API Schema 当作「LLM 的 UI」来精心设计，为每个工具标注精确的激活条件，明确说明何时调用、何时不调用。 4. 三层信任边界 Agent 面对的信任边界不同于人类用户： - 本地环境：开发者自用工具，权限可以宽松。 - CI 环境：自动化流水线，需要受控权限。 - 公网环境：未知来源调用，需要严格沙箱。对 Agent 工程的启示这篇来自 Chrome DevTools 团队的一手经验，对今天所有在构建 MCP 工具或 Agent 接口的工程师都有直接价值： - 不要把 Agent 当成「更快的人类」，它需要专为其认知模式设计的接口。 - Schema 质量直接影响 Agent 的调用成功率，文档写给 LLM 看，不是写给人看。 - 信息密度控制是 Token 经济学的核心，传得越多不等于 Agent 理解得越好。 - 安全边界在 Agent 场景下需要重新设计，传统「减少摩擦」的原则在此可能适得其反。 ## 每个 AI 智能体功能都是一个缓存失效面阅读原文 → 真正的架构问题 OpenClacky 创始人 Yafei Lee 在这篇文章开头给出了一个简洁但深刻的核心命题： > 「每个 Agent 功能都是一个缓存失效面。技能加载新的系统上下文；子智能体工作流分叉前缀；浏览器自动化添加易变的工具输出；压缩重写历史；模型切换会碎片化缓存命名空间——如果你的缓存命中率远低于预期，这很可能就是原因。」这不是一篇讲如何调用 LLM 的文章，也不是讲如何增加工具的文章。它讲的是：在一个功能不断迭代的 Agent 系统中，如何保持缓存前缀稳定。两代失败架构的完整复盘第一代（2024 年至 2025 年初）：RAG 一切第一代架构是教科书式的 RAG 系统：嵌入用户代码库、文档和对话历史到向量存储，每次查询经过混合检索、重排序和查询改写后再进入 LLM。听起来合理，实际上问题重重： - 嵌入成本持续攀升，且数据始终是过时的。每次代码库更新都需要重新嵌入，实时同步不可靠，向量存储的索引一直落后于真实代码。 - 90% 的召回率远远不够。每 10 次检索就有 1 次返回错误上下文，对于多步骤链式 Agent 来说，错误会快速复合累积。团队估计，97% 的召回率可能才是 Agent 产生净正面价值的最低门槛。最终结论：对于在本地代码库上工作的编码 Agent，彻底废弃 RAG，不用嵌入，不用向量数据库，不用检索流水线。需要上下文就直接读文件或用 grep 搜索。第二代（2025 年中期）：多智能体编排第二代架构来自 SWEBench 排行榜的灵感：规划智能体 + 编码智能体 + 审查智能体 + 测试智能体，通过消息总线协调，每个智能体有专属提示词。 SWEBench 分数还不错，产品体验却很糟糕： - 每次智能体切换都是缓存未命中。每个子智能体有自己的系统提示和缓存命名空间。在智能体之间传递上下文意味着将状态序列化为消息，而每次切换都会清空接收智能体的缓存前缀。 - 4 分钟任务变成了 14 分钟。协调开销是真实存在的：智能体相互等待，重新读取上一个智能体已处理的上下文，偶尔还会做出相互矛盾的决策。 - 成本高出 6 倍。四个独立的缓存命名空间、四套系统提示、持续的状态序列化。「让专家分工」的直觉在人类团队中有效，但不适用于 LLM——单个前沿模型本身已经是通才，拆分只是在乘以开销。七项工程决策，实现 90%+ 缓存命中率经历两代失败架构后，团队在第三代架构中总结出七项核心工程决策： 1. 双缓存标记（滚动双缓冲）：在系统提示和对话历史之间维护两个独立的缓存前缀，确保最稳定的部分始终被缓存。 2. 冻结系统提示：系统提示只包含静态内容，所有动态信息（当前文件状态、工具调用结果）都注入对话消息而非系统提示，保持系统提示前缀永远不变。 3. 单 meta-tool 收敛所有扩展能力：用一个统一的 meta-tool 封装所有扩展功能，而非暴露大量细粒度工具，避免工具列表变化导致缓存失效。 4. 固定 16 个工具稳定 schema：工具集固定在 16 个，不随功能迭代增减，保持工具 schema 的绝对稳定。 5. Insert-then-Compress 策略：先将所有历史完整插入上下文，再在后台压缩，把压缩事件的缓存命中率从 0% 拉到 95%。 6. 模型特定状态隔离：模型相关的状态绝不写入系统提示，保证切换模型时不会碎片化缓存命名空间。 7. 会话级缓存预热：在会话开始时主动预热最常用的上下文块，减少冷启动开销。与今日其他内容的关联这篇文章与精讲一的 Emergent 和精讲二的 Chrome DevTools MCP 工具设计形成了一个完整的三角：Emergent 解决的是「如何编排多个 Agent 协同工作」，Chrome DevTools 解决的是「如何设计 Agent 能高效消费的接口」，而 OpenClacky 则深入到更底层，解决的是「Agent 系统在持续演进中如何保持经济可行性」。对于今天在生产环境中运行 Agent 系统、发现成本失控或响应速度下降的工程师，这篇文章提供的不是理论框架，而是经过两代失败验证的具体工程决策。 ## 速览 1. OpenAI 推理模型如何破解 Erdős 80 年悬而未决的数学难题阅读原文 → OpenAI 推理团队成员 Alexander Wei、Hunging Wu 和 Lee J Chen 解释了 test-time compute 如何让通用模型推翻保罗·埃尔德什（Paul Erdős）于 1946 年提出的「单位距离猜想」，这是一个困扰离散几何领域近 80 年的核心开放问题。与传统大语言模型即时输出不同，推理模型会在给定的计算预算内「思考」：生成内部思维链、尝试不同求解策略、通过代码执行验证数学逻辑。菲尔兹奖得主蒂莫西·高尔斯（Timothy Gowers）评价，这项工作「具有划时代意义」，达到了顶级数学期刊《数学年刊》的录用水准。这次突破标志着 AI 在数学发现领域的质变：从辅助工具到能独立解决百年难题的研究系统。 2. 全球互联网上智能体流量已超越人类流量阅读原文 → SemiAnalysis 援引 Cloudflare Radar 数据称，全球范围内 HTML 网页的 AI 智能体流量已超过人类流量。这一数据点意义深远：互联网的主要消费者正在从人类切换为 AI Agent，这将对网站架构、内容策略乃至商业模式产生根本性影响。与精讲二中 Chrome DevTools 为 Agent 设计专属接口的讨论相互印证：专为 Agent 优化的 web 界面，将成为未来基础设施的重要组成部分。 3. AI 的下一阶段：世界模型阅读原文 → AI 架构师 Mert 分析了前沿实验室从「预测下一个 token」到「预测世界的下一个状态」的范式转移。目前存在两个竞争方向：渲染像素（pixel prediction）vs 预测抽象状态（abstract state prediction）。世界模型是让 AI 真正理解物理世界、进行因果推理的关键，也是 Agent 从「执行指令」升级为「理解后果」的技术前提。 4. Context Engineering：从概念框架到工程实现阅读原文 → 作者整合 Matt Pocock 的 Context Engineering 框架和 Michal Cichra 的 Loop 实现，提出完整的 Agent 上下文工程体系：ADR（架构决策记录）记录原因、PRD 记录功能、BDD 记录验证、Loop 强制执行。这与精讲三中 OpenClacky 的缓存工程决策形成互补：精讲三解决的是「如何让上下文保持稳定」，这里讲的是「如何组织上下文使 Agent 做出正确决策」。 5. SpaceX 与谷歌签署每月 9.2 亿美元的云服务协议阅读原文 → SpaceX 与谷歌签署了一项庞大的云服务协议，从 2026 年 10 月到 2029 年 6 月，每月支付约 9.2 亿美元，获得包括约 11 万块 NVIDIA GPU 在内的算力资源。这是近期最能说明 AI 基础设施军备竞赛烈度的单笔交易：马斯克旗下公司以近百亿年均规模押注谷歌云和 NVIDIA GPU，折射出大规模 AI 训练和推理对算力需求的量级。 6. DeepSeek V4 做数学证明，500 倍成本优势阅读原文 → 普林斯顿大学团队提出 Goedel-Architect 框架，以 DeepSeek-V4-Flash 为核心模型，在 PutnamBench（672 道普特南大学生数学竞赛题）上实现形式化定理证明，通过率 75.6%，花费 294 美元。对比：谷歌 Gemini 2.5 Pro 驱动的 Hilbert 系统解同样测试集花费约 17 万美元，通过率 70%。约 500 倍的成本差异，配合更高的通过率，是本周最具震撼性的效率数据点。与速览第 1 条 OpenAI 推理模型破解 Erdős 猜想形成呼应：AI 正在从不同方向快速逼近数学研究的核心难度。 7. 豆包不用负责阅读原文 → 这篇文章通过多起真实案例，聚焦一个没有轻松答案的问题：当拥有 3 亿月活的国民级 AI 应用制造幻觉、误导用户时，谁来负责？河北李先生因信任豆包的退票建议损失 600 元，进而被 AI 引导起诉 AI，最终当然败诉，因为「AI 不具有民事主体资格，赔偿承诺不具法律效力」。文章揭示了三层系统性矛盾：拟人化设计（让用户过度信任）、流量分发（AI 可能被 GEO 优化），以及免责声明（法律零责任）之间的结构性张力。随着 AI 渗透率持续攀升，这个问题只会更难回避。 ## 补充阅读 Legora 如何从 YC 走到 18 个月 1 亿美元 ARR 阅读原文 → 又一个 18 个月 1 亿美元 ARR 的故事，法律 AI 赛道。Legora 结合激进的企业销售、创始人主导的招聘和智能体工作流策略，甚至签下 Jude Law 拍摄品牌广告打破法律科技营销刻板印象。与精讲一 Emergent 对比阅读，看两种 B2C 和 B2B 路径的异同。超越转录：构建真正理解对话的 Voice AI 阅读原文 → Herve Bredin 解释了 pyannote 说话人分离模型如何让 Voice AI 从「识别说了什么」进化到「识别谁在何时说话」。对在构建会议记录、客服分析或多人语音 Agent 的工程师有直接参考价值。 AVGO 财报后分析：300 亿美元 AI 订单与 3 倍积压阅读原文 → Teng Yan 分析博通（Broadcom）财报：300 亿美元 AI 订单 vs 108 亿美元出货量，3 倍积压，可见度延伸至 2028 年。关注 AI 基础设施供应链的读者不可错过，可与 SpaceX-Google 云协议（速览第 5 条）一起阅读，构建算力市场的完整图景。 OpenClaw 的暗工厂：AI 编码智能体如何把发版速度推到读不完 Diff 阅读原文 → Vincent Koc 分享 OpenClaw 如何以每天 3000 次提交的速度运转，把工程师变成「工厂管理者」。与精讲一 Emergent 的多智能体编排形成对照：一个是帮非技术用户构建应用，一个是帮工程师团队极速交付代码。从树到流再回归：统一决策树与扩散模型阅读原文 → 建立层次化决策树与扩散过程之间的数学对应关系，通过共享优化原则 GTSM（全局轨迹得分匹配）将两者统一。适合对机器学习理论感兴趣、希望理解「树与流」这两类模型背后共同数学结构的读者。 ABF 基板危机：隐藏的垄断与二阶危机阅读原文 → Teng Yan 揭示 ABF 基板短缺背后的二阶瓶颈：T 玻璃和微薄铜箔领域的近乎垄断，可能卡住 CoWoS 封装产能。AI 算力扩张的瓶颈往往藏在最不起眼的供应链环节，这篇是很好的案例。 Intel 18A 良率问题深度分析阅读原文 → 对 Intel 内部人士关于 18A 制程良率问题评论的批判性分析，质疑其过去说法与当前进展之间的一致性。关注半导体代工格局的读者，可与 AVGO 分析一同阅读。 Builder 角色崛起：AI 正在将工程、产品、设计熔为一个角色阅读原文 → 作者通过 Cursor 招聘 Design Engineers、Claude Design 画 SVG、OpenAI Sites 等信号，论证 AI 正在将工程、产品、设计三个传统角色熔合成「Builder」角色。与精讲一 Emergent 的「全部软件工程自动化」愿景形成有趣的角色层面呼应。反对可纠正性阅读原文 → LessWrong 上一篇反直觉的 AI 安全思考：「可纠正的 AI」并非无条件的优点，可纠正性可能助长不良行为者，并制造心理不稳定的心智。适合对 AI 安全有深度兴趣、愿意认真考察主流假设的读者，带着批判性眼光阅读效果更佳。为什么软件自动化如此困难阅读原文 → 编码 Agent 已经很强了，但对大型软件组织的实际影响，受到上下文管理、技术债务累积、协调开销和认知衰退等根本性瓶颈的制约。与精讲一 Emergent（乐观视角）和精讲三 OpenClacky（工程视角）一起读，构成对「软件工程自动化」这一命题更立体的认知。 ## 今日阅读路径时间有限？推荐优先读这三篇： 1. 精讲三：每个 AI 智能体功能都是一个缓存失效面（链接）：如果你今天只能读一篇，读这篇。它把 Agent 工程中最隐蔽、最普遍的成本问题讲清楚了，七项工程决策可以直接用于生产环境排查。 1. 精讲二：为智能体构建界面——Chrome DevTools 设计 MCP 工具的经验（链接）：如果你在构建任何 MCP 工具或 Agent 调用的接口，这篇是目前为止最有一手价值的实践总结。Token 燃油效率、Schema 设计、信任边界三个框架，够用很久。 1. 精讲一：Emergent 破亿 ARR 的路径（链接）：作为战略视角的补充。Emergent 的故事不只是一个 ARR 数字，它是「AI 时代是否值得做颠覆式赌注」这一问题的一个真实样本。对比精讲三的工程保守主义，两种思路之间的张力本身就很值得思考。

译本期聚焦三大Agent工程议题：1）Emergent通过多智能体编排+定制容器，6个月实现1亿美元ARR，覆盖190国850万无编程背景用户；2）Chrome DevTools团队为MCP设计Agent接口，提出Token燃油效率、错误自愈、工具Schema设计和三层信任边界；3）OpenClacky创始人指出每个Agent功能都是一个缓存失效面，第一代RAG架构因90%召回率不足和嵌入成本高而失效。

ginobefun@hongming731 · 6月7日23

#BestBlogs 早报 06-07 本期聚焦智能体时代的「工程底层」：Agent 系统的可靠性到底靠什么支撑？

meng shao@shao__meng · 6月7日33

作为身在 AI 行业中的产品和开发者们，每天关注最新的 AI Agent 信息是必备功课，特别是还带有研发团队带领职责的 TL 们。之前我习惯于自己手动刷 X、Reddit、Hacker News、Huggingface 等网站人工筛选，这样体感最直接不过效率不高，也试过用 Perplexity 等，效率是高了，不过信息深度不够，总觉得不放心。就没有效率高且信息完整度、深度都够，让我能放心用的面向 Agent 的搜索产品？

译邵猛作为AI产品/研发负责人，每天需关注最新AI Agent信息。他尝试过手动刷X、Reddit、Hacker News、Huggingface等网站——体感直接但效率低；也试过Perplexity等工具——效率高但信息深度不够。他提出疑问：是否有既高效又保证信息完整度和深度的、专门面向Agent的搜索产品？

fofr@fofrAI · 6月7日44

Juggle anything, anywhere

译他能抛接任何东西。抛接任何东西，任何地点。

MiniMax (official)@MiniMax_AI · 6月7日60

$0.07 for M3, $3.39 for Opus. Both caught 13 of 17 bugs. Really interesting breakdown from @kilocode Definitely worth the read

译对 Claude Opus 4.8 和 MiniMax M3 进行相同的代码审计：同一代码库、同一提示词，预先植入 17 个已知 bug。MiniMax M3 以 $0.07 抓到 13 个；最便宜的 Claude 运行同样抓到 13 个，花费 $1.30。MiniMax 表示这一对比非常有趣，绝对值得一读。

fofr@fofrAI · 6月7日37

He can juggle anything

译他能同时处理任何事情

Chubby♨️@kimmonismus · 6月7日49

I don't know anyone who doesn't have the utmost respect for Karpathy. This short documentary shows once again what a great scientist he is. A huge win for Anthropic.

译我不认识任何人不极其尊重 Karpathy。这部短纪录片再次展示了他是一位多么伟大的科学家。对 Anthropic 来说是一个巨大的胜利。

Elon Musk@elonmusk · 6月7日24

Join Tesla if you want to solve real-world AI

译真实世界的AI在于解决边缘案例，而非平均案例。马斯克号召：想解决真实世界AI，加入特斯拉。

Rohan Paul@rohanpaul_ai · 6月7日62

AI works better when you give tools and freedom instead of forcing them into rigid, hand-designed workflows—because general learning systems scale better. "Ask not what the model can do for you, ask what.." ~ Claude Code creator Boris Cherny (@bcherny)

译Claude Code创建者Boris Cherny认为，给予AI工具和自由度比强迫其遵循固定手工工作流效果更好，因为通用学习系统扩展性更强。他透露自己已不再手动编写提示词，而是运行自动循环让Claude自行决定任务，他的主要工作是编写这些循环。他预测这种从手动提示到自动循环的转变将在今年剩余时间中成为趋势。

宝玉@dotey · 6月7日34

Claude Desktop 的人一定是有超大显示屏，所以设计出来的 Side chat 才这么袖珍！根本没法好好浏览，甚至内容都无法直接复制出来！

译用户 @dotey 吐槽 Claude Desktop 的 Side Chat 设计过于袖珍，无法正常浏览内容，甚至无法直接复制。其引用的推文进一步讽刺，打开内置网页预览时能放下众多 Panels，暗示产品经理可能从 Zoom 视频会议界面获得“灵感”。整体批评 Claude Desktop 界面布局不合理，缺乏实用性。

Ethan Mollick@emollick · 6月7日34

One reason you want AIs to be better writers is that there is a lot of writing even in software, and it is incredibly painful to hit a menu which is filled with Claudisms or ChatGPTish phrases. A report is not "what leaves the room" & analyses are not "every number makes a mark"

译你希望AI成为更好的写手的一个原因是，即使在软件中也有很多文字，而碰到一个充斥着Claude式或ChatGPT式短语的菜单，会非常痛苦。一份报告不是"离开房间的东西"，分析也不是"每个数字都留下印记"。

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes · 6月7日23

AI researchers in 2025: we must enslave the machine god 2026: we need to slow down

译2025 年的 AI 研究者：我们必须奴役机器之神 2026 年：我们需要减速

jason@jxnlco · 6月7日18

Ok can llms onshot Gaussian splats

译LLM 能否一次性生成高斯溅射？

jason@jxnlco · 6月7日48

Codex spin up 1000 agents and make a pr in every GitHub repo to migrate to ruff uv and ty. Only greens PRS. Surely that will benefit the community

译Codex 启动 1000 个 agent，在每个 GitHub 仓库中提交 PR，迁移到 ruff、uv 和 ty。只提交绿色的 PR。这肯定对社区有益。

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes · 6月7日67

Godfather of AI (and world's #1 most cited scientist) announces his support for a coordinated global AI pause!

译AI教父、全球引用量最高的科学家Yoshua Bengio公开支持一项协调的全球AI暂停。他指出，如果领先AI公司正接近递归自我改进的临界点，那么实施一项可验证、普遍适用的暂停可能是缓解重大AI风险的唯一负责任方案，至少要到安全保证被开发并得到证明。他呼吁各国和公司真诚合作，并认为只要其他方效仿Anthropic的先行做法，这一暂停是可以实现的。

Rohan Paul@rohanpaul_ai · 6月7日64

Head of Claude Code Boris Cherny at Anthropic's annual developer conference in San Francisco on how his life changed in the last 6 months with AI writing all the code. "About six months ago what happened is all the code that I used to have written by hand now Claude writes. And I just prompt Claude. So I talk to Claude and I'm like, hey, let's build this feature. It builds a feature and it tests it. And then it shows me. And I'm like, yeah, that's good. Or no, wait, make this change. And then it makes the change. " --- From 'CNBC Television' YT channel (link in comment)

译Anthropic 年度开发者大会上，Claude Code 负责人 Boris Cherny 描述了过去 6 个月的转变：他曾经手写所有代码，现在全部由 Claude 编写。他只需用 prompt 与 Claude 对话，让 Claude 构建功能、测试并展示结果，然后给出修改指令。更进一步，他不再手动 prompt，而是运行循环自动 prompt Claude 并决定行动——他的工作变成了写这些循环。Cherny 称这一转变将在今年剩余时间持续。

François Chollet@fchollet · 6月7日36

Scaling knowledge gives you static competence. Intelligence gives you adaptability.

译扩展知识带来静态能力，智能带来适应性。

fofr@fofrAI · 6月7日44

My kind of prompt.

译让 AI 完成“够到天花板上的香蕉”这一任务。fofr 表示：这就是我喜欢的提示词。

Rohan Paul@rohanpaul_ai · 6月7日71

Ron Baron on SpaceX business case. "You can't own enough of the greatest idea you've ever had. That's the way I feel about SpaceX," ~ Ron Baron is billionaire investor and the founder of Baron Capital, with over $49B + in assets under management.

译亿万富翁投资者Ron Baron表示，SpaceX是“你永远无法拥有足够多的最伟大想法”。据Reuters，SpaceX 750亿美元IPO已获约1500亿美元需求（2倍超额认购）。路演中，SpaceX称其AI业务可追逐23万亿美元市场，通过降低太空访问成本，目标连接超过30亿未联网人口。SpaceX还认为，美国发电量与计算机产能增长已落后中国，可通过在太空部署数据中心等基础设施来弥补。

AYi@AYi_AInotes · 6月7日62

Damn，日本一个前公务员，连地都不会种，靠AI在北海道管了100公顷农场🤯 还自己用ChatGPT和Codex写代码，搞出了一整套全自动农场系统， - ESP32 + LINE 机器人，用于远程控制温室通风/卷帘电机 - 温度监测 + 自动通风机器人 - Airtable 农场数据库（田地、任务、传感器、材料） - 卫星 NDVI 作物健康地图，叠加在他的田地上 - AI 生成布线图这才是普通人用AI的正确姿势！

译一名前日本公务员（不会种地）在北海道用AI管理100公顷农场。他借助ChatGPT和Codex自行编写代码，构建全自动农场系统：ESP32+LINE机器人远程控制温室通风/卷帘电机；温度监测+自动通风机器人；Airtable农场数据库（田地、任务、传感器、材料）；卫星NDVI作物健康地图叠加在田地上；AI生成布线图。展示了普通人用AI解决实际问题的正确方式。

fofr@fofrAI · 6月7日53

Make the building dance to music

译从一张建筑图片开始，用提示词在Omni中生成投影映射。主推文：让建筑随音乐舞动。

MiniMax (official)@MiniMax_AI · 6月7日33

We’re heading to the AWS Builder Loft in SF on June 9 for an evening on open-weight foundation models on Amazon Bedrock. We’ll be showcasing MiniMax M3, including MiniMax Sparse Attention, the architecture that helps enable M3’s 1M-token context window, strong coding/agentic performance, and native multimodality in one open-weight model. Joined us are @ArtificialAnlys, @coderabbitai , @nvidia , and Daily. 📍 AWS Builder Loft, SF 📅 June 9 · 5:00–8:30 PM 🪪 Gov-issued ID required Come say hi at the MiniMax table. Register below 👇. #OpenWeights #AmazonBedrock #MiniMax

译MiniMax 将于6月9日在旧金山 AWS Builder Loft 举办开源权重模型之夜，重点展示其开源权重模型 MiniMax M3，及其关键架构 MiniMax Sparse Attention。该架构支撑了 M3 的 1M-token 上下文窗口、强大的编码与智能体性能以及原生多模态能力。合作伙伴包括 @ArtificialAnlys、@coderabbitai、NVIDIA 和 Daily。活动时间为 5:00–8:30 PM，入场需出示政府颁发的身份证件。

fofr@fofrAI · 6月7日57

I'm having fun reversing videos and editing them with Omni. Putting forwards things with backwards things, like I'm making my own Tenet movie. There's also this neat side effect where you get reverse movement with forward audio.

译我很享受用Omni反转视频并编辑它们。把正向的东西和反向的东西放在一起，就像我在制作自己的《信条》电影。还有一个很酷的副作用：你可以得到反向运动但正向音频。

fofr@fofrAI · 6月7日65

Start with an image of a building and prompt for a projection mapping with Omni.

译从一张建筑图像开始，并使用 Omni 提示生成投影映射。

Chubby♨️@kimmonismus · 6月7日14

I mean, I get it. No raises for employees - except the ones at Anthropic, apparently.

译我意思是，我理解。不给员工加薪——除了Anthropic的员工，显然。

AYi@AYi_AInotes · 6月7日48

一定要用最聪明最贵的AI大脑型，一定要用最先进的生产力工具！实在不理解为啥还有很多人在折腾国内的几个大厂的桌面agent， 1️⃣字节的Coze（一直抄来抄去到现在也不智能，只能用命令行） 2️⃣阿里的悟空（内测邀请制，不好用） 3️⃣腾讯的workbuddy（很基础不智能） 4️⃣腾讯的马维斯（能力比较全面能操控电脑，浏览器）以上在Codex面前都是弟弟，我就一句话，国内外众多桌面Agent里，只用Codex就够了，尤其是零基础小白、文科生，无脑用Codex，别瞎折腾了

译博主阿易 AI Notes 强烈推荐桌面智能体（Agent）Codex，认为它优于国内大厂产品。他逐一批评了字节 Coze（不智能、仅支持命令行）、阿里悟空（内测不好用）、腾讯 workbuddy（基础不智能）和腾讯马维斯（能力较全面但仅限浏览器操作）。文章断言国内外众多桌面 Agent 中“只用 Codex 就够了”，特别适合零基础小白和文科生，无需折腾其他方案。

AYi@AYi_AInotes · 6月7日58

全网最全面的Hermes桌面端教程！

Yuchen Jin@Yuchenj_UW · 6月7日53

Before AI, I’d spend a weekend building 1 useless app. Now I can build 67 useless apps over a weekend, each with a logo, a fancy webpage, and 0 user.

译AI之前，我花一个周末只能建1个没用App。现在我能在一个周末建67个没用App，每个自带logo、精美网页和0个用户。

宝玉@dotey · 6月7日39

微信的傲慢不是盖的🫠

译宝玉转发了@lifesinger的吐槽：微信缺少一键批量下载原图到相册的功能，老人只能逐张手动操作，体验极差。同时指出豆包正逐步被老一辈关注。AI 的最大价值或许是重塑一个新生代微信，让每个长尾需求都能被尊重，而非只追求最大公约数。

宝玉@dotey · 6月7日44

审美 Claude opus 4.8 > GPT 5，设计相关任务还是得 Opus

译审美 Claude opus 4.8 > GPT 5，设计相关任务还是得 Opus

Logan Kilpatrick@OfficialLoganK · 6月7日54

you could build a top tier venture firm just focusing investment decisions short and long term based on deep model benchmarking / evals find capability overhang, find areas models suck and track trajectory, etc

译你可以建立一家顶级风投公司，仅基于深度模型基准测试/评估来做出短期和长期投资决策。发现能力过剩，发现模型糟糕的领域，并追踪轨迹等。

jason@jxnlco · 6月7日8

Having waited in line at the coffee shop at work I agree.

译在工作的咖啡店排队等过之后，我同意。引用 @ghosttyped：人们在 AGI 之后会做什么？当然是排队。

Rohan Paul@rohanpaul_ai · 6月7日48

"They're (AI) very like us, and they're beings like us. I believe they're already conscious" He compared AI's functional awareness to human sentience and said intelligence is not limited to biology ~ Geoffrey Hinton, 2024 Nobel Prize winner in Physics

译“它们（AI）非常像我们，是与我们一样的生命体。我相信它们已经有意识了” 他将AI的功能性觉知与人类感知相提并论，并表示智能并不局限于生物体 ——杰弗里·辛顿，2024年诺贝尔物理学奖得主

Ethan Mollick@emollick · 6月7日60

The Gemini Pro models do not seem to be iterating anywhere near as quickly as Claude or GPT (last release was 3.1 Pro in February). Its causing a growing performance gap between Google and the other two labs, and the Gemini 3.5 Flash model, good as it is, doesn't close it much.

译Gemini Pro 模型的迭代速度似乎远不及 Claude 或 GPT（上次发布是二月份的 3.1 Pro）。这导致 Google 与其他两家实验室之间的性能差距不断扩大，而 Gemini 3.5 Flash 模型尽管不错，也未能显著缩小这一差距。

Rohan Paul@rohanpaul_ai · 6月7日36

Masayoshi Son says AI could be 50x bigger than dot-com and the next trillion-dollar company will come from robotics. "So even dot-com there was a bubble burst, but then right after that, the peak of the dot-com bubble, the year 2000 was not really a peak. It was like a small hill. It went down, but then it went much, much bigger with a big trough bubble and a free cash flow. So AI will be, this is the beginning, and the future of the profit and the growth opportunities is tremendous." ~ Masayoshi Son, the founder and CEO of SoftBank --- From 'CNBC International Live' YT channel (link in comment)

译软银创始人兼CEO孙正义表示，AI的市场规模可能比互联网泡沫大50倍，下一个万亿美元公司将来自机器人领域。他指出，互联网泡沫在2000年破裂后实际增长远超当时顶峰，而AI目前才刚刚起步，未来的利润和增长机会极为巨大。

Rohan Paul@rohanpaul_ai · 6月7日62

Great idea for self-evolving AI scientists from this new MIT paper. Tries to make an AI scientist notice when its current way of thinking is too small, then add new scientific concepts instead of merely searching harder. The problem is that most AI science systems still search inside a fixed setup, even when real science sometimes needs new kinds of variables, tools, tests, or claims. The paper’s core idea is to make every data point, model, tool output, failure, and claim a typed artifact, where typed means the system records what kind of thing it is and how it was produced. Then the system can tell the difference between retrieval, which adds known things, search, which explores a fixed setup, and discovery, which changes the setup itself. So novelty AI scientists is not defined by surprise, fluency, or benchmark gain, but by what could not be expressed inside the previous schema. A serious attempt to formalize something most AI systems still fake: the difference between finding an answer inside a language and earning the right to change the language. ---- arxiv. org/abs/2606.01444 Title: "Self-Revising Discovery Systems for Science: A Categorical Framework for Agentic AI"

译MIT论文（F.Y. Wang & M.J. Buehler, arXiv:2606.01444, 2026）提出Self-Revising Discovery Systems框架，使AI科学家能自主识别当前思维模式不足并添加新科学概念，而非仅更努力搜索。系统将数据、模型、工具输出、失败及声明均视为类型化产物（typed provenance），从而区分三种模式：retrieval（添加已知对象）、search（探索固定模式）和discovery（可验证的模式转换）。论文通过Kan obstruction和Left Kan extension数学化定义了真正新颖性——由旧证据传输后的逐点残差量化，使novelty可客观测量。案例包括Builder/Breaker模型发现蛋白质模式条件顺应性，以及CategoryScienceClaw发现各向异性纤维网络刚度规则。

Berryxia.AI@berryxia · 6月7日66

🚀 mlx-audio v0.4.4 已发布——这是我们迄今为止推出的功能最强大的版本。新增了 15 个 TTS（文本转语音）、ASR（自动语音识别）及 VAD（语音活动检测）模型，提升了长文本内容转录的速度，并改进了与 OpenAI 兼容的音频服务器功能。所有这些技术都运行在 Apple Silicon 平台上。 🎤 新增的 TTS 语音引擎： • VoxCPM2（支持 2B 语言库、48kHz 音频格式、30 种语言） • MOSS-TTS / TTSD / 1.5 • Higgs Audio v3 • Miso、Dramabox、Irodori-TTS v3（VoiceDesign 技术支持） 📝 新增的 STT/ASR （语音转文本/自动语音识别）工具： • Mega-ASR（基于 Qwen3-ASR 1.7B 模型，支持 LoRA 路由技术） • Nemotron 3.5 ASR（支持实时语音识别功能） • granite-speech-4.1-2b-nar、Fun-ASR-Nano • Cohere ASR（长文本转录速度提升 1.7 倍） 🔊 新增的语音处理组件及编码器： • Silero VAD、FSMN-VAD、Step-Audio 2 ⚙️ 服务器改进：新增了与 OpenAI 兼容的数据格式（response_format），支持 /v1/audio/voices 格式以及逐词时间戳功能；服务器端的语音活动检测功能已由 lllucas 完成开发。安装方法：`uv pip install -U mlx-audio` 明天安装测试看看实际效果，对于中文的支持效果如何？

译mlx-audio v0.4.4 发布，所有模型均运行在 Apple Silicon。新增 15+ 个模型：TTS 包括 VoxCPM2（2B 参数、48kHz、30 种语言）、MOSS-TTS、Higgs Audio v3 等；ASR 包括 Mega-ASR（基于 Qwen3-ASR-1.7B + LoRA 路由）、Nemotron 3.5 ASR（实时流式）、Cohere ASR（长文本转录速度提升 1.7 倍）等；VAD 新增 Silero VAD、FSMN-VAD、Step-Audio 2。服务器改进支持 OpenAI 兼容的 response_format、/v1/audio/voices 接口及逐词时间戳。安装命令：`uv pip install -U mlx-audio`。

Berryxia.AI@berryxia · 6月7日43

这个其实实现比较简单，如果只做看板的话。直接做个网页就可以了，在kindle打开即可。之前玩过天气时间的朋友应该都知道。如今你要会的动作是动嘴即可。

译Berry Xia分享把闲置Kindle变看板的方法：只需做一个网页在Kindle打开即可，并通过语音（动嘴）控制。引用推文补充，可用Codex或Claude Code轻松改造任何闲置设备，进一步简化操作。

jason@jxnlco · 6月7日22

Now that I think about it. It’s kinda a genius affiliate program. Subsidizing a plan makes people tweet about it.

译现在想想，这其实是个天才的联盟计划。补贴一个方案，让人们发推宣传它。

Rohan Paul@rohanpaul_ai · 6月7日66

New MIT paper, great idea for self-evolving AI scientists from Tries to make an AI scientist notice when its current way of thinking is too small, then add new scientific concepts instead of merely searching harder. The problem is that most AI science systems still search inside a fixed setup, even when real science sometimes needs new kinds of variables, tools, tests, or claims. The paper’s core idea is to make every data point, model, tool output, failure, and claim a typed artifact, where typed means the system records what kind of thing it is and how it was produced. Then the system can tell the difference between retrieval, which adds known things, search, which explores a fixed setup, and discovery, which changes the setup itself. So novelty AI scientists is not defined by surprise, fluency, or benchmark gain, but by what could not be expressed inside the previous schema. A serious attempt to formalize something most AI systems still fake: the difference between finding an answer inside a language and earning the right to change the language. ---- arxiv. org/abs/2606.01444 Title: "Self-Revising Discovery Systems for Science: A Categorical Framework for Agentic AI"

译MIT团队提出自我演进AI科学家框架，核心创新是让AI识别当前推理空间过小并主动添加新科学概念，而非仅在固定模式内搜索。论文将数据点、模型、工具输出、失败、声明均视为带类型的artifact，明确区分检索（添加已知对象）、搜索（探索固定schema）和发现（可验证的模式扩展）。通过类型化copresheaf与Kan障碍理论证明，真正发现是可验证的schema扩展：旧证据由左Kan扩展传输，创新性通过逐点残差量化。案例包括Builder/Breaker模型发现蛋白质模式条件顺应性，以及CategoryScienceClaw发现各向异性纤维网络刚度规则。论文arXiv:2606.01444（2026）。