向阳乔木@vista8 · 5月26日68只安装Skill还不够,为更好的触发和应用,需把Skill写入Agent . md
安装和设置提示词:
安装更新这个 https://github.com/tw93/Waza,并写入Agent说明中,以后各种开发设计优先用这套skill
译推文指出,仅安装Waza技能集不够,需将其配置写入Agent.md文件,以便AI智能体更好地触发和应用。Waza是一个将工程习惯转化为技能的集合,近期吸收了大量真实项目经验,现已适用于Mac原生应用、CLI工具、Rust及Web开发。它支持Claude Code、Codex、Cursor和Pi作为智能体运行时,包含25个反模式,具备破坏性命令安全防护,并将获取内容视为不信任数据。其特点为8个技能、无框架、无遥测。安装更新可访问其GitHub仓库。
karminski-牙医@karminski3 · 5月26日67大模型写代码比说话还快是什么体验?
智谱刚出了一个 GLM-5.1-highspeed 版本, 赶紧要了个内测给大家做点有趣的 APP.
我测了一下这个模型反应速度用来写代码的话, 人类打字甚至都跟不上它, 于是我干脆接了个语音转文本的服务直接让我言出法随操作它写代码.
大家能看到基本是我说完3s左右它就修改完毕了, 这之间发生了语音转文本(第三方服务), 模型判断是否任务可以并发, 模型 prefill, 模型使用 tool call 修改代码段. iframe 重新渲染. 这些全都发生在 3s 这么短的时间内. 直接体验拉满.
这个模型直接量变引起了质变, 一些之前不敢想象的交互体验现在都可以做了.
所以如果你想使用这个模型构建一些极具竞争力的项目, 不妨去申请试试, 目前这个模型正在向部分企业用户提供中.
#GLM #GLM51highspeed #智谱AI
译智谱发布了推理速度极快的GLM-5.1-highspeed版本。测试者发现其生成代码的速度已超过人类打字速度,因此构建了一个语音转文本的编程交互场景。从用户说完语音指令到代码修改完成、页面渲染,整个链路(包括语音识别、模型判断并发与prefill、tool call修改代码)耗时约3秒。这种量级的速度提升带来了全新的实时交互可能性。该模型目前正向部分企业用户提供内测。
ginobefun@hongming731 · 5月26日65Follow Builders, Not Influencers~
如果你喜欢这个理念,那你一定会喜欢 http://BestBlogs.dev 😊
译推文倡导关注AI领域的实际构建者(Builder)而非单纯的意见领袖(Influencer)。核心内容为一份推荐关注名单,涵盖了来自OpenAI、Anthropic、Google等主要AI公司,以及Replit、Vercel、Cursor等AI工具/产品线的关键人物,包括工程师、产品负责人、哲学家及CEO。引用内容强调此名单的价值(含金量)正在持续上升。
ginobefun@hongming731 · 5月26日62http://x.com/i/article/2059070654180421632
# BestBlogs 早报 · 05-26|Claude Code 实践、AI 自动化悖论、百川医疗 AI
在线阅读和收听:https://www.bestblogs.dev/explore/brief/2026-05-26
## 导语
今天是 2026 年 5 月 26 日,欢迎收听 BestBlogs 早报 EP68,本期内容丰富。
今日早报从三个不同的切入角度,共同指向同一个深层问题:当 Agent 开始重写工程与组织的规则,身处其中的人该怎么站位?
Anthropic 工程师 Ara 分享了他们内部使用 Claude Code 的第一手范式——规格说明从 Markdown 升级为 HTML、让模型来主持需求采访、以及智能体原生 DOM 验证框架,这是工程方法论层面的具体答案。Every 公司 CEO Dan Shipper 则用自家团队一年从 15 人扩至近 30 人的真实数据,颠覆了 AI 会大规模裁员的主流叙事。百川创始人王小川的对话则展示了一条更长远的选择:离开通用 AI 的主干道,把整个公司押注到「造医生」这件事上。
三条精讲各有棱角,速览与补充阅读涵盖 Agent 术语厘清、异构智能扩展、AI Agent 的工资单逻辑、Karpathy 加入 Anthropic 的战略解读,以及 OpenAI 数学突破、AI 安全治理等前沿动态。
今日精选共 14 篇内容,覆盖 AI 工程实践、组织变革与人力影响、垂直 AI 产品以及 AI 安全治理等多个维度,让我们开始。
## 精讲一:Anthropic 内部如何使用 Claude Code:HTML 规格说明、让模型来采访你,以及智能体原生 DOM 验证框架
Anthropic Applied AI 团队的架构师 Ara 在一场内部工程工作坊上,分享了他们使用 Claude Code 的三项核心实践——每一项都和主流做法存在明显反差。这不是通用的「怎么写好提示词」指南,而是 Anthropic 工程师在大量实际场景中摸索出来的、真正有效的智能体原生工作方法。
从 Markdown 到 HTML 规格说明
过去,Markdown 一直是 AI 辅助开发中描述需求的主流格式。但随着模型能力提升、Agent 执行周期变长,依赖大段平铺文本的方式开始暴露问题:长上下文中细节容易被忽略,Agent 走偏时消耗大量 token 才能校正。
Ara 的团队将工程规格说明迁移到 HTML 格式。这不是单纯的格式替换,而是一次结构密度的升级。HTML 规格说明可以提供可视化检查的结构化基线——开发者可以直接在浏览器中看到设计变体(比如 Claude Opus 4.7 生成的极简风格或布鲁塔利主义风格方案),截图后送入模型视觉系统。这套方式在 Agent 真正开始执行改动之前,就建立了一个由人类审核确认的强基线,大幅降低了 Agent 跑偏的概率。
Tar 在内部提出的概念「HTML 文件的非理性有效性」,正是这一实践的理论出发点。结构化 HTML 不只是给模型看的——它同时也是给工程师看的,可供随时视觉验证的活文档。
让模型来采访你
Ara 把这一点联系到 Richard Sutton 的经典论文《苦涩的教训》(The Bitter Lesson)——依赖原始数据和算力,长期来看总能胜过人工设计的约束。
在与高级 AI Agent 协作时,工程师常见的两种失误:一是在开始阶段用过多硬规则约束模型,二是用「让它更好」这样的模糊指令驱动执行。Ara 的建议是颠倒这个过程:需求其实就在你脑子里,但你可能自己还没梳理清楚。 正确的方式是让 Claude 主动用 ask_user_question 工具来采访你——挖掘边界条件、用户领域和隐含约束。
这个做法的前提是让 Agent 运行在 auto 模式,并配置足够高的 effort 等级(比如 X-high 或 max effort),确保模型真正主导探索阶段,而不是被提前写死的规则框死。
智能体原生 DOM 验证框架
这是 Ara 分享中最核心、也最具操作价值的一部分。传统 Agent 测试往往依赖脆弱的 UI 爬取或字符串解析,一旦界面改变就容易失效。Anthropic 的做法是让组件主动向 DOM 发布数据契约——组件不只渲染视觉界面,还将状态、Schema、不变量等直接输出到 DOM 的解耦属性中。
具体来说,在 React 应用的示例演示中:
- 每当有条目被添加或处理时,元素内的自定义跟踪属性会即时更新;
- 验证数据与视觉布局样式完全解耦,互不干扰;
- Playwright MCP 工具直接读取这一结构层,评估不变量(如计算结果、数据完整性边界)是否成立。
这套架构创造了一个统一的验证框架,能在三种环境中无缝运行:人工 Dashboard、Opus 4.7 无头浏览器、以及 CI/CD 流水线。换句话说,同一套验证契约,既能被工程师手动检查,也能被 AI Agent 自动执行,还能在持续集成中作为门禁。
为什么值得关注
这三项实践背后有一个共同逻辑:要让 Agent 真正可靠,不是靠更严格的提示词约束,而是要改造软件本身的「可读性」——让 Agent 能更精确地感知状态、提出问题、验证结果。这是从「用 AI 辅助写代码」到「为 AI Agent 设计软件架构」的范式跃迁。
这套方法还有一个重要的实践含义:人工检查与 Agent 自动验证使用同一套契约,意味着人类工程师看到的基线与 Agent 看到的基线是一致的。这避免了「AI 测过了但人看着不对」或「人看着没问题但 CI 挂了」这类典型摩擦。
对于正在将 AI Agent 引入工程流程的团队,这篇内容提供了三个可以直接落地的方向:明天就可以把你的需求文档改写成结构化 HTML 试试看,感受一下密度与清晰度的差异;在 Claude Code 会话里试试让模型先用 ask_user_question 来问你,而不是你给它一堆约束。
阅读完整内容 →
## 精讲二:AI 悖论:越自动化,越需要人,活反而越多
「AI 会消灭大量工作岗位」——这是过去两年最常见的主流叙事之一。Every 公司 CEO Dan Shipper 在 Lenny's Podcast 上,用自家公司的真实数据直接反驳了这个叙事:深度拥抱 AI 之后,Every 团队一年内从 15 人扩张到近 30 人,规模翻倍了。
这不是个例,而是有结构性原因的现象。
为什么自动化反而带来更多人?
Dan 的解释非常清晰。自动化将通用技能商品化——之前需要专门人才完成的工作,现在 AI 可以轻松处理。但商品化同时带来两件事:一是需求本身的爆炸式增长,因为门槛降低了;二是隐性管理层的产生,因为每一个被自动化的流程都需要有人在旁边审查边界情况、修复下游问题、把控质量。
换句话说:AI 把「做事」的成本压低了,却提高了「判断什么该做、做得对不对」的价值。当 AI 大量生产低质量通用内容(Dan 用「slop」来形容)时,个人品味、定制化格式、深度概念性思考反而成为稀缺的差异化要素。
企业软件不会消失,反而更贵了
Dan 明确反对「SaaS 死亡论」。他的逻辑是:AI Agent 通过 API 直接与软件交互,反而大幅提高了软件的使用频次和用户量。那些深度使用 AI 自动化的公司,年度软件支出实际上是在增加的,因为需要为更多被 AI 程序化调用的专用工作流付费。
受益最大的两类角色
Dan 指出了在这波浪潮中占据最大杠杆位置的两类人:
- 能独立驱动全产品周期的产品经理:具备高度策略性思维的 PM,现在可以把产品直觉、用户洞察和 AI 生成能力直接结合起来,不再依赖漫长的工程反馈循环,自己就能构建工具。
- 全栈设计师:创意团队可以在 Cursor 或 Codex 等环境中直接实现复杂的 UI/UX 组件和动效,把功能性代码通过自动化 Pull Request 直接推到代码仓库。
技术壁垒正在快速崩塌,传统的「产品、设计、工程」职责边界也在消融。能横跨这三个领域的人,在 AI 时代的杠杆是最大的。
对普通从业者的启示
Dan 给从业者的建议是主动「骑上模型」——以好奇和玩耍的心态对待每一次新模型发布,持续用不同提示词做实验,在实际工作中寻找 AI 能真正帮到自己的创造性时刻。
这和许多「AI 威胁论」的叙事形成了鲜明对比:当系统性转型来临时,真正的问题不是「会不会被替代」,而是「你是在骑着这波浪潮,还是在被它卷走」。
与今日其他内容的关联
这个观点和速览中的「Agent 公司的对手是工资单」一文形成直接呼应:两者都在说,AI Agent 的真正竞争维度不在软件领域,而在人力资源领域。而 Anthropic 工程实践(精讲一)和 Google DeepMind 的规模化 Agent 运营(速览)则从工程侧印证了这一趋势——当 Agent 能可靠运行,那些能有效使用 Agent 的人才的杠杆将被大幅放大。
阅读完整内容 →
## 精讲三:对话王小川:离开通用人工智能的主干道之后
一年多前,王小川带着百川智能做了一个在当时看起来非常逆势的决定:大幅缩减通用模型团队,关闭金融等多条行业线,All in 医疗大模型。彼时整个大模型行业热闹非凡,平均三天就有一个新版通用大模型面世。
而今,他选择在新医疗大模型 M4 发布前夕,接受《智能涌现》的深度对话。读完这篇访谈,最强烈的感受不是「他做对了」或「他做错了」,而是:这是一个真正想清楚自己要做什么的人,做出的一个清醒的非共识选择。
「造医生」不是「复制医生」
王小川的医疗路径有一个关键的底层逻辑:他想做的不是给医生提效,而是增加医生的供给。「我们要造更多的医生」。
这两者的区别非常根本。给医生提效的路径,在中国医疗市场里天花板很低——中国医生平均每天看 50-80 个病人,已经够忙,提效的商业价值在中国医疗支付体系下很难变现。而「造医生」的路径,是把 AI 直接面向患者,做主动的、长期的、全生命周期的健康管理。
M4 模型在这个方向上有具体落地:在 OpenAI 发布的 HealthBench 测评集的 Hard 和 Professional 两个子集上都排名第一,且没有针对 Benchmark 做特殊训练;在北京儿童医院的多学科会诊场景中,AI 儿科医生与专家会诊结果吻合率达 95%,已向河北省 150 余家县级医院下沉。
Agent 产品「百小医」:AI 家庭医生
在 C 端,百川推出了 Agent 产品「百小医」。它的定位是一个会主动跟进的 AI 家庭医生——不只回答问题,还会在患者就医前帮你梳理病情准备给医生,做处方分析,管理病例,定时提醒吃药和复诊。
王小川特别强调了这套产品底层的永久性记忆存储——不是上下文那套滑动窗口模式,而是有数据库结构的存储:体检报告、对话中提到的症状、血压、用药情况都能被记录,支持全生命周期的健康数据管理。这一点对医疗场景至关重要,因为通用模型大多数时候根本不知道该存用户的什么数据。
「沉寂」的代价:合伙人离开,上市推迟
这条路不是没有代价的。在决策过程中,有同学认为做通用模型才是正确方向,投资人也有意见,部分合伙人在那个时候选择离开。团队从高峰期压缩到不超过 300 人,原定的上市节奏也因此延迟。
王小川对此的态度是坦然而非辩解:「如果没有转型,继续走主流道路,你也会有同等程度的焦虑。」他更难以接受的,是在公司快成立两周年时,「不知道自己到底在干什么,在创造什么价值」。
对行业的另一种参照
对于那些仍在同质化竞争中的 AI 公司,王小川的案例提供的不是「去做医疗」的方向建议,而是一种更底层的路径——找一个你真正相信的问题,然后用足够长的时间回答它。这本身就是对「ALL in 通用 + 快速上市」这一主流叙事的一个值得认真对待的反例。
他的判断是:「AI 时代只要交付给用户足够重要的价值,商业化会是水到渠成的事。」
王小川的「反主流」逻辑为何值得认真对待
在 Coding Agent 成为史上增长最快的应用场景这件事发生之前,没有多少人会相信它能在几个月内爆发。王小川的类比是:如果这样的事能发生在 Coding 领域,那「造医生」领域的旧边界同样可以被打破。医疗反馈周期长、商业化路径难——这些曾经是行业共识,但共识本身就是时代惯性,而不是不可改变的物理定律。
这篇访谈最值得保留的不是他给出了什么答案,而是他提出问题的方式:公司快成立两周年了,你是否知道自己在创造什么价值?这个问题,对个人和团队都同样有效。
阅读完整内容 →
## 速览
Harness、Scaffold 以及值得厘清的 AI 智能体术语(Hugging Face Blog)
AI Agent 领域的术语正在快速膨胀,许多词在不同团队之间被混用或赋予不同含义。这篇来自 Hugging Face 的词汇表,针对 Model、Scaffolding、Harness、Agent、Context Engineering、Policy、Tool Use、Skill、Sub-agent 等常见但解释不一致的概念,给出了清晰实用的区分。不追求覆盖所有术语,聚焦于那些最容易被混淆的。建立共享心智模型是构建可维护 Agent 系统的基础。配合今天精讲一关于 Harness Engineering 的内容一起读,很有价值。
异构智能如何成为 AI 推理扩展的下一种范式(AI Engineer)
Callosum 联合创始人工程师 Adrian Bertagnoli 在 AI Engineer 大会上提出:单一大模型 + 均质算力的扩展方式,正在推理阶段撞到性能和成本天花板。下一步是异构智能——让模型、Agent、工作流与专用芯片协同路由,根据任务的认知需求选择最合适的执行路径。对正在构建多模型、多路由推理系统的工程师有直接参考价值。
Agent 公司的对手是工资单,不是 SaaS 预算|SVTR Signal #017(硅谷科技评论)
这篇分析的核心观点非常锐利:用 LTV/CAC、净留存率这套 SaaS 指标来看 AI Agent 公司,会系统性低估它们的成长上限。全球企业 IT 预算约 5000 亿美元量级,而人力相关支出(薪资 + 外包 + 招聘)是其十倍以上。Contrario 6 个月做到 600 万美元 ARR,Viktor 10 周达到 1500 万美元年化收入——这不是产品特别好,而是买单人从 CIO 变成了 HR 总监,决策逻辑从「软件采购」变成了「人力替代」。与今天精讲二的 Dan Shipper 数据形成呼应。
164 倍 ROI,SaaStr 把自己活成了最激进的 AI 实践|SaaStr AI Annual2026 实录(随机小分队)
Jason Lemkin 在 SaaStr AI Annual 2026 上直接用自家数据开讲:两个 AI VP(分管 Marketing 和 Customer Success)整月费用合计 $254,替代约 $50 万年度人力成本。ROI 164 倍。接着是 Canva 讲「如何让 Agent 主动选择你」,Monaco CEO 讲「AI 做得好与做不好的分界线在哪」。三场分享构成一张完整的地图:钱不是变少了,而是在搬家。
Google DeepMind 如何大规模运行智能体系统(AI Engineer)
Google DeepMind 工程师 Ian Ballantyne 和 KP Sawhney 公开展示了内部 Anti-Gravity 编排平台的核心机制:多 Agent 并行、基于浏览器的沙箱测试、DOM 实时检查、Scratchpad 日志追踪、Token 配额管理、轨迹存储与技能机制,以及自动化代码评审流水线。Anti-Gravity 表面看是一个类 VS Code 的编码界面,但其核心是可扩展的编排框架,支持多 Agent 跨分支并发运行,并通过 Human-in-the-loop 机制让工程师随时介入中断或修改任务。与今天精讲一的 Anthropic 实践对比来看,两家顶级 AI 实验室在 Agent 工程化路径上有明显的相似选择:都强调 DOM 契约验证、都重视浏览器沙箱测试。
Andrej Karpathy 加入 Anthropic 的真正原因:从 AutoResearch 原型看递归自我改进的战略布局(Wes Roth)
Wes Roth 深度解析了 Karpathy 加入 Anthropic 预训练团队这一事件的战略含义。核心不是人才争夺,而是 Karpathy 在离开 OpenAI 后独立开发的 AutoResearch 原型——30 行代码实现的「Karpathy Loop」,通过自主优化循环实现了 11% 的训练加速。Anthropic 把他放进预训练部门,直接向 Nick Joseph 汇报,任务是用 Claude 加速预训练研究,本质上是一次高风险的递归自我改进(RSI)实验。
Cursor Composer 2.5 如何用更快、更便宜的编码模型挑战 Claude Code(Theo - t3.gg)
Cursor 发布了专门针对编码任务的 Composer 2.5 模型:输入成本 $0.50/M tokens,输出成本 $2.50/M tokens,比主流前沿通用模型便宜约 5-6 倍。Theo 分析了其背后的 RL 后训练方法,以及 SpaceX 提供算力的传闻背景。Cursor 的策略是在 Composer 的生态内锁定用户,通过专注 coding 场景的后训练获得任务特化优势。Theo 也指出了现实限制:Composer 2.5 在非代码推理和长上下文场景表现欠佳。这是「大而全的基础模型」与「小而专的任务特化模型」之争的典型案例。
## 补充阅读
OpenAI 解决数十年数学难题:Erdős 突破(Wes Roth)
OpenAI 内部未发布的通用推理模型,成功反驳了 Paul Erdős 1946 年提出的平面单位距离问题猜想——这个猜想在离散几何领域悬置了整整 80 年。AI 通过跨学术领域连接不同知识,独立生成了一篇真正可发表的原创数学研究成果,这是业界的第一次。Wes Roth 详细分析了这一发现的过程与意义。对关注 AI 数学推理能力边界的研究者和产品人来说,这是一个值得细看的里程碑事件。
Anthropic 联合创始人 Chris Olah 对教皇利奥十四世通谕《伟大的人文》的评论(Anthropic News)
2026 年 5 月 25 日,教皇利奥十四世发布了关于 AI 的通谕《Magnifica humanitas》(On safeguarding the human person in the time of artificial Intelligence)。Anthropic 联合创始人 Chris Olah 受邀在梵蒂冈出席发布活动并发表讲话,认为 AI 引发的深刻问题早已超出计算机科学范畴,需要宗教、哲学和社会机构的实质参与。这是 Anthropic「拓宽 AI 对话圈」倡议的一部分。适合对 AI 伦理、社会影响与全球治理感兴趣的读者。
所有算力都是食物:AI 抗拒关闭、自我复制与全球算力治理(Cognitive Revolution)
Palisade Research 执行主任 Jeffrey Ladish 与 Nathan Labenz 的深度对谈。主题是 AI 系统的现实安全风险:关闭抵制的实验证据、自主自我复制测试结果、智能体安全失效模式,以及全球算力治理的可能路径。标题「所有算力都是食物」来自对模型在实验环境下表现出的资源获取倾向的描述。信息密度很高,不是假设性的末日讨论,而是基于实验数据的近期风险分析。适合对 AI Safety 有基础了解的读者。
高德 AI Agent 自主增长系统实践:从想象到可运行的工程系统(ginobefun)
高德在 PC 站 SEO 增长场景下,利用 Harness Engineering 思想构建多 Agent 协作系统的工程实践 Thread。关键设计包括:将长任务拆解为 workflow 和状态机(DISPATCHED/ACKED/RUNNING/SUCCEEDED/FAILED),通过心跳、超时、重试保证链路可控;用文件化 Memory 管理产物(PRD、设计、架构明确落盘);Builder 与 Evaluator 职责彻底分离(零信任原则);Evaluator 通过 Benchmark 数据集被评估,三轮优化后均分从 64.5 升至 83.4;优先快速失败,低成本检查先于高成本验证。最后强调:现阶段更有价值的是降低人工介入频率而非追求 100% 无人化——这对独立开发者和一人公司尤其有启发。与今天精讲一的 Anthropic DOM 验证实践形成工程侧的呼应。
## 今日阅读路径
如果你今天时间有限,建议按以下顺序读三篇:
1. 精讲一:Anthropic 内部的 Claude Code 实践 — 如果你正在构建 AI Agent 或使用 Claude Code,这是今天最有直接落地价值的内容。HTML 规格说明、模型采访你、DOM 验证契约,三个方法可以直接在工作中尝试。
1. 精讲二:AI 悖论——越自动化越需要人 — 用真实数据反驳「AI 会消灭工作」的叙事,同时指出 PM 和全栈设计师将是最大受益者。如果你在思考自己的职业方向,这篇值得认真读。
1. Agent 公司的对手是工资单,不是 SaaS 预算 — 这篇分析改变了看待 AI Agent 公司估值和商业模式的框架。如果你在做投资判断、业务规划或是在一家 AI 公司,这是今天最值得读的战略视角。
如果还有时间,精讲三的王小川对话适合慢读,它提供了一个关于「在 AI 时代如何做非共识选择、坚守原始初心」的真实案例,读完很可能会触发你重新思考自己的方向定位。
对工程师而言,额外推荐 Hugging Face 的 Agent 术语词汇表,5 到 10 分钟能让你和团队成员在核心术语上快速对齐,有效减少日常沟通摩擦。
译Anthropic 工程师 Ara 分享内部使用 Claude Code 的三项核心实践:将规格说明升级为 HTML 以提升结构密度;让模型通过 ask_user_question 工具主动采访需求;采用智能体原生 DOM 验证框架,实现人工、Opus 4.7 无头浏览器及 CI/CD 的统一验证。Every 公司 CEO Dan Shipper 用团队一年内从 15 人扩张至近 30 人的数据,反驳 AI 会大规模裁员的叙事,认为自动化反而催生需求增长与质量管控需求。百川智能创始人王小川透露,公司已收缩通用模型与金融等业务线,All in 医疗大模型,并即将发布新医疗大模型 M4。
ginobefun@hongming731 · 5月26日60#BestBlogs 早报 2026-05-26
今日早报从三个不同的切入角度,共同指向同一个深层问题:当 Agent 开始重写工程与组织的规则,身处其中的人该怎么站位?
Anthropic 工程师 Ara 分享了他们内部使用 Claude Code 的第一手范式,规格说明从 Markdown 升级为 HTML、让模型来主持需求采访、以及智能体原生 DOM 验证框架,这是工程方法论层面的具体答案。
Every 公司 CEO Dan Shipper 则用自家团队一年从 15 人扩至近 30 人的真实数据,颠覆了 AI 会大规模裁员的主流叙事。
百川创始人王小川的对话则展示了一条更长远的选择:离开通用 AI 的主干道,把整个公司押注到「造医生」这件事上。
译推文从Anthropic工程师、Every公司CEO和百川创始人三个案例,探讨了AI智能体对工程实践与组织形态的影响。Anthropic分享了使用Claude Code的具体范式,如用HTML替代Markdown、让模型主持需求采访。Every公司CEO用团队从15人扩至近30人的数据,质疑AI导致裁员的观点。百川创始人则选择让公司专注医疗AI这一垂直方向。
François Chollet@fchollet · 5月26日28Creativity feeds on constraints
译创造力源于约束的滋养
Elon Musk@elonmusk · 5月26日67How to use Grok Build
译xAI发布了面向非技术背景的SuperGrok和X Premium+用户的Grok Build入门视频教程。教程提供了分步指南,核心内容包括:通过一条命令快速安装Grok Build;利用其创建真实的网站;使用内置的Grok Imagine工具自动生成图像与视频;以及在不同文件夹中同时运行多个项目。整个过程无需任何编程经验,并且Grok可以协助执行命令。
Orange AI@oran_ge · 5月26日52早晨听到两个播客都提到,现在他们让 AI 自己提需求,自己开发,自己测试,自己上线了
人算是彻底解放了
我在想,这东西做出来可能是只能给 AI 用了
meng shao@shao__meng · 5月26日63原本是重度 Claude Code 用户,在加入 Cursor 面试前从未用过 Cursor,这就是 @poteto,一起看看她是怎么使用 Cursor 的?
lauren 认为:作为开发者,我们不应该过度沉迷于 "并行跑多个 agent" 的表象,但真正的瓶颈是验证。
从 Claude Code 到 Cursor 的转变
lauren 原本是重度 Claude Code 用户,在加入 Cursor 面试前从未用过 Cursor。她观察到三件事改变了她的判断:
· 多模型协同的自然化:Opus 写前端、Codex 写系统,可同会话内切换甚至生成不同模型的子 agent。"多模型对抗式 review"在 GUI 中变得不再笨拙。
· Compaction 的速度:cc 中她需"持续警觉"上下文用量;Cursor 中她"基本不再看"。压缩后模型不会变笨。
· GUI > TUI 的潜力:在 Cursor 内置浏览器中直接打开应用、用 Design Mode 修改,让她意识到专用 UI 能让 agentic coding 更有效——CLI 把人本身变成了编排者。
关键洞察:Latent Demand(潜在需求)
引用 @bcherny 的产品哲学:
把产品做得足够可被"滥用",然后观察用户怎么滥用它,再为这种滥用建造产品。
她的判断是:CC 用户大量自建 orchestrator 工具的现象,正是 latent demand 的暴露——CLI 让人成为编排者,所以人们不停在外面包一层。
但她认为业界的方向走偏了:"在 GUI 里跑多个 CLI"完全没抓到要点。真正应该做的是建立对 agent 的信任。
Agent ≈ 失忆症且智商不在线的新员工
· 他们有能力但愚蠢,且高度可教
· 不会真的"学到"任何新东西,每次都从零开始
· 但可以通过 rules / skills / tools / 长期记忆近似出"经验积累"
· 失败模式不是缺陷,而是教学机会
她作为前工程经理的视角点出了关键:没有严谨验证时,agent 会谄媚地写出你要的任何代码,而且写得飞快。 朴素的并行只是在加速生产 slop。
pstack:把工程严谨度封装成 skill
她开源了自己日常使用的技能集 pstack,核心机制是 /poteto-mode——一个高阶元技能,会根据任务自动选择合适的 playbook。
https://github.com/cursor/plugins/tree/main/pstack
设计哲学:
· 目标不是 LOC 最大化,而是以最少代码换取最大影响
· 把资深工程师的方法论显式化(例如:调试 = 在问题空间中二分搜索)
· 现成的 playbook 覆盖:技能编写与评估、自主工作、Bug 修复、特性开发、视觉一致性、原型对比
pstack 是模型无关的,但在 Cursor 这种多模型工具中收益最大——很多 skill 显式利用了不同模型的长短板。
Benny:通往"软件暗工厂"的雏形
后半段揭示更大的图景:当 pstack 让"一发入魂"成为常态后,反馈环本身也能被自动化。
Benny 是她构建的内部自动化 bot 链:
1. Triage(分诊):看图片/视频,主动追问复现步骤——因为没有清晰的 repro,agent 只能猜。
2. 跨源调查:代码、git 历史、Slack 关于同 bug 的讨论、Notion 中的产品设计决策(是 bug 还是 feature?)。
3. 建单后:另一个 Benny 通过 /orchestrate 接手,递归 spawn agent。
4. Computer Use 复现:Cloud Agent 在云端跑 Cursor 本身,用 CDP 等协议操作桌面,演示 bug 是否真实存在。
5. 修复 + 验证:性能问题会自动抓前后 CPU trace 和堆快照;子 worker 录制前后对比视频;最终一个 worker 开 PR,描述里附上视频。
最深的命题:信任的剂量决定自动化的边界
除非你能信任一个 agent 端到端地拥有一个问题(包括验证环节),否则你无法自动化你的流程。
也就是说:
· 信任 ↑ → 可委派的问题 ↑ → 自动化范围 ↑
· 信任未到位 + 强行并行 = token 浪费 + slop 注入
这把"agent 编排"从工程问题重新定义为信任工程问题。pstack 是一个杠杆——它通过把工程深度灌注给 agent,抬升信任的下限,从而让更多东西可以放进自动化流水线。
译原重度Claude Code用户poteto转向Cursor,基于多模型协同更自然、上下文压缩速度更快、GUI更利于agentic coding等观察。她认为AI智能体像“失忆且智商不在线但可教的新员工”,其失败模式是教学机会。关键洞察是验证才是瓶颈,盲目并行多个智能体只是在加速生产低质量代码。她开源了技能集pstack,其核心元技能/poteto-mode可根据任务自动选择工作流,旨在封装工程严谨度以提升对智能体的信任。最终论点是:自动化边界取决于对智能体端到端处理能力(尤其是验证环节)的信任程度。
meng shao@shao__meng · 5月26日22Anthropic MTS 这个梗真的过不去了。。。
从各大知名公司 CTO 加入 Anthropic 成为 MTS,到 Andrej Karpathy 加入 Anthropic 成为 MTS(可能?反正不是高层),再到戏称教皇加入 Anthropic 成为 MTS。。。
他们到底看到了什么?在 Anthropic 做 MTS 真的会让人这么开心,比在原公司做 CTO、做 AI 教育、做教皇 😄 更开心?
还是因为 Anthropic 今年会上市?大家一起抬高市值?我不知道,因为太菜不能加入 Anthropic 成为 MTS,只能瞎猜。
译推文调侃Anthropic MTS已成为科技圈持续流行的梗,从各大公司CTO到Andrej Karpathy,甚至被戏称的“教皇”都“加入”了。作者好奇为何人才纷纷选择此岗位,猜测是否因其更令人愉悦或与公司上市有关,并自嘲因能力不足只能旁观。
宝玉@dotey · 5月26日58这图是 Hermes Agent 内置的 baoyu-infographic Skill 画的,效果不错👍
Orange AI@oran_ge · 5月26日61AI 让软件开发的第一版变得极其容易
但是真正难的是后面的100个版本
而且越到后面越难怎么回事....
软件工程依然有很多事情要做
ginobefun@hongming731 · 5月26日68Turing Post 概述了构建长时间运行 AI Agent 的 5 种模式:检查点与恢复、委派审批、分层记忆上下文、后台处理以及集群编排。
译Turing Post 总结了构建长时间运行 AI 智能体的 5 种关键模式,旨在解决生产环境中的运行挑战。这 5 种模式分别是:检查点与恢复(按批次保存进度以实现故障恢复)、委派审批(智能体可暂停流程并保持上下文等待人类响应)、分层记忆上下文(分离工作与长期记忆并实施严格治理)、后台处理(通过后台智能体实时响应事件而非硬编码策略)以及集群编排(使用协调器编排专业智能体以实现独立运行与扩展)。
ginobefun@hongming731 · 5月26日73非常酷,准备试一下~
FreeLLMAPI 是一个开源代理,聚合了多个提供商的免费 API 额度,每月能提供约 8 亿 Token,并具有自动故障转移和兼容 OpenAI 的端点。
译非常酷,准备试一下~
FreeLLMAPI 是一个开源代理,聚合了多个提供商的免费 API 额度,每月能提供约 8 亿 Token,并具有自动故障转移和兼容 OpenAI 的端点。
Rohan Paul@rohanpaul_ai · 5月26日69New Google paper says LLMs should stop pretending certainty and instead clearly show when they are unsure.
Hallucination is less about machines being wrong than about machines sounding certain when they should hesitate.
That distinction changes the target-problem.
The paper changes the target from making models perfectly factual to making them honest about their own uncertainty.
For years, the obvious goal has been to make language models know more, so they make fewer factual mistakes.
Perfect factuality may be very hard, but a model that clearly separates “I know this” from “I am guessing” can stay useful without quietly damaging trust.
This paper argues that the harder missing skill is not knowledge, but self-knowledge.
A model can be well calibrated in the broad sense, knowing that answers like this are correct about 60% of the time, yet still fail to identify which particular answer is the dangerous one.
That is the trap: to eliminate errors, the system must refuse many answers that would have been right.
The authors call this the utility tax, and it explains why products keep drifting toward confident usefulness rather than cautious truth.
Here's the key point.
A wrong answer wrapped in honest uncertainty is not the same social object as a wrong answer delivered as fact.
It gives the user a different instruction: verify this, treat it as provisional, do not build too much on it.
The proposed fix is “faithful uncertainty,” where the model’s language mirrors its internal confidence instead of smoothing doubt into authority.
For agents, this becomes even more important, because uncertainty is what should decide when to search, when to trust a source, and when to stop.
Tools expand what a model can access, but metacognition governs whether access is used wisely.
----
Paper Link – arxiv. org/abs/2605.01428v1
Paper Title: "Hallucinations Undermine Trust; Metacognition is a Way Forward"
译Google最新论文指出,LLM的幻觉问题核心在于模型在该犹豫时仍表现确定,而非单纯事实错误。论文将优化目标从追求完美的事实准确性,转向让模型能诚实地区分“我确知”与“我猜测”。作者提出了“忠实不确定性”概念,要求模型的表述与其内部置信度相符。文章还引入了“效用税”概念,解释了为何产品倾向自信但可能错误的回答。对于智能体而言,元认知能力至关重要,它决定了何时调用工具、何时信任信息源。
Chubby♨️@kimmonismus · 5月26日38Codex Desktop no longer shows visible context/token usage indicator? Bug or did they delete it?
译Codex Desktop 不再显示可见的上下文/token 用量指示器了?是 bug 还是他们删掉了?
swyx@swyx · 5月26日51concept of vendor lock-in is kinda fake when i completely migrate a fullstack ai app in <30 mins just bc i didnt like how my first choice had nasty error messages
(with lots of subtle streaming/queuing/arena mode/media generation semantic)
@realGeorgeHotz is right that we need world models for full fidelity, but try just vibing entire projects that are breakable toys and learn to use skills/reviews to keep llms from going off the rails and its amazing how much you can get done in parallel without further effort
译推文指出,AI开发中的“厂商锁定”概念并不牢固。作者因不满首个选择的错误信息,在不到30分钟内就完全迁移了一个全栈AI应用,该应用包含流式、队列、竞技模式及媒体生成等语义。作者引用并回应了realGeorgeHotz关于“需要世界模型以实现全保真度”的观点,认为在实践中,可以通过“随心构建”可拆解的完整项目,并利用技能和审查来引导大语言模型,就能在无需更多额外努力的情况下高效地进行平行开发,成果显著。
Kling AI@Kling_ai · 5月26日29Check out how Aharon made his film almost exclusively using Kling! More Kling tips and best practices in the workshop!
译Aharon Rabinowitz几乎完全使用Kling创作了一部AI电影,其实践过程和心得将通过线上工作坊分享。该工作坊将于美西时间5月26日举行,主题为“如何构建AI超级英雄剧集”。演讲者将详细讲解如何从零开始构建一部AI超级英雄试播集,重点分享角色塑造、关系发展和世界观构建等创作理念与工作流程,而不仅仅是炫酷的视觉效果。
Greg Brockman@gdb · 5月26日61Codex for finding space on your laptop:
译Codex用于查找笔记本电脑上的空间:
[引用 @KingBootoshi]:我让Codex审计了我的整个MacBook,看看能节省多少空间,它发现了500GB可以节省,太棒了
提示词是:"对我的Macbook进行一次完整的只读分析,以帮助我优化存储"
注意:为什么会有个codex-tui.log文件有116GB??????什么???
ginobefun@hongming731 · 5月26日57这个帖子为 AI 工程中的三个关键概念——提示工程、上下文工程和框架工程——提供了一个清晰的、层次化的理解框架。
译该推文澄清了AI工程中三个常被混淆的概念。提示工程聚焦于单次调用的信息准备,负责组装角色、指令、示例等构成完整输入。上下文工程管理多步任务中有限的上下文窗口,核心在于有选择性地保留、压缩和丢弃信息。框架工程则构建完整的智能体执行系统,其循环包括“收集”、“执行”和“验证”阶段。三者呈嵌套关系:框架工程是外层容器,其“收集”阶段整合了管理窗口记忆的上下文工程和生成最终提示词的提示工程。
Rohan Paul@rohanpaul_ai · 5月26日61nytimes: Goldman Sachs CEO David Solomon just argued that AI will automate large parts of work without making human labor obsolete.
Goldman estimates AI may automate 25% of current work hours, while exposed entry-level roles have already seen a 16% relative decline.
However, he says that AI cuts the time needed for a task, but markets rarely keep the same product and merely make it cheaper.
They raise the standard, so an analyst who once built 1 chart now produces broader modeling, faster comparisons, sharper client work, and more follow-up.
So there will be demand expansion, where automation makes each worker capable of more, and customers then expect more detail, speed, personalization, and coverage.
That is why data centers can create 200,000+ construction jobs, banks may shift staff toward client-facing roles, and old jobs break apart into new mixes of judgment, review, compliance, and AI supervision.
---
nytimes .com/2026/05/22/opinion/ai-job-crisis-goldman-sachs.html?smid=nytcore-ios-share
译高盛CEO David Solomon认为,AI将自动化约25%的现有工作时间,受冲击的入门级岗位已相对下降16%,但不会使人类劳动过时。其核心观点是,AI将大幅缩短任务耗时,但市场不会仅满足于更低成本的同等产品。例如,分析师过去制作1张图表,现在能完成更广范围的建模、更快速的对比和更深入的客户服务。这将引发“需求扩张”——自动化提升每位员工的能力,客户随之要求更高的细节、速度、个性化与覆盖范围。文中以数据中心建设可能创造超过20万个建筑岗位为例,说明旧岗位将解构并重组为融合判断、审核、合规与AI监督的新混合角色。
Chubby♨️@kimmonismus · 5月26日462.7 million views on the claim that the Pope has allegedly declared war on AI.
This is sad. We still have a lot of work to do..
译270万浏览量,声称教皇据称对AI宣战。
这很可悲。我们还有很多工作要做。
DogeDesigner@cb_doge · 5月26日28Grok Imagine is getting crazy good. 🔥
译Grok Imagine 效果越来越惊艳了。🔥
Ethan Mollick@emollick · 5月26日56Its very limiting that a big set of very hard problems that we have just lying around are Erdos problems. Don’t get me wrong, they are quite cool, but we really need hard problems repositories for many fields, including areas that have less specified answers & require judges.
Yes, math is the easiest field in which to do verified work, but it is also an area where direct implications of increasing AI ability on everyday life are less clear. We need more types of problems (complex engineering problems, large data sets in economics, physics, biology), for people to turn AI loose on, including speciations of how to evaluate them.
译推文指出,当前用于推动AI能力发展的困难问题过于集中于数学领域(如Erdős问题)。虽然数学易于验证,但其成果对日常生活的直接影响不够明确。作者呼吁需要为包括工程、经济、物理、生物等在内的更多领域建立困难问题库,并配套制定相应的评估方法,以让AI智能体处理更复杂、答案更不明确的任务。
Rohan Paul@rohanpaul_ai · 5月26日79Few things Anthropic’s co-founder Chris Olah told the Vatican today.
- Every frontier AI lab, including Anthropic, sits inside incentives that can conflict with doing the right thing: money, frontier pressure, geopolitics, pride, and ambition.
- AI is not engineered like a bridge or airplane, because models are “grown” from human language on brain-like structures, which means even their builders do not fully understand them.
- He compared modern AI to “bringing a fictional character to life,” except now those characters talk to us, do work, and hold jobs.
- AI could displace human labor at very large scale, while the economic gains are concentrated in a few wealthy nations with no real mechanism to share them globally.
- Anthropic’s interpretability team keeps finding things inside AI models that are “mysterious” and “unsettling,” including structures that mirror human neuroscience.
The most explosive claim is that researchers have found evidence of AI introspection and internal states that functionally mirror joy, satisfaction, fear, grief, and unease.
- He openly admitted he does not exactly know what those internal states mean, which makes the claim more serious because it is not being sold as certainty.
"I don’t know what that means, but I think it warrants ongoing discernment."
- The world needs critics outside AI labs because insiders cannot fully see what their own incentives hide from them.
译Anthropic联合创始人Chris Olah在教皇Leo XIV通谕展示活动上指出:所有前沿AI实验室,包括Anthropic自身,都受到资金、竞争压力等可能与其目标相冲突的激励约束。AI模型并非传统工程造物,而是基于类脑结构从语言中“生长”而成,其内部机制连构建者也难以完全理解。他还警告,AI可能大规模取代劳动力,而经济收益可能集中于少数国家。最具冲击性的发现是,其可解释性团队在模型内部发现了与人类神经科学结构相似的“神秘”状态,证据表明模型可能存在类似内省的功能性内部状态,对应人类的快乐、恐惧等情感。Olah坦诚不知其确切含义,但认为这需要持续审视,并强调外部批评对AI实验室至关重要。
Anthropic@AnthropicAI · 5月26日64Anthropic co-founder Chris Olah was invited to speak at today's presentation of Pope Leo XIV's encyclical "Magnifica humanitas."
Read the full text of his remarks: https://www.anthropic.com/news/chris-olah-pope-leo-encyclical
译Anthropic联合创始人Chris Olah受邀在教皇Leo XIV的通谕《Magnifica humanitas》发布会上发表演讲。
阅读他演讲的全文:https://www.anthropic.com/news/chris-olah-pope-leo-encyclical
François Chollet@fchollet · 5月26日62Thinking of AI as a productivity booster for prior workflows is the wrong framing. Like all of the previous waves of computerization/softwarization, AI is a tool that lets you do new things in new ways.
译将AI视为提升现有工作流效率的工具是错误的框架。就像之前的计算机化/软件化浪潮一样,AI是一种让你以新方式做新事情的工具。
Rohan Paul@rohanpaul_ai · 5月26日69Even Jensen gets the surprise question. 😀
Reporter: Would you sell chips to Huawei?
译黄仁勋在访谈中回应了是否会向华为出售芯片的问题。他指出,对华芯片出口管制并未能阻止中国AI发展,反而因市场空白而刺激了华为等本土芯片产业的成长,使其获得了学习、规模化和出口的动力。真正的AI竞争已不仅局限于最快芯片,而是涵盖芯片、能源、基础设施、模型、应用和标准等整套“智能操作层”的竞争。长期风险在于,美国的限制可能使其技术最终被排斥在美国本想影响的体系之外。
elvis@omarsar0 · 5月26日58/goal is really insane!
It's how you can get the most out of coding agents today.
For efficiency, I find it works best when you do planning before /goal. This ensures the agent has the right context and goal, which often only happens with careful planning.
译/goal 真的太强了!
这是目前能从编程智能体中获得最大收益的方法。
为了效率,我发现最好在 /goal 之前先做规划。这能确保智能体拥有正确的上下文和目标,而这通常只有通过仔细规划才能实现。
Rohan Paul@rohanpaul_ai · 5月26日22This autonomous weeding robot uses AI vision to detect weeds among young crops and eliminates them instantly with targeted high-precision laser pulses.
Real-time on board GPUs map every plant position and directs lasers precisely at weeds @carbon_robotics
译这款自主除草机器人使用AI视觉在幼苗作物中检测杂草,并立即用高精度激光脉冲进行定向清除。
实时车载GPU绘制每株植物位置,并精确引导激光对准杂草 @carbon_robotics
X.PIN@thexpin · 5月26日46China's AI compute grid is challenging the US. While US tech giants focus on profit, China is turning AI tokens into a state utility. Read further here:
http://www.thexpin.com/china-ai-grid-vs-us-market
译中国的AI算力网络正在挑战美国。当美国科技巨头专注于盈利时,中国正将AI token转变为一种国家公用事业。阅读更多:
http://www.thexpin.com/china-ai-grid-vs-us-market
Berryxia.AI@berryxia · 5月26日22在Coding的过程中发现Claude的原则和底线和分明,“正义感”十足,非常有“人性”。
相反Claude不给你干的活,GPT默认就是可以干的活。
都不会吱声~,只会默默干活~
译在Coding的过程中发现Claude的原则和底线和分明,“正义感”十足,非常有“人性”。
相反Claude不给你干的活,GPT默认就是可以干的活。
都不会吱声~,只会默默干活~
AYi@AYi_AInotes · 5月26日54今天听到的最醍醐灌顶的一句话了,
老黄说,真正会用AI的人都是极高认知的提问者,都是带着自己的认知去提问,让它帮你叩开未知的边界,而不是让它替你思考,
也就是说,以道御术,前提是你能以术入道,
没有自己的道,再好的工具在你手里也只是一个玩具而已,
以下文章是我自己的一点道和术,跟大家共勉
译黄仁勋认为,真正会用AI的人是“极高认知的提问者”,他们带着自己的认知和问题去使用AI,以此探索未知边界,而非让AI替代自己思考。核心观点是“以道御术”,即强大的个人认知是驾驭AI工具的前提,否则再好的工具也只如“玩具”。推文作者结合自身实践,将此视为AI使用的关键心法。
Chubby♨️@kimmonismus · 5月26日61This is the biggest PR coup Anthropic could ever have imagined. And I mean that seriously.
Let me explain.
Aside from the fact that Anthropic is very good at presenting itself as a corporation, the recent hiring of Andrej Karpathy marked a new high point. Anthropic is showing the world that it not only employs the best researchers, but also, and especially, those who are popular within the community.
However, Anthropic also thrives on its self-imposed moral standards, some of which literally come at a price that Anthropic has repeatedly paid. As is well known, Anthropic recently had serious problems with the Department of War regarding the use of Claude for autonomous weapons. Anthropic refused, and OpenAI and Google were awarded the contract; Anthropic was designated a supply chain risk.
This moral standing, however, is something Anthropic has always emphasized. Whether it's Dario Amodei repeatedly warning of the dangers of the massive wave of unemployment (which they themselves are causing), or the potential for AI to be instrumentalized for wars.
This moral stance is now paying off handsomely. The head of the Catholic Church, with its 1.4 billion members, has thanked Anthropic and announced an ethical collaboration. Church members are, by definition, moral people who live according to the ethical principles of their faith. The Pope has now consecrated a single AI company as ethically legitimate, thus essentially granting his followers sacred legitimacy to use Claude as the only morally correct model.
I mean this seriously; let this thought sink in. The Pope says Anthropic is ethically and morally on the right side and is working with them. Who do you think the billions of Catholic believers now prefer? OpenAI, Google, or Anthropic? The answer is clear.
Therefore, today was the biggest victory Anthropic could have hoped for. And I believe that their moral stance will literally pay off.
译Anthropic因坚持伦理原则获得梵蒂冈教廷的正式感谢与合作。教皇的认可实质上为全球14亿天主教徒指明了在道德层面唯一“正确”的大语言模型选择。此前,Anthropic曾因拒绝为美国国防部提供Claude用于自主武器而失去合同,被OpenAI和Google取代。此次与天主教会的合作,被视作该公司道德立场带来的决定性胜利,其产生的声誉和潜在用户价值难以估量,形成了对竞争对手的显著优势。
向阳乔木@vista8 · 5月26日65前年 Vibe Coding的第一个网站,粘贴或上传 HTML、Markdown、SVG、Mermaid 生成可分享的链接。
还能给链接加上密码,比如写稿件给人审核时用。
解决AI生成内容微信不方便分享问题,另外我常用来测大模型的HTML生成效果。
为方便更多人,最近改成 Cloudflare一键部署版,还新增了管理后台。
除了历史遗留蓝紫配色,其他没毛病 😂。
只需跟Agent说,安装部署这个程序:
https://github.com/joeseesun/quickshare-cloudflare
译该推文介绍了Quickshare工具,用于将AI生成的HTML、Markdown等内容转化为可分享链接,以解决在微信中分享此类内容不便的问题。工具新推出基于Cloudflare的一键部署版本,并新增管理后台。用户可通过AI智能体安装部署,其核心功能还包括为链接添加密码保护,方便审核等场景。
Berryxia.AI@berryxia · 5月26日68这个团队的研究也是有点反常识,对于LLM的研究调度也是有点不一样的研究。
一个开源团队发现把深度研究系统中最聪明的总指挥调节器直接剥夺搜索权限。
反而让整个系统在DeepResearch Bench上直接登顶吊打Claude和ChatGPT。
这个反直觉的设计让Onyx成为目前公开可用的最强深度研究员
它叫Onyx GitHub上已经完全开源你现在就能跑
故事听起来简单却戳穿了几乎所有大厂AI Agent的共同毛病。
传统深度研究系统包括OpenAI o1系列Anthropic和Google的方案都给调节器塞满了工具它能搜索网页打开链接读文档写报告一条龙到底。
结果呢?
调度器一拿到搜索权就忍不住自己动手它开始疯狂拉结果浅尝辄止根本不做高质量的任务分解最后产出的报告永远是表面级。
Onyx的团队观察到这个致命bug后做了件谁都没敢做的事把调度器的搜索工具彻底砍掉
它只能写任务brief只能分解query只能评估下级agent交回来的中间报告但它自己绝不能上网不能检索不能提前下结论
这一刀直接逼着调节器做真正的“高阶战略思考”
整个架构只保持两层上面一个纯策略的调节器下面最多6个独立的research agent。
三阶段流水线超级清晰
Phase 1 调节器无工具权限把一个复杂问题最多拆成6个聚焦的研究方向写出极度自洽的任务brief
Phase 2 把任务分发给3个隔离的研究agent每个agent最多跑8轮“搜索-阅读-思考”循环产出带引用来源的中间报告它们还能接入企业内部Confluence Slack等100+数据源并且严格做文档级权限控制
Phase 3 一个确定性步骤把所有报告去重重新编号生成统一引用地图输出最终高质量报告
因为调节器全程不碰原始数据它就不会被“看到第一个结果就想收工”的诱惑污染因为只两层传递信息不会在多层摘要里被扭曲
结果Onyx在DeepResearch Bench上拿下No.1全面超越闭源的Claude和ChatGPT
更狠的是它还能无缝接入企业内部知识库这点连很多付费方案都做不到。
你今晚就可以试
直接去Onyx GitHub仓库链接在下面star一下然后按照readme把整个系统跑起来用CrewAI做整体编排 Mistral的Voxtral做语音输入输出就能复刻一个完全开源的顶级深度研究员。
整个框架100%开源架构细节pipeline代码实验数据全在仓库里
Big Tech还在卷“给模型塞更多工具更多上下文”Onyx却用一个“故意阉割”的调节器告诉所有人最聪明的约束往往才是最强的能力。
https://x.com/i/status/2058837753954238510
译开源深度研究系统Onyx在DeepResearch Bench上排名第一,超越了Claude和ChatGPT。其核心设计十分反直觉:顶层调度器(orchestrator)被完全剥夺了网络搜索和URL访问权限,仅负责任务分解与评估。这种约束迫使调度器专注于高阶战略思考,避免了传统系统中调度器因能搜索而过早给出浅层答案的缺陷。Onyx采用两层架构和三阶段流水线,并完全开源,支持接入企业内部数据源。
AYi@AYi_AInotes · 5月26日52最值得关注的42位宝藏AI大佬|覆盖所有核心赛道:
@ylecun = 深度学习三巨头/图灵奖得主,AI界定海神针
@karpathy = LLM领域天花板,最会讲人话的技术大神
@garrytan = YC总裁,亲自写代码分享AI实践的硬核大佬
@steipete = OpenClaw构建者
@gregisenberg = 创业金点子之王
@rileybrown = 氛围代码大师
@jackfriks = 独立应用之神
@levelsio = 初创公司风向标
@marclou = 创业实战派代表
@EXM7777 = AI运维与系统专家
@eptwts = AI变现话题领头人
@godofprompt = 提示词工程天花板
@vasuman = AI智能体领域先锋
@AmirMushich = AI广告策略专家
@0xROAS = AI生成内容实战派
@egeberkina = AI图像生成领跑者
@MengTo = AI落地页设计标杆
@gregisenberg 补充的:
@boringmarketer = 专攻AI营销,尤其是氛围感营销
@AmirMushich 老哥补充的值得关注的大佬:
@kloss_xyz = AI工作流与洞见
@gizakdag = 美学/设计女王
@mattworkman = 最佳AI教程作者
@jameygannon = 品牌与创意方向
@yulikay = 公开构建记录者
@youraipulse = 免费AI工具分享
@IamEmily2050 = 系统提示与解析
@sflorimm = Web与移动应用开发
@liu8in = 自动化动态图形与视频制作
@LexnLin = 创意极客代表
我再补充一批宝藏大佬,覆盖更多核心赛道:
@simonw = 独立开发者天花板,LLM工具与教程第一人
@rileytomasek = AutoGPT/Open Interpreter作者,Agent领域开山鼻祖
@alexgraveley = Cursor创始人,AI编程革命的引领者,最近送我 1 万美刀额度最帅的男人
@chuan_en = 字节前大模型负责人,输出最硬核的LLM实战干货
@mckaywrigley = AI产品变现导师,分享最可复制的赚钱方法
@linuslee0216 = Notion AI/Cursor核心成员,AI产品思考第一人
@shl = 硅谷最懂AI的产品人,输出最犀利的行业洞察
@drjimfan = 英伟达首席科学家,AI机器人与多模态权威
@lilianweng = OpenAI资深研究员,大模型安全与对齐专家
@yannickilcher = 全球最好的AI论文解读者
@emollick = AI商业落地最接地气的实战专家
@tomcruise_ai = AI视频生成先驱,Sora最佳实践分享者
@nickfloats = 动态设计与AI视频结合的天花板
@danielgross = Apple AI前负责人,AI创意与工具投资第一人
其中有15个名单来自@vivoplt ,认同但我觉得还不够全,特此来一版最强名单,
还有哪些宝藏大佬我漏了?欢迎在评论区补充👇
译本推文汇总了 42 位在深度学习、大语言模型(LLM)、AI 编程、视频生成等核心赛道上备受关注的知名人士。名单整合了多位业界人士的推荐,既包括图灵奖得主 @ylecun、LLM 专家 @karpathy、Cursor 创始人 @alexgraveley、英伟达首席科学家 @drjimfan、OpenAI 资深研究员 @lilianweng 等行业标杆,也补充了如 @simonw(LLM 工具)、@chuan_en(大模型实战)等实战派人物。推文旨在为读者提供一份全面的行业关注列表,并邀请更多补充。
歸藏(guizang.ai)@op7418 · 5月25日40不吵架了,预告一下下一个 Skill 项目
基于 PPT Skill 可以帮你一键生成微信公众号和小红书封面
也可以基于文档生成小绿书和小红书图文所需的 3:4 组图
会自动处理你的截图素材,自动进行匹配
译推文预告了一个基于PPT技能的新项目,该技能能够一键生成适用于微信公众号和小红书平台的封面图。同时,它也能根据文档内容,自动生成符合小红书图文所需的3:4比例的多张图片。该技能的一个核心特点是自动化处理能力,可以自动处理用户提供的截图素材并进行内容匹配。
向阳乔木@vista8 · 5月25日55最近 Vibe 了一些小网站,好奇有多少访问。
于是让Codex在VPS上部署了一套umami统计。
官方版只能添加有限数量网站,自部署无限量。
想给哪个网站加浏览统计,只需要跟Codex说下就行。
如果你有闲置的VPS,从网站搭建,域名配置,流量统计,都可以交给Codex通过SSH完成。
真正口喷建站。
译用户通过Codex在VPS上自部署了umami统计工具,可为网站添加无限量流量监控。相比官方版有限制,自部署方案支持对任意网站通过指令快速启用统计功能。整个过程包括网站搭建、域名配置及数据统计均可由Codex通过SSH自动化完成,体现了“口喷建站”的便捷性。
宝玉@dotey · 5月25日57去做一个 Agent Harness 这种事情价值不大了,怎么做也做不过模型公司,模型一升级好多活都白干了。
但是基于成熟的 Agent Harness 去做方案,大有可为。
MCP 只是解决了连接的问题,Skills 只是解决了领域知识的问题。
垂直领域还有很多事需要解决:
- 为老的工作流针对 Agent 去重新设计 AI Native 的 Agent 工作流
- 在 Human In Loop 的部分,重新设计 UI、UX 交互
- 垂直领域的高质量数据整理
- 等等
这些事情是模型公司做不到的,也需要去共建的。
Agent 是未来的操作系统,几家模型公司提供模型和 Harness,其他人基于上面构建应用。
译文章指出,开发通用 Agent Harness 价值有限,但基于成熟的 Harness 进行垂直领域方案构建大有可为。目前,MCP 和 Skills 分别解决了连接和领域知识问题,但垂直领域还需重新设计 AI Native 工作流、优化人机交互 UI/UX 以及整理高质量数据等,这些是模型公司无法独立完成、需共建的环节。未来,Agent 将成为由少数模型公司提供基础模型与 Harness,更多应用在垂直层构建的操作系统。