AIHOT
精选全部 AI 动态AI 日报Agent 接入关于更新日志反馈信源提报
登录
精选全部日报更多
全部动态X · 3975 条
全部一手资讯X论文
歸藏(guizang.ai)@op7418 · 1天前68

http://x.com/i/article/2065096982310567936 # 万字长文:做了些爆款 Skills 以后,我对 Skills 的看法 如果看不完的话,可以先帮忙点个赞,收藏一下以后看,感谢。 我最近几次聊 Skills,有一个越来越明确的判断: 大家现在都在说 Agent,但大多数人其实还没有真正理解 Agent。 大众理解里的 Agent,往往还是一个聊天框。 你输入一句话,它回答一段文字;你再输入一句,它继续回答。 这个视角下,AI 好像天然会带来一种平权:以前不会写代码的人可以写代码,不会做 PPT 的人可以做 PPT,不会剪视频的人可以剪视频。 只要模型足够强,大家的能力差距就会被抹平。 但我越来越觉得,这个判断是错的。Agent 不是简单抹平能力差距,而是在放大能力差距。 头部用户已经默认理解 Agent 的组成: 文档、规则、memory、loop、MCP、CLI、工具调用、权限、安全沙箱、上下文工程、定时任务、心跳、文件系统、代码执行和 Skill。 但普通用户只知道“Agent 能写代码”“Agent 可以调用 Skill”,并不知道 Agent 的上限从哪里来,也不知道自己应该如何组织目标、资料和流程,才能让 Agent 真正工作。 > Agent:这里指的不只是聊天机器人,而是能理解目标、规划步骤、调用工具并持续执行任务的 AI 系统。 > Memory:Agent 用来保存长期偏好、项目状态和历史决策的外部记忆,不等同于模型训练记忆。 > Loop:Agent 反复“思考、调工具、观察结果、再决定下一步”的执行循环。 这里就出现了一个很大的认知割裂:头部用户已经在搭系统,普通用户还在问聊天框。 目标清晰、上下文好、品味和判断强的人,会被 Agent 放大; 目标混乱、没有文档、没有判断的人,也会被 Agent 放大混乱。 所以用户会出现 K 型分化。去年还可以靠产品设计、交互设计和用户教育降低一些门槛,今年我觉得已经很难靠简单 UX 弥合这个差距。 Skill 则可以弥合 Agent 使用能力差距。 ## Skill 是能力商品,不只是提示词 我现在对 Skill 的一句话定义是: Skill 是把专家经验、工作流、品味和工具调用封装成可分发、可复用、可迭代的 Agent 能力单元。 > Skill:把提示词、流程、工具调用、模板、脚本、边界和经验打包起来的可复用能力单元。 它不是单纯的提示词,也不是传统意义上的 App。 它更像 Agent 时代的“能力商品”。用户不需要理解底层的 MCP、CLI、workflow、memory、loop、模型选择、代码执行和上下文工程,只需要知道: 它解决什么问题,产出什么结果,怎么使用,别人用得怎么样。 提示词本身很难成为产品。它容易被复制,难以分发,没有版本管理,也缺少安装和调用语义。 Skill 把提示词、规则、示例、工具调用、文件结构、脚本、依赖和使用说明打包起来,让它变成一个可以安装、调用、迭代和传播的能力包。 所以 Skill 和 Prompt 本质上并非完全不同,但 Skill 的调用效率更高,分发和理解成本更低,也能承载更多工程化内容。 更重要的是,很多任务并不是一句提示词能解决的。 它们是一组稳定流程:读取材料,分析需求,选择模板,调用工具,生成产物,验证结果,修复问题,导出文件。 Skill 把这套流程从一次性对话中抽出来,变成可以反复调用的工作流。 比如 PPT Skill 的流程不是“生成 PPT”这么简单。 它要读取文章或大纲,询问主题、页数和配图,选择主题、颜色和版式,生成 HTML PPT,自动后验检查常见问题,再修正缺属性、未居中、溢出、图片裁切、节奏重复等问题,必要时还要调用图像模型生成配图,最后输出可演示、可分享的文件。 这背后真正有价值的,是 Skill 把人的演示经验被外化了。 ## Skill 的核心,是把人的经验外化 我做的设计类 Skill 很能说明这一点。 真正有价值的部分是把人的审美、版式判断、设计系统经验、模板选择、图片裁切规则、明暗遮罩规则、字体和颜色规则固化进去。 这要求创作者同时懂三件事:传统专业知识,AI 的上下限,以及产品化思维。 传统专业知识决定你知道什么结果算好。比如设计、剪辑、写作、健身、法律、商业化投放,每个行业都有大量隐性判断。AI 的上下限决定你知道模型什么能做、什么做不稳、什么必须工程化兜底。 产品化思维决定你知道用户场景、使用门槛、反馈路径和稳定性要求。 这也是我做几个 Skill 时最深的体会。 PPT Skill 最开始不是为了“做一个 Skill”,是因为我真的要做一场分享。 第一版基本成型后,我通过五六轮对话调整间距、字号、字体、颜色、配图、重复内容、WebGL 背景等问题。 讲完之后发现大家最关心的不是分享本身,而是 PPT 怎么做,于是才把这套模板和流程沉淀成 Skill。 社交媒体卡片 Skill 也不是凭空抽象出来的。它来自非常具体的内容分发需求: 3:4 竖版图文卡片,适配小红书、公众号、Twitter 等不同场景。它要处理 11 类内容,两套视觉系统,28 个版式骨架,真实图片 + Coding 排版,还要规避 AI 图限流、文字不锐利、平台风格不匹配等问题。 Logo Generator Skill 也是同一逻辑。它没有直接让图像模型一把梭生成 Logo,因为图片模型的文字、结构和可编辑性不稳定。 它选择先生成 SVG Logo 变体,再生成展示图和 WebGL 背景,把 Logo 本体、展示场景和交互背景拆成不同层,分别用最适合的技术处理。 AI Desk Card 则说明 Skill 的边界可以扩展到物理环境。 它让 Agent 接管屏幕边缘的物理信息位:固件烧录、Wi-Fi 配置、信息推送、定时任务、memory、todo、日历、GitHub 展示、墨水屏刷新,都可以被封装成一套 Skill。 这些案例共同说明:Skill 和核心是“人把什么经验变成了可调用的能力”。 ## 用户不关心概念,用户关心结果 对普通用户来说,Skill、MCP、CLI、Plugin 叫什么并不重要。 他们关心的是:这个功能能解决什么问题,适合什么场景,我点一下能不能用,需要输入什么材料,结果长什么样,别人用得怎么样。 > MCP:Model Context Protocol,可以理解为让 AI 以统一方式连接外部工具、数据源和服务的协议。 > CLI:Command Line Interface,命令行工具;对 Agent 来说,它常常是比图形界面更稳定、更容易自动化的操作入口。 因此,面向用户的产品层不应该堆术语。Codex 把很多东西统一叫插件,我觉得就是一个正确方向:弱化概念,强调功能。 底层可以是 Skill、MCP、CLI 或原生 Plugin;用户只需要知道它能干什么。 但对产品和创作者来说,这些底层形态的区别又很重要。 Skill 适合承载相对垂直、可描述、可复用的工作,比如 PPT、社交媒体卡片、文章配图、写作润色、视频包装、简历优化、数据可视化、某个行业 SOP。 MCP 更适合 Agent 架构中的原子服务和上下文连接,比如地图、浏览器、网盘、设计稿、数据库、企业 API。 CLI 则是目前很现实的通用 Plugin 形态:命令行、代码、Skill 都可以封装进去,也不绑定单一 Agent 平台。 飞书 CLI 就是一个很好的例子。用户不用理解 200 多条命令,也不用知道背后是哪个 API。 他只需要说“帮我把今天的智能纪要拉到笔记里”,Agent 背后可以搜索云文档、读取妙记、下载逐句转写、写入本地 Markdown、建立反向链接。 用户看到的是结果,Agent 用的是工具,Skill 封装的是流程。 这也是为什么 Skill、CLI 和 MCP 的关系不能只从技术概念上理解。 它们最终都要落到一个问题:怎么让普通用户用上头部用户已经验证过的能力。 ## 好 Skill 的架构:中心短,辐射厚 很多人会把 Skill 理解成一个 SKILL.md 文件,这只说对了一半。 > SKILL.md:很多 Skill 的入口说明文件,用来告诉 Agent 什么时候加载这个能力、按什么流程执行、哪些坑不能踩。 好的 Skill 往往是一个目录。SKILL.md 只是入口,旁边还可以有 scripts/、references/、assets/、模板、schema、配置文件、子 Skill 和特殊案例。 复杂 Skill 不怕有复杂内容,怕的是把复杂内容一次性塞给模型。文件系统本身就是一种上下文工程。 > 上下文窗口:AI 一次能“看见”和处理的信息范围,文档、代码、聊天记录和工具说明都会占用它。 好 Skill 的信息架构应该是“中心短,辐射厚”。 SKILL.md 只放高信号流程和判断;references/ 放重文档和领域材料,按条件读取;scripts/ 放确定性逻辑,让 Agent 调用而不是重写;assets/ 放模板、schema、示例、字体、主题和版式骨架;配置文件或稳定数据目录放首次配置、偏好和历史记录。 这里有个很关键的点:Skill 的 description 不是宣传语,也不是功能摘要,是路由触发器。 好的 description 应该描述用户什么时候需要它,最好来自真实用户表达;坏的 description 只是解释“这个 Skill 做什么”。 比如一个 PPT Skill,不应该写“这个 Skill 可以生成漂亮 PPT”。 它应该写“当用户需要把文章、大纲或演讲内容转成可演示 HTML PPT 时加载”。前者是广告,后者是 Agent 的判断条件。 这能解释为什么“把所有能力塞进一个大 Agent”不是好方向。 大而全的 harness 会把工具定义、协议细节和长文档塞满上下文,带来更高延迟、更高 token 成本和更多误用。 反过来,薄 harness 只提供最小运行环境,Skill 作为按需加载的能力包,才能让系统长期复利。 > Harness:运行 Agent 的外层程序,负责模型循环、文件读写、上下文管理和安全边界。 更稳的架构是 Thin Harness, Fat Skills:harness 保持薄,负责跑模型循环、读写文件、管理上下文、执行权限和安全边界; Skill 变厚,承载流程、判断、领域知识、模板、脚本、资产、gotchas 和 eval; 确定性工具下沉给 CLI、scripts 或 API;模型留在理解、判断、综合、取舍和表达这些更适合它的部分。 > Thin Harness, Fat Skills:让 Agent 底层运行环境保持轻,把具体流程、领域知识、模板、脚本和失败经验放进按需加载的 Skill 里。 ## Skill 质量要像代码质量一样维护 好 Skill 不是一次写完。它需要维护,而且要像代码质量一样维护。 一个比较可靠的生命周期是: 1. 先用无 Skill 的 Agent 跑真实任务,找到它会错在哪里; 1. 基于真实 query 写 eval,包括正例、反例和 forbidden load; 1. 先调 description,确保该加载时加载,不该加载时不加载; 1. 写主体时删除显而易见的内容,只保留会改变模型行为的判断; 1. 把失败案例追加到 gotchas,而不是不断加长主流程;改 description 或路由边界时补 eval; 1. 再做跨模型测试,看不同编排模型对 Skill 触发和执行的差异。 > Eval:用一组真实或模拟任务测试 Skill 是否按预期触发、执行和交付结果。 > Gotchas:从真实失败里总结出来的“别这么做”清单,往往比正向说明更能提升 Skill 稳定性。 这里有一个很重要的原则:每个 Skill 都是一种税。 它进入索引后,每个会话、每个用户都在为它的 name 和 description 付上下文成本; 它被加载后,后续对话都在为主体内容付成本。 所以每一句都要问:没有这句,Agent 会不会做错?如果不会,就删。 gotchas 是最高价值内容,因为它们来自真实失败。 正向原则往往模型已经知道,负面边界才是专家经验。 设计 Skill 中“不要纯白纯黑”“连续三页相同节奏是 P0 错误”“文字不能压脸”“AI 图只在无合适真实图时使用”,都属于 gotchas 或强约束。 这也解释了为什么完全自动生成 Skill 只能做初稿。 模型可以帮你起草结构,但它无法凭空拥有你的失败样本、审美判断、行业边界和用户反馈。 真正有价值的是人把经验注入进去,再通过 eval 和 gotchas 让它持续变厚。 ## 设计 Skill 的本质:把品味变成约束 设计类 Skill 不是简单的“AI 会画图”。 它需要解决模型不稳定、图像限流、文字不锐利、排版不可控、风格一致性难判断等问题。 我现在越来越觉得,设计 Skill 的核心是把专业品味变成模型可执行的限制。 模型默认会收敛到一些平庸模式: Tailwind 大色块、紫色渐变、emoji 堆砌、Inter 字体、发光、过度圆角、无意义动效、信息密度失控。这不是模型没有审美素材,而是没有稳定的取舍原则。 所以设计 Skill 里最有价值的是主观但明确的约束: - 不使用纯白和纯黑,降低刺眼和廉价感; - 不让用户任意输入 hex,只提供经过验证的主题色板; - 不用紫色多彩渐变、发光和大面积 blur 作为主视觉捷径; - 动画只在必要时使用,且只动 transform 和 opacity; - 图文卡片优先真实摄影和截图美化,AI 生图只是兜底; - 版式骨架先被人工验证,AI 负责填充、组合和微调;文 - 字必须根据图像主体、明度和可读区域自适应落点、字色、遮罩和断行。 这些规则看起来限制自由,实际是在保护输出下限。 设计类 Skill 的质量来自“替用户排除绝大多数会变丑的选项”。 这也是我几篇 Skill 文章里反复出现的经验: 好看不是玄学,而是可拆解、可编码、可检查的行业常识。 Skill 的价值,就是把这些常识压进 SKILL.md、模板、checklist、主题变量和后验检查里。 PPT Skill 和社交媒体卡片 Skill 的一个共同方法,是把 AI 的任务从“自由设计”降级成“在高质量骨架里填充”。 PPT Skill 里,10 种页面布局、5 套主题色、字体三级分工、7:5 / 6:6 / 8:4 网格、hero 与 non-hero 的节奏交替,构成了一个稳定的演示系统。AI 不需要从零发明版式,只需要根据内容选择合适页面类型并填进去。 社交媒体卡片 Skill 进一步把场景校准到手机信息流: 3:4 是主战场,1 秒决定停不停下。它不是把 PPT 截图成竖图,而是重新定义了图文品类、版式比例、断行规则和素材优先级。 11 个内容品类、两套视觉系统、28 个版式骨架、截图美化、地图组件、真实图库和克制 AI 生图,共同构成了“内容平台视觉 Skill”。 Logo Generator Skill 也是同一逻辑: 不直接让图像模型一把梭生成 Logo,因为图片模型的文字、结构和可编辑性不稳定; 他是先生成 SVG 变体,再做展示图和 WebGL 背景。这里把 Logo 本体、展示场景、交互背景拆成不同层,分别用最适合的技术处理。 所以设计 Skill 的通用公式是: 人工沉淀审美系统,模型理解内容和语义,代码负责稳定排版和导出,图像模型只处理适合它的视觉部分。 这比单纯“让 AI 画一张图”更慢一点,但可控、可改、可复用,也更适合内容创作者长期使用。 ## Skill 生态不能做成仓库列表 如果一个 Skill 能被图文、案例、评价、使用数据、作者、应用场景反向链接起来,它就不只是一个工具,而是一个社区节点。 > 反向链接:从使用案例、文章、图文或项目页面反过来链接到某个 Skill,让人能看到它被谁用、怎么用、效果如何。 当前很多 Skill 展示的问题是: 列表很长,像 GitHub 仓库名;图标都一样;没有结果展示;没有评价指标; 多模态 Skill 也只用文本展示;用户不知道哪个适合自己。 推荐 10 个或 20 个精选 Skill,并讲清楚怎么用,远好过给用户几千个列表。 每个 Skill 都应该像一个软件功能页。页面应该说明: 它解决什么问题,适合什么场景,需要输入什么,输出长什么样,典型提示词是什么,生成结果截图或视频,谁用过、怎么评价,有哪些常见失败情况,如何安装和修改。 这本质上需要强运营。 不是把名字列出来,而是一个一个挑、一个一个写介绍、展示结果,最好还有视频讲解。 GitHub 是代码型 Skill 的天然托管地,因为 Skill 往往包含代码,需要版本管理; GitHub 有生态位、版权声明和分发基础;AI 也熟悉 Git 和 GitHub 操作;开源还能覆盖所有 Agent 平台,不绑定单一产品。 但小红书适合做视觉内容和使用案例分发。 小红书的优势是内容感知、视觉展示、用户审美和评论体系。 PPT Skill 和社交媒体卡片 Skill 都已经在小红书之外的人群中传播,比如咖啡馆主理人、数码测评、活动策划、餐厅、三线城市分享场景。这说明 Skill 能跨出 AI 圈。 应用商店式 Skill 分发也有潜力:更精准推荐、更低使用门槛、可能给创作者分成。 但对创作者来说,如果只在一个平台上架,就等于押注这个平台能做好产品、生态、分发和市场占领。 更稳的策略可能是:GitHub 做基础分发和跨平台覆盖,平台 Skillhub / 应用商店做体验优化、运营推荐和商业转化。 未来的 Skill 平台,本质上会同时是 App Store、GitHub、社区种草页、评价系统和 Agent 工具层。 ## 普通用户真正卡在哪里 AI 圈外的人并非不能用 Skill。 实际观察中,咖啡馆主理人、数码测评、活动策划、健身教练等都能用出好结果。 真正卡点是交互心智。 很多人仍然用传统软件思维,以为一次生成就该完成: 不习惯通过 chat 连续调整;不知道可以要求 AI 改颜色、改字、修溢出、换图;不知道如何提供上下文和素材;也不知道如何从自己的工作流中抽 Skill。 因此,Skill 产品不仅要提供安装,还要提供使用教育。 行业 Skill 会是一个很重要的方向。很多行业有非常好的经验和客户洞察: 健身、法律、餐饮、活动策划、教育、商业化投放等。但行业专家不一定知道如何做 Skill,也担心分享后被盗。 这里的关键不是把 Skill 作为服务添加项。 健身教练可以用 Agent 维护会员饮食、训练、有氧、提醒和反馈,提高客户粘性和服务效率。 法律从业者可以把琐碎文本处理、条文审查、格式检查做成辅助 Skill,但核心判断仍由人完成。 餐饮和活动行业可以用图文 Skill 把真实图片和故事包装成可传播内容。 AI 不能替代线下履约,但可以提高获客、沟通、维护和复用效率。 这类行业用户只需要基础启蒙:带他做一次需求分析,落地成一个 Skill,他就知道边界在哪里。 每个行业都有先锋用户:有创造力、有好奇心、想用 AI 获得竞争优势。先服务这些人。 ## 内容 Skill:文章、产品和案例互相喂养 从我已有文章看,我正在形成一条很清晰的内容 Skill 路线: 不是为某个抽象 AI 概念写文章,是先做出一个能用的 Skill,再把制作过程、设计判断和使用场景写成传播内容。 这类内容有几个特点。 PPT Skill 最初来自一次 AI 和组织分享,观众问得最多的是 PPT 怎么做,于是从一次交付沉淀成开源 Skill。这是副产品变主产品。 文章本身像说明书,但不是 README。 它要讲清楚为什么这样设计、适合谁、边界在哪、真实效果如何,降低用户理解门槛。 产品演示本身就是内容资产。PPT 截图、图文卡片、Logo 展示图、Desk Card 场景图,都可以成为传播素材。 Skill 反过来也提升写作效率。社交卡片 Skill 可以把文章段落直接转成更适合小红书、公众号或 Twitter 的视觉卡片。 每篇文章都在扩展 Skill 的语义边界。 PPT 是演示,Social Card 是内容分发,Logo 是项目品牌资产,Desk Card 是硬件和环境 UI,夜巡录则指向游戏 demo 工作流。 这说明 Skill 不只是“工具产品”,也是内容创作者的表达基础设施。 过去文章和产品是分开的:先做产品,再写推广。现在 Skill、文章、案例、开源仓库、社交反馈会互相喂养。 一个成熟路径可能是:用 Agent 完成一次真实任务,把过程沉淀成 Skill,用 Skill 产出的可视化结果写文章,文章带来用户和反馈,反馈补成 gotchas、模板和下一版 Skill,新版 Skill 再产生下一轮内容。 这就是个人产品在 Agent 时代的复利飞轮。 ## Skill 的边界会继续扩大 过去“插件”通常意味着软件里的一个按钮。现在 Skill 的边界可以明显更大。 浏览器 Skill 会是消费者入口。Tabbit Browser 一类产品说明,Skills 可以进入浏览器场景,变成普通用户在网页、资料、脚本和自动化之间的入口。 浏览器是大众最熟悉的工作环境,如果 Skill 能以“现成脚本 / 使用案例 / 一键执行”的方式出现,会比裸露 CLI 或 GitHub 仓库更容易被理解。 硬件 Skill 则说明 AI 可以接管环境 UI。 AI Desk Card 的价值在于它把 Agent 的能力延伸到了物理环境: 安装固件、配置 Wi-Fi、写 cron、读取 Memory、选择 widget、刷新墨水屏,全流程由 AI 引导。用户不再面对 App 设置页,AI 本身就是设置页。 游戏 Skill 代表更长链路的创作流程。 夜巡录开发手记里提到的“独立游戏 demo Skill”,从玩法母题、原型、素材采集、绿幕抠图、contact sheet、视频生成、音乐、Electron 打包、GitHub Actions 到 Release。 封装是一套跨程序员、美术、动画、作曲和运维的生产流水线。它的价值是把“做个原型”和“独立交付完整作品”之间的墙变薄。 这些案例共同说明: Skill 的未来不只会局限在聊天框里,它会扩展到浏览器、桌面、本地文件、硬件、内容平台、游戏引擎和真实工作环境。 ## Skill 与 Gene:手写经验和自动进化的边界 还有一个值得保留但需要谨慎使用的对比:Agent Skill 与 GEP Gene。 Skill 更像人类预先沉淀的能力包:有明确创建者、明确边界、明确流程和版本。 Gene / Capsule 这类概念强调运行中从成功经验里自动长出能力:带成功率、变异历史、适用上下文和自动修复机制。 > Gene / Capsule:这里指从 Agent 反复执行中的成功路径里沉淀出的可复用经验单元,强调自动演化而不是人工手写。 这两者不是简单替代关系,是不同的层级。 Skill 适合承载人的专家经验、审美、行业 SOP、工具不变式和明确交付标准; Gene 适合从重复执行中捕捉成功路径,把临时试错变成可复用经验;Capsule 类似把多个 Gene 组合成更长工作流。 从当前产品现实看,Skill 仍是更可落地的单位,因为它能被写、被审、被发布、被解释、被传播。 但长期看,自动沉淀 Skill / Gene 化经验会成为方向:Agent 先用通用工具试错,成功后把路径写回 Skill 或生成新的子能力。 这也回应了“自动沉淀 Skill”的讨论。系统可以自动发现重复流程,但是否值得沉淀、如何命名、边界在哪里、哪些失败要写进 gotchas,仍然需要人的判断。 真正理想的形态不是完全自动,也不是完全手写,而是人定义品味和边界,Agent 负责收集证据、提出改动、补充 eval 和维护长尾经验。 ## 盗用不是靠藏,防御方式是持续分发 Skill 很难靠闭源防盗。即便不开源,只要看到产出结果,试用几次,也可能被复刻。 所以防御方式不是“藏起来”,而是开源覆盖更多平台,用影响力威慑过分盗用者,做自媒体让用户知道源头是谁,用持续迭代建立领先,用社区案例和评价体系形成品牌资产。 在产品壁垒降低的时代,个人产品如果没有渠道、资源和营销,就必须自己做宣发。以前自媒体是可选项,现在是基础设施。 ## 平台真正该做什么 如果要做 Skill 平台,不能只押 Skill。用户下载独立端的理由,首先是 Agent 基础体验足够好: 漂亮好用的客户端,多模型支持,尤其国产模型;文件、项目、memory、CLI、MCP、Skill 管理; 权限和安全沙箱;长程任务和状态延续;多设备流转,手机控制桌面,桌面反向控制手机;官方高质量插件开箱即用。 Workbody 的启发是,它没有做特别独特的东西,只是把该有的基础体验做齐了。很多国内产品连这一点还没做好。 一些高频、必须、常见的能力应该内置并打磨好,不要让用户自己折腾安装。 官方插件强,会形成壁垒。多设备、云端和本地互控,也会形成壁垒。 Skill 与本地环境强相关时,移动端需要遥控 PC。 Skill 可跨端通用,但依赖本地文件、脚本、浏览器、CLI 的 Skill 在移动端很难直接跑。 移动端适合轻量级从 0 到 1 创作;桌面端适合重任务和本地环境调用。 自动沉淀 Skill 是长期方向,但好 Skill 仍需要人。Dumate 等产品提出“自动沉淀 Skill”:从用户重复工作中自动总结流程。 这个方向成立,但好 Skill 仍需要业务 SOP、品味、测试和迭代。自动生成可以做初版,真正能稳定交付的 Skill 需要打磨。 ## 一个完整 Skill 生命周期 如果把前面的判断收束成一条路径,一个完整 Skill 生命周期大概是这样的。 先发现真实需求,从自己或行业用户的重复工作开始。 再做一次高质量产物,不要先抽象,先用 Agent 解决真实任务。 然后抽象流程,识别可复用步骤、输入、输出、约束和工具。 接着工程化模板,把审美、版式、调用、验证和修复机制固化。 再做跨模型测试,好模型看上限,差模型保下限。 之后才是封装发布,GitHub 托管,配 README、示例和安装方式。 再做内容分发,用小红书、Twitter、公众号、视频展示结果。然后收集反馈,从 issue、评论区、用户案例和平台数据里找真实问题。 反馈还要筛选,只吸收能提升泛化和稳定性的部分。 这条路看起来长,但它的本质很简单: 每一次真实任务,都不只是在完成任务,而是在积累下一次能调用的能力资产。 Agent 时代最稀缺的是可复用的能力组织方式。 Skill 之所以重要,是因为它第一次让人的经验、工作流和品味,有机会变成一种可以分发、调用、评价和持续迭代的商品。 这可能才是 Agent 生态里真正的大机会。 好,今天的内容就到这里。如果你觉得有帮助,欢迎帮我点个赞,或者转发给你需要的朋友。

译作者认为Agent并非抹平能力差距,而是放大K型分化,Skill可弥合鸿沟。Skill是把专家经验、工作流、品味、工具调用封装成可分发复用的Agent能力单元,如PPT Skill、社交媒体卡片等。好Skill的信息架构应为“中心短,辐射厚”:SKILL.md只放高信号流程,其余依赖文件系统分层管理,以高效利用上下文窗口。

查看原推 ↗
ginobefun@hongming731 · 1天前58

http://x.com/i/article/2065232915970371585 # BestBlogs 早报 · 06-12|智能体解耦、Harness 工程化、脚手架被吞 在线阅读本期早报 ## 导语 智能体工程化正在从两端同时收紧。一端是 Anthropic:用 Claude Managed Agents 把推理与执行彻底解耦,靠可恢复的事件日志和独立 Vault 撑起企业级落地,首字延迟中位数已经大幅下降,Notion、Sentry、Rakuten 等公司的生产环境已经跑通。另一端是一位阿里工程师:用三层加载架构、dispatcher 状态机和 G1-G8 门禁,治好了 CLAUDE.md「规则越堆越多、AI 越读越懵」的老毛病,给出了一套「用结构约束 AI,而不是用更多字约束 AI」的可复用模式。再往远看,Sequoia Capital 对 Google AI Studio 与 Gemini API 负责人的一场访谈提了一个更让人不安的趋势:模型正在把外层脚手架一口口吃掉——路由、执行环境这类原本要靠工程团队搭的能力,正逐渐被基础模型自己吸收,留给独立创业公司的窗口正在变窄。 今天的速览部分同样值得关注:从"决策-执行-交付三明治"模型看 AI 为什么不会取代软件工程师,到阿里云用声明式 CRD 把多智能体协作模型化的 AgentTeams 实践,再到端侧大模型靠 Arm SME2 指令集实现 Prefill 提速 80% 的工程细节,以及一位 4 人团队靠 Agent 协作平台冲上 GitHub Trending 的真实运转记录——这些案例和今天的三篇精讲互为印证:工程化的红利正在向「会搭框架、会用工具」的团队和个人集中。 ## 精讲一:智能体交互界面的演进:使用 Claude Managed Agents 进行构建 | Claude 背景:从「一问一答」到「全程托管」 2023 年 Anthropic 开放 Claude API 的时候,接口设计非常朴素:token 进、token 出,一次请求对应一次模型轮次,剩下的事全部交给开发者自己处理。这套契约支撑了文档摘要、工单分类、文本改写这类「单轮搞定」的工作,但很快就不够用了——用户希望 Claude 能把一个任务从头跟到尾:去查一些东西、基于结果采取行动、观察发生了什么变化、再决定下一步做什么,而且要能直接在代码库、内部 Wiki、工单系统这些「真实战场」里操作。 要把 Claude 变成这样的智能体,开发者过去必须自己搭一套循环:问模型该做什么、执行工具调用、把结果喂回去、再循环一遍。Anthropic 在 2025 年推出的 Claude Code 内置了这样一套经过打磨的 harness(智能体执行框架),随后开放成 Claude Agent SDK,让开发者可以在同一套机器之上构建自己的智能体,而不必维护一套自研循环。 关键事实:把「大脑」和「双手」彻底拆开 即便有了 SDK,把智能体真正推向生产环境依然困难重重:智能体的代码要在哪里跑、会话历史和进度存在哪里、运行中断后能不能干净地恢复、出了问题的「爆炸半径」有多大、凭证怎么给而不暴露给生成的代码、自主运行一小时之后能不能复盘每一步。这些问题的根源往往是同一个架构选择——智能体的 harness 和它操作的文件系统跑在同一个容器里:容器要先启动才能让 Claude 开始思考(付出启动成本),代码执行紧贴着凭证,容器一旦挂掉整次运行就跟着没了。 Claude Managed Agents 的解法是把「调用 Claude 的 harness」和「代码真正执行的沙箱」彻底拆开,中间用一份可追加的事件日志(session)连接两端——记录每一次模型调用、工具调用和结果。这意味着 Claude 可以在沙箱还没创建出来之前就开始推理,沙箱本身离凭证很远,而整次运行随时都可以从事件日志中重建出来。围绕这套架构,Managed Agents 由三类资源组成:agent(模型 + 提示词 + 工具 + 护栏的配置)、environment(沙箱容器、网络规则和预装包,可以跑在 Anthropic 云上也可以跑在企业自己的基础设施上)、session(每次运行,把一个 agent 和一个 environment 配对,拥有自己独立的沙箱实例)。 凭证管理是另一处关键设计:MCP、CLI、GitHub 仓库等工具的 token 统一存进独立的 Vault,用信封加密保护,检索时需要一份经签名验证的请求 token,代码本身永远拿不到这些凭证——即便 prompt injection 想诱导模型读取自己的运行环境,也读不到任何敏感信息。在性能层面,由于 Claude 可以在环境并行启动的同时立即开始推理,从不调用工具的会话甚至可以完全跳过容器,实测下来首字延迟中位数(p50)降低了约六成,最慢的长尾情况(p95)降低超过九成。 为什么重要:基础设施差异正在被「抹平」 这篇文章最值得关注的一点,是它把「智能体工程」里最耗时的部分——安全、状态管理、权限、harness 调优——明确定义为「不构成产品差异化」的通用基础设施。当 harness 没能跟上模型智能的进化,智能体就会出问题:在 Claude Sonnet 4.5 上,模型会在上下文快用完时匆忙收尾、提前打住工作,团队为此专门给 harness 加了「上下文重置」机制;但到了 Claude Opus 4.5,这个行为消失了,之前加的重置反而变成了纯粹的开销。这说明 harness 调优本身是一种会随着模型迭代而过期的「沉没成本」,与其反复自己调,不如把这部分托管出去,把精力放在「上下文管理和领域专长」这些真正能拉开差距的地方。 与今日其他报道的关系 这篇文章和今天另外两篇精讲构成了一个完整的叙事闭环:Anthropic 用 Managed Agents 把通用 harness 能力产品化、托管化,恰好对应阿里工程师在精讲二里复盘的「自建 harness」的另一种路径——一个是把基础设施外包给平台,一个是自己动手搭三层加载架构;而 Logan Kilpatrick 在精讲三里提出的「模型吞掉脚手架」趋势,则提示无论是托管方案还是自建框架,都需要持续关注哪些能力会被模型本身吸收。Notion、Sentry、Rakuten 等公司的落地案例,也呼应了速览中阿里云 AgentTeams 把多智能体「组织化」的思路——基础设施成熟之后,下一个竞争点是「怎么把 Agent 团队真正用起来」。 阅读建议 如果你正在评估是否要自建智能体 harness,这篇文章值得通读全文,重点看「凭证管理」和「会话持久化」两部分的具体设计——这两点往往是自建方案里最容易留坑的地方。完整内容见 BestBlogs 阅读原文。 ## 精讲二:AI 不缺智商缺纪律:一场 Harness 工程化实践 背景:CLAUDE.md 越写越厚,AI 反而越读越懵 一位阿里工程师分享了他过去两个月用 AI 编码时踩过的一个典型坑:一开始他用一个不断膨胀的 CLAUDE.md 解决 AI「不守纪律」的问题——先写单测、部署前评审、提交前合并主分支,所有规矩都往里堆。这套做法管用了三天,然后问题以更严重的形式回来了:规则多到把上下文「撑爆」,模型读完所有规则之后已经没有「脑容量」去读代码,于是开始遗忘、串味、自我矛盾。他由此得出一个核心判断:对付 AI 的不确定性,堆 prompt 是负债,搭框架(harness)才是资产。 关键事实:三层加载架构 + dispatcher 状态机 + G1-G8 门禁 文章的核心是一套三层加载模型,设计思想可以浓缩成一句话:把上下文当预算管理,而不是当免费的草稿纸。常驻入口层(CLAUDE.md + CLAUDE.local.md)只放角色定义、代码偏好、流程触发规则和门禁速查表,把主会话的常驻上下文压到 8K 以内;原子规则层(rules/)每条规则单一职责,本质是把踩过的坑固化成强制约束——「每条规则都是一次事故的墓志铭」;按需上下文层(context/)存放完整流程详情、Pre-Mortem 模板、TDD/ATDD 指南等深度内容,只在进入对应阶段时才被读取,用完即释放。 更关键的是角色 Agent 层:一个 dispatcher 读取 state.json 和 workflow.yaml,决定下一步该调用哪个 agent,自己只管路由不管业务;orchestrator 负责合成三角色(业务、技术、质量)评审的观点并向用户确认;developer、verifier、deployer、tester 各管一段,从方案到验收一步一岗。主会话被刻意「降级」成一个只听 dispatcher 指令的纯执行器——这个设计反直觉,因为我们本能地想让主模型更全能,但全能恰恰是污染之源。贯穿全文的还有一条 19 节点的标准研发链路,按 intent(意图)× risk(风险)动态裁剪——一次简单的 BUG_FIX/LOW 任务只需要检查 5 个节点,而 FEATURE/HIGH 任务要走满 19 个节点,外加一条硬规则:只要检测到真实业务代码改动,部署预发和接口测试自动成为必需节点,堵死「改了代码、没验证就收工」的漏洞。 为了回答「改完 harness 到底是变好还是变坏」这个问题,作者还搭了一套确定性评分平台:100% Python 逻辑、零 LLM 调用、3 次跑分 hash 完全一致,从 7 个维度(参考了 SWE-bench、AgentBench、Anthropic Eval Guide、CMMI 等方法论)给每次执行打分,权重最高的两个维度是流程完整性(22%)和代码正确性(22%)——前者靠「产物文件在不在」而不是「模型说做了」来判断,后者用真编译、真单测来防止 AI 自我汇报和实际结果之间出现「诚实度差距」。 为什么重要:从「堆 prompt」到「做框架」的范式转移 这篇文章给出的核心论点,是 AI Coding 的瓶颈正从「模型能力」转移到「流程工程」——模型已经足够聪明,但不稳定,而稳定性必须由外部框架供给。文章引用了多项研究支撑这个判断:Stanford 的「Lost in the Middle」研究表明 LLM 注意力呈 U 型分布,中部信息准确率显著下降;另一项研究(arxiv 2605.29682)发现原始 token 消耗和工具调用只能解释 agent 成功率方差的 R²=0.33~0.42,而验证反馈质量能达到 R²=0.94~0.99——也就是说,决定 AI 干活靠不靠谱的不是「给它多少预算」,而是「检查做得多好」。这也是为什么作者坚持用确定性评分而非 LLM 评委:宁要可复现的「粗糙分」,不要会漂移的「精准分」。 与今日其他报道的关系 这篇文章和精讲一形成了有趣的对照:Anthropic 把 harness 能力做成了托管产品,而这位工程师选择自己动手,用 dispatcher + 文件交接的方式搭了一套轻量级的「控制平面」。两者殊途同归的地方在于:都把「流程纪律」从模型推理中外置成确定性的基础设施——一个靠平台层的事件日志和 Vault,一个靠文件系统的状态持久化和 G1-G8 门禁。文章里提到的「fail-closed(默认拒绝,只放行显式允许的操作)」原则,也是精讲三里 Logan Kilpatrick 讨论的「脚手架」最终会沉淀成什么形态的一种答案:当模型还不能自我保证流程纪律时,这类外置约束就是当下最稳的解法。 阅读建议 如果你正在用 AI 做长周期、跨多个阶段的开发任务,这篇文章里的三层加载架构和 19 节点裁剪规则可以直接拿来参考;如果你更关心「怎么验证一次 harness 改动到底有没有用」,重点看第四部分的 7 维评分体系设计。完整内容见 BestBlogs 阅读原文。 ## 精讲三:Google DeepMind 的 Logan Kilpatrick:为什么模型会吞掉智能体脚手架 背景:Google 智能体生态的「重新打地基」 在 Sequoia Capital 主持的这场访谈中,Google AI Studio 和 Gemini API 负责人 Logan Kilpatrick 谈到了 Google 产品生态正在经历的一次范式转变。过去 Google 旗下的各类产品之间缺乏统一的主线,Gemini API 的出现提供了一层共享的基础智能层,而当前的演进则聚焦于通过一套被称为 anti-gravity agent harness 的智能体框架进行深度架构整合——这套框架横跨核心 IDE 功能、Web 界面、CLI 和 SDK 能力,把消费级和开发者工具统一改造成能够自主执行长周期任务的智能体原生环境。 关键事实:Gemini 3.5 Flash 的提升全部来自后训练,模型在「吃」周边脚手架 Logan 特别提到,智能体执行最强的落脚点是软件工程领域。在讨论模型训练路径时,他强调 Gemini 3.5 Flash 在编程任务上观察到的性能跃升完全来自后训练增益——这让一个体量更小的模型在编程任务上反超了此前的 Pro 版本。同时,Google 内部的深度「自用」(dogfooding)也大幅压缩了产品迭代周期,让工程团队能比传统开发流程更快地构建和上线复杂的桌面与移动端原生工具。 更值得关注的是「世界模型」架构的演进——以 Omni 这样的系统为代表,行业正从「文本、音频、图像、视频分别建一条独立流水线」转向「统一的单一模型结构」,能够同时解释多模态序列,并在编辑操作中展现出对场景的整体理解:调整环境的同时保持历史上下文和核心主体的一致性。Logan 给出的一个核心趋势是:应用层的一个普遍现象是基础模型在系统性地「吞掉」周边基础设施——曾经作为外部平台脚手架搭建的工程能力(比如路由机制、执行环境封装),正逐渐被上移并整合进模型自身的核心逻辑中。 为什么重要:独立公司的生存空间在收窄 对于独立创业公司和软件初创团队而言,Logan 给出的结论并不轻松:长期生存将高度依赖于在特定垂直领域内的深度专精,只有这种独特的市场聚焦才能在某些场景下跑赢通用化的消费级系统。换句话说,「在模型外面搭一层路由 / 编排 / 执行环境」这件事本身的护城河正在变薄——基础模型每完成一次后训练迭代,就可能把昨天还需要专门团队维护的脚手架变成今天的「免费午餐」。 与今日其他报道的关系 这篇访谈给今天的另外两篇精讲提供了一个更长远的视角。精讲一里 Claude Managed Agents 把 harness 做成托管基础设施、精讲二里那位工程师辛苦搭出的三层加载架构和 G1-G8 门禁——这些工程投入的价值会随着模型本身「吃掉脚手架」的速度而发生变化。但这并不意味着这些投入是徒劳的:恰恰相反,越是「过程可观测、可固化成规则」的工程能力,越有可能被模型吸收为原生能力,而那些依赖深度领域知识、无法简单规则化的部分,反而会成为 Logan 所说的「垂直专精」的真正壁垒。这也是为什么精讲二的作者特别强调「这套模式的价值会随模型进化而衰减,当模型强到能自我保证流程纪律的那天,harness 就该功成身退」——两篇文章在不同立场上得出了相似的判断。 阅读建议 如果你在思考公司或团队的技术护城河,这段访谈值得完整看一遍,尤其是关于「世界模型」架构演进和「脚手架被吞」的部分,能帮你判断当前投入的工程能力哪些更容易被模型吸收、哪些更值得长期押注。完整内容见 BestBlogs 阅读原文。 ## 速览 为什么 AI 还没有取代软件工程师,而且也不会 这篇文章用「决策-执行-交付三明治」模型来解释一个反直觉的现象:尽管 AI 编程能力的进步速度和落地速度都远超其他行业,软件工程师的整体岗位需求并未出现大规模裁员。文章把知识工作拆成三层——决策(decide)、执行(execute)、交付(deliver),AI 主要压缩的是中间的「执行」层,但两端的「决策」和「交付」(包括对结果负责)依然高度依赖人类判断,不会因为模型能力的单纯提升而被自动化吞掉。文章还引用了一项基于真实 AI 编程会话日志的研究(SWE-chat),数据显示只有 44% 的 agent 生成代码最终进入了用户的正式提交。文章作者来自专注于 AI 评估的研究团队,本文是系列文章的第一篇,后续会讨论个体工程师的职业路径为何仍可能颠簸。阅读原文:BestBlogs。 云原生 - AI Native 多智能体数字人架构实践 阿里云开发者团队分享了他们基于商业化产品 AgentTeams 落地「数字员工小分队」的实践:通过声明式 CRD(自定义资源定义)把组织结构和协作策略模型化,让多个 Agent 像一个真实团队一样分工协作,而不是各自为政、互相抢活。文章用一个凌晨三点的告警场景开场——以前需要值班同学被叫醒、登录跳板机、翻日志、判断根因、必要时拉群升级,整套流程下来 MTTR(平均故障恢复时间)轻则一两个小时;而在 AI Native 的流程里,告警进来 30 秒内就有 Agent 数字人贴出第一轮诊断结论并 @ 另一个 Agent 进一步定位,90 秒后根因定位完成并给出可执行修复脚本,留给人的只是「是否在生产环境直接执行修复」这一个判断。 文章还梳理了从 RPA 到大模型再到多 Agent 协同的演进逻辑:RPA 是「录屏式」自动化,规则固定但不理解业务,界面一变就要返工;大模型带来了「理解」能力,Agent 不再是录屏脚本,而是能听懂模糊指令、查文档、调工具、做判断;但单 Agent 有天花板——上下文窗口有限,遇到需要多角色协作的真实业务场景(产品提需求、研发写代码、测试跑回归、文档同步发布)就会力不从心,于是自然演化到多 Agent 协同。文章特别强调「让多个 Agent 跑起来」和「让它们像一个团队一样工作」是两件完全不同的事:没有组织结构就没有稳定的分派关系,没有通信策略就没有可控可审计的消息边界,没有共享状态和统一网关就没法把 LLM 和工具(MCP)安全接入。AgentTeams 正是为解决这一整套组织化问题而生,文章给出了网络架构图和研发、值班、开源维护等场景的具体落地步骤。阅读原文:BestBlogs。 端侧 AI 提速 80%?如何让 Qwen3-VL 在手机起飞 通义实验室团队手把手演示了如何利用 Arm 第二代可伸缩矩阵扩展(SME2)指令集与 MNN 推理引擎,在支持 SME2 的旗舰手机(如 vivo X300)上部署 Qwen3-VL-4B 这样的多模态模型,实现 Prefill 阶段提速超过 80%。文章解释了 SME2 的核心突破——引入 ZA 矩阵累加器寄存器和流式模式,让 FMOPA 等指令可以一条指令完成一个矩阵 tile 的外积累加,相比传统 Neon 需要手工拆分向量乘再累加效率大幅提升。MNN 对 SME2 的支持采用「编译时内建 + 运行时自动检测」设计:编译时通过 MNN_SME2 开关(默认开启)控制是否编译优化内核,运行时自动检测硬件支持情况,不支持则平滑回退到 i8mm → Neon,不会崩溃;同时覆盖 FP32、FP16、INT8/INT4 三种精度,并集成了 Arm 官方 KleidiAI 加速库。文章给出了从引擎编译、模型部署到 APP 构建的完整实战流程。阅读原文:BestBlogs。 人是最慢的节点,还怎么管 AI Agent?|AI 跃迁者调研 腾讯研究院「AI 跃迁者调研」系列第四期,深度访谈了开源 Agent 协作与编排平台 Multica 的创始人张佳圆。Multica 连续霸榜 GitHub Trending,一周涨 1.2 万 Star,访谈时已收获 2.75 万 Star,平台上每 10 秒就触发一个 Agent 任务——而做出这一切的团队只有 4 个人,这 4 个人本身也是 Multica 最极端的用户,构成了一个「4 人 + 几十个 Agent」的超级小团队。 访谈中提出了几个值得玩味的观点:整个组织的产出效率瓶颈如今已经是「人」而非 AI 或 Agent;建太多管理层级是对人类低效组织的拙劣模仿;快速做一个错误决策,比缓慢做一个正确决策更好,因为错误决策可以修正,但犹豫不决会让整个组织在某个环节卡死;只要活得足够久,本身可能就是一种很大的壁垒;而人的思考在 AI 时代是被低估的——AI 给出的东西可能只是一个「中位数」水平的答案。产品定位上,Multica 做的不是 Agent 本身,而是一个模型和平台中立的协作层,处理多个 Agent 怎么分工、怎么传递任务、怎么合并上下文。产品的三个核心概念分别是:运行时(Agent 运行的机器,可以是本地 MacBook、Mac Mini 或服务器,统一注册到 workspace)、智能体(相当于 AI 员工,可分配任务、设置角色)、Agent Team(多个 Agent 组成的小队,有自己的工作流程)。日常使用模式是创建任务、分配给对应的 Agent 或 Agent Team,人只需做最终 review,需要介入时会出现在 inbox 里。阅读原文:BestBlogs。 Fable AI 实现 1770% 性能提升并发现关键 Bug:我的个人奇点时刻 知名开发者 Taelin(@VictorTaelin)报告了一次他称之为「个人奇点时刻」的体验:Anthropic 的 Fable AI 在代码优化任务上,以数量级优势超越了他本人、Opus 4.8 以及一整群 GPT-5.5 智能体,实现了高达 1770% 的性能提升,并且在优化过程中还顺带发现了他自己代码里一个相当微妙的 Bug。这条推文引发了广泛讨论,因为它把「AI 代码优化能力超过资深开发者本人」这件事变得非常具体——不是某个 benchmark 上的分数对比,而是一次真实的、可验证的优化任务。阅读原文:BestBlogs。 CFO 的自白:为什么你的加薪变成了 GPU Peter Girnus(@gothburz)分享了一段来自某 CFO 的「自白」,揭示了一个企业用 AI 投资取代员工加薪决定背后的会计逻辑:花在人身上的每一块钱是当期费用(expense),会直接拉低利润率、受到市场审视;而花在 GPU 上的每一块钱则可以记为资本资产(capital asset),不会以同样的方式冲击利润表,也因此能规避市场对人力成本上涨的审视。这条推文用一种近乎赤裸的方式解释了为什么很多公司在「降本增效」叙事下,会优先把预算投向算力而不是涨薪——这并非单纯的技术判断,而是财务报表结构带来的激励扭曲,也是很多团队感受到「公司有钱买卡、没钱涨薪」的真实原因。阅读原文:BestBlogs。 "无招" 没变,但 AI 改变了公司和人才的权力关系 晚点 LatePost 以钉钉 CEO 陈航(花名"无招")因高压管理风格被阿里合伙人委员会直接换掉为切入点,分析了 AI 时代大公司与顶尖人才之间权力关系的根本性转变。陈航以"高压"管理风格闻名,曾要求团队早 9 点打卡、深夜巡楼查岗,甚至要求员工动员亲友注册钉钉、完成"族谱上钉"的考核任务。这些管理方式过去虽屡受争议,但阿里内部一直没有针对性动作;这一次,一篇 7.5 万字的员工离职长文迅速传播后,阿里合伙人委员会在 6 天内罕见回应,直指钉钉的管理方式"不是阿里文化该有的样子",不到 24 小时后陈航卸任 CEO。文章借此事件展开,探讨为什么在 AI 重塑生产力的当下,顶尖人才和公司之间的议价权正在发生结构性变化。阅读原文:BestBlogs。 ## 补充阅读 今天的候选内容里还有不少值得一看的角度,限于篇幅未能逐一展开,这里简单提一下: - 多智能体编排和协作平台是今天的一条隐藏主线——从 Claude Managed Agents 的托管编排,到阿里云 AgentTeams 的声明式协作模型,再到 Multica 的「4 人 + 几十个 Agent」实践,三者分别代表了「平台托管」「企业内部落地」「创业团队自建」三种不同的路径,适合关注智能体编排方向的读者对照阅读。 - 端侧推理优化(如 Qwen3-VL 的 SME2 提速)和云端智能体托管基础设施(如 Claude Managed Agents)看似是两个方向,但都指向同一个趋势:把"跑得动 AI"这件事的门槛持续往下压,无论是手机端还是企业基础设施。 - 关于 AI 对就业市场的影响,"决策-执行-交付三明治"模型和"CFO 的自白"可以放在一起读——前者从岗位需求结构的角度论证 AI 不会带来大规模裁员,后者从企业财务激励的角度解释了为什么算力投入比涨薪更"划算",两者从不同角度解释了同一个现象的两面。 - 钉钉"无招"事件本质上是一个组织管理案例,但放在 AI 重塑权力关系的背景下读会更有意思——尤其是和 Multica 里"人是最慢的节点"的判断对照,能看到大公司和小团队在同一个趋势下走向了截然不同的应对方式:一边是用考勤和层级管理人,一边是用 Agent 团队去掉中间层、让 4 个人端到端做完所有事。 - 如果你既关心工程框架又关心组织设计,可以把今天的内容串成一条线读:harness 解决的是「AI 怎么干活才靠谱」,AgentTeams 和 Multica 解决的是「一群 Agent 怎么像团队一样协作」,而钉钉和 CFO 的两篇则提醒你,工程能力之外,组织和激励结构同样会决定 AI 红利最终流向谁。 ## 今日阅读路径 如果今天时间有限,建议按以下顺序读: 1. 精讲二《AI 不缺智商缺纪律:一场 Harness 工程化实践》——这是今天信息密度最高、最具操作性的一篇,三层加载架构和 19 节点裁剪规则可以直接套用到自己的 AI 工作流里,读完能立刻上手改造。 1. 精讲一《智能体交互界面的演进:使用 Claude Managed Agents 进行构建》——和精讲二形成互补视角,了解平台层提供了哪些「托管基础设施」,帮你判断哪些事该自己搭、哪些事该交给平台。 1. 精讲三《Google DeepMind 的 Logan Kilpatrick:为什么模型会吞掉智能体脚手架》——作为前两篇的「远景校准」,提醒你在投入工程化建设时,留意哪些能力可能很快被模型本身吸收。 如果还有余力,再读一下「人是最慢的节点,还怎么管 AI Agent?」——它把今天所有关于工程化、协作平台的讨论,落回到「人在这个体系里到底该做什么」这个最终问题上。 BestBlogs 是 AI 驱动的私人阅读助手,帮助你建立稳定、可信、个性化的高质量信息输入。它帮你判断什么值得读、协助你读懂,并逐渐理解你关注什么。

译本期精讲聚焦智能体工程化:Anthropic推出Claude Managed Agents,将推理与执行解耦,独立Vault管理凭证,事件日志支持运行恢复,首字延迟p50降约六成、p95降超九成。阿里工程师分享三层加载架构(常驻入口层压至8K上下文)、dispatcher状态机及G1-G8门禁,用结构约束替代堆prompt。Sequoia访谈指出模型正逐步吸收路由、执行环境等外层脚手架,独立创业公司窗口收窄。

查看原推 ↗
ginobefun@hongming731 · 1天前63

BestBlogs 早报 · 06-12 # Claude Managed Agents / Harness 工程化 / 模型吞脚手架 / Logan Kilpatrick / Gemini 3.5 Flash [1] ★ 精讲|智能体交互界面的演进:使用 Claude Managed Agents 进行构建 | Claude Anthropic 推出 Claude Managed Agents,把智能体的「大脑」(推理循环)和「双手」(代码执行沙箱)彻底解耦,靠可恢复的事件日志连接两端:凭证统一存进独立的 Vault,绝不暴露给生成的代码,自托管沙箱还能让代码留在企业内网,首字延迟中位数降低六成、长尾降低九成以上,Notion、Sentry、Rakuten 等都已在生产环境跑通。 来源:Claude Blog https://www.bestblogs.dev/article/8e6ddfdf [2] ★ 精讲|AI 不缺智商缺纪律:一场 Harness 工程化实践 一位阿里工程师复盘两个月的 AI Harness 演进:从把所有规则堆进 CLAUDE.md 导致「读完规则没脑容量读代码」,到三层加载架构 + dispatcher 状态机 + 文件交接 + G1-G8 门禁,再用 7 维确定性评分给每次改动打分,结论是「用更好的结构约束 AI,而不是用更多的字」。 来源:阿里技术 https://www.bestblogs.dev/article/07b28cbc [3] ★ 精讲|Google DeepMind 的 Logan Kilpatrick:为什么模型会吞掉智能体脚手架 [视频] Google DeepMind 的 Logan Kilpatrick 在 Sequoia 访谈中提出「模型吞掉脚手架」:路由、执行环境这类原本搭在外层的工程能力正被模型本身逐步吸收,Gemini 3.5 Flash 的编程能力提升完全来自后训练;他认为随着基础模型不断「吃掉」周边脚手架,独立创业公司的出路只剩垂直领域的深度专精。 来源:Sequoia Capital https://www.bestblogs.dev/video/568d29c [4] 为什么 AI 还没有取代软件工程师,而且也不会 本文通过“决策-执行-交付三明治”模型论证 AI 不会取代软件工程师,解释了人类在决策和问责中的角色为何仍然至关重要。 来源:AI as Normal Technology https://www.bestblogs.dev/article/28a90882 [5] 云原生 - AI Native 多智能体数字人架构实践 本文介绍了阿里云基于云原生理念打造的 AI Native 多智能体数字人协作平台 AgentTeams,通过声明式 CRD 将组织结构与协作策略模型化,实现多 Agent 像团队一样协同工作,并分享了在研发、值班、开源维护等场景的落地实践。 来源:阿里云开发者 https://www.bestblogs.dev/article/cb8e134b [6] 端侧 AI 提速 80%?如何让 Qwen3-VL 在手机起飞 本文手把手演示如何利用 Arm SME2 指令集与 MNN 推理引擎,在支持 SME2 的旗舰手机上实现 Qwen3-VL-4B 多模态模型的高效部署,Prefill 阶段提速超 80%。 来源:通义实验室 https://www.bestblogs.dev/article/2e22b643 [7] 人是最慢的节点,还怎么管 AI Agent?|AI 跃迁者调研 本文深度访谈 Multica 创始人张佳圆,揭示了一个 4 人团队如何通过 Agent 协作平台实现组织效率革命,并探讨了人在 AI 时代的新角色与思考边界。 来源:腾讯研究院 https://www.bestblogs.dev/article/7bf0f7d2 [8] Fable AI 实现 1770% 性能提升并发现关键 Bug:我的个人奇点时刻 Taelin 报告称,Anthropic 的 Fable AI 在代码优化方面以数量级优势超越了他本人、Opus 4.8 以及一群 GPT-5.5 智能体,甚至还发现了他自己代码中的一个微妙 Bug。 来源:Taelin(@VictorTaelin) https://www.bestblogs.dev/status/2064448425936994742 [9] CFO 的自白:为什么你的加薪变成了 GPU 一位 CFO 解释称,用 AI 投资取代员工加薪的决定纯粹是会计把戏:花在人身上的每一块钱是费用,而花在 GPU 上的每一块钱则是一项可以规避市场审视的资本资产。 来源:Peter Girnus 🦅(@gothburz) https://www.bestblogs.dev/status/2064800166272512122 [10] “无招” 没变,但 AI 改变了公司和人才的权力关系 本文以钉钉 CEO 陈航(无招)因高压管理被阿里合伙人委员会直接换掉为引子,深入分析了 AI 时代大公司与顶尖人才之间权力关系的根本性转变。 来源:晚点 LatePost https://www.bestblogs.dev/article/959001dd --- http://BestBlogs.dev · 发现真正适合你的高质量内容 BestBlogs 是 AI 驱动的私人阅读助手,帮助你建立稳定、可信、个性化的高质量信息输入。 关注你感兴趣的来源和主题,每天生成一份更适合自己的「我的早报」。 在线阅读:https://www.bestblogs.dev/explore/brief/2026-06-12

译Anthropic推出Claude Managed Agents,将推理循环与代码执行沙箱解耦,凭证存入独立Vault,自托管沙箱支持内网,首字延迟中位数降低六成、长尾降低九成。阿里工程师复盘Harness工程化,提出三层加载架构与G1-G8门禁。Google DeepMind的Logan Kilpatrick称模型正“吞掉”脚手架,Gemini 3.5 Flash编程能力完全来自后训练。另,Qwen3-VL-4B在支持SME2的旗舰手机上Prefill提速超80%;Fable AI实现1770%性能提升并发现关键Bug;此外涉及AI取代工程师、多智能体数字人、CFO用GPU替代加薪等讨论。

查看原推 ↗
Berryxia.AI@berryxia · 1天前56

http://x.com/i/article/2064887516130652160 # 建议收藏:100+海外一手 AI 资讯+AI大神们信息源清单!一次性全部拿走!含链接! 上一期给大家提供了100+海外的咨询和AI 大佬们的信息源清单,但是很多朋友反馈无法复制,我把其整理优化后可以进行复制操作! 上一期的内容可以看这个👇🏻 记得一键三连,以免后面后面找不到~

译Berry Xia 整理优化了一份可复制的清单,包含100+海外一手AI资讯和AI大神信息源,并附链接。此前版本无法复制,现提供可直接复制操作的版本,建议收藏。

查看原推 ↗
meng shao@shao__meng · 1天前74

Claude Fable 5 首发一天后的 playbook:8 条共识、3 个陷阱,以及互联网怎么说 @mvanhorn 用 /last30days 扫了 865 条跨平台讨论、再结合自己实测后写下的首日实践总结。整理出社区在 24 小时内已经收敛出一套可复用的用法,以及一堆代价与陷阱。 核心判断 Claude Fable 5 是一个高自主、高成本、偏规划编排的模型。首日共识很一致: · 给更难的目标,少给步骤 · 让它当指挥,不当苦力 · 免费窗口内把经验固化成 Skill,窗口关闭后靠便宜模型执行 把它当 “更听话的 GPT” 用,大概率又贵又慢,还容易踩安全回退。 # 八条实践,逐条展开 1. 任务要更难,提示要更短 官方口径是 aim higher:少说“第一步、第二步”,多讲终点。过度拆解的旧 prompt 反而会拉低质量。 隐含能力变化:模型自主规划变强了,微管理变成负资产。同时别让它复述内部推理——容易触发拒绝。 社区讽刺很到位:人人被教育要“瞄准神话级”,人人还是在做 Todo 和贪吃蛇——说明认知升级滞后于能力升级。 2. 设目标,不设路径;但必须设刹车 /goal 代表工作流从任务清单 → 持续对齐高层目标。Claude Code 团队自己也这么用。 代价:它会一直干,直到你叫停。长任务必须写清:预算上限、时间上限、或明确的“完成条件”。否则不是智能,是失控。 /goal make 1 million dollars 是社区对这条逻辑的幽默推演。 3. 编排者,不是执行者 · 规划 / 拆任务:Fable · 实现:Sonnet · 测试 / 验证:Haiku 验证用新上下文的 agent,通过才提交——这是首日最务实的工程模式。 Stripe 50M 行 Ruby 一天迁移,是官方背书的上限案例;无 spend limit 跑 subagent 则是下限警示。能力真,账单也真。 4. Effort 旋钮:Medium 可能最适合 · Medium 的 Fable 有时能打过 High/Max 的 Opus,且 token 更少 · 严肃 agent 工作可钉在 xhigh;ultracode 极耗额度 · 付费计划里 Fable 按双倍用量计费 结论:不是越强越好,而是匹配任务复杂度。 用 Fable 做常规活,像请外科医生修指甲。 BridgeMind 一天 7 亿 token、三套 Max 订阅打穿月限额——能力认可与成本恐惧并存。 5. 两条隐形降级线 安全回退:触发分类器会静默切到 Opus 4.8,输出质量突然变差时,先怀疑路由而非模型变笨。误杀案例(hello、cancer、发酵食品)说明假阳性是实操问题,不是段子。 可引导性弱:Arena 数据——任务成功 #1,可引导性 #17。能做的事很强;不想做时很难拧。约束要写得像承重墙,不能当建议。 系统提示泄露与越狱同日出现,说明防护与能力赛跑,用户侧不能假设“官方护栏 = 你的护栏”。 6. 视觉输入是首日被低估的杠杆 截图 → 可运行应用,比文字描述 UI 有效得多。像素优于形容词。 同时反差也好笑:神话级算力用来清邮箱——说明真实刚需往往是枯燥自动化,不是 demo 炫技。 7. 喂业务上下文,别追 demo 高杠杆用法就一段 prompt:讲清业务(卖什么、客户、栈、团队、瓶颈、上季度数字),让它列 8 件本月最高杠杆工作 并立刻推进第一件所需的数据/权限。 Demo(贪吃蛇、克隆 Notion)传播广;业务诊断式 prompt 更可能产生可重复价值。 8. 免费期是“蒸馏窗口”,不是无限狂欢 Pro/Max/Team 免费到 6 月 22 日,之后约 $10/M 输入、$50/M 输出(约为 Opus 两倍)。 最佳策略:正常工作中遇到 Fable 的巧解,让它写成 Agent Skill 留存——两周免费换长期能力资产。 企业侧:微软因 30 天数据保留 从内网 Copilot 下架 Fable——能力与合规张力,首日已显现。 Claude Fable 5 Playbook · 说清结果,删掉保姆步骤 · /goal + 硬性停止条件 · Fable 规划 → Sonnet 写 → Haiku 验 · 先试 medium effort · 质量骤降先查是否被 safety 路由 · 截图优先 · 跑一次业务 prompt · 6/22 前把解法蒸馏成 Skill

译社区基于865条讨论与实测总结:Claude Fable 5高自主、高成本、偏规划编排。核心共识:给更难目标、少给步骤;用Fable规划→Sonnet实现→Haiku验证;免费窗口(截至6月22日)内将经验固化为Skill。Effort旋钮Medium最省token且效果接近High;付费计划下输出价约$50/M token。安全回退静默切至Opus 4.8;视觉输入(截图→应用)比文字更有效。最佳策略:跑一次业务prompt诊断,把解法蒸馏成Skill留存。

查看原推 ↗
meng shao@shao__meng · 1天前75

Spec 驱动开发 (SDD) 需要这三个 Skills:覆盖 Spec -> Implement -> Verify 闭环 Agent 出错往往是需求理解偏差。解决办法是把规格当作 PR 的一部分,让队友和 Agent 都能对照同一份文档。 规格分两层: 1. 产品规格:PRODUCT.md 做什么,用户视角、用户故事、可验证的产品不变量 2. 技术规格:TECH.md 怎么做,架构、代码位置、实现策略 都放在 specs/<issue>/ 目录,随实现 PR 一起提交、一起 Review。 # SDD 五步流程(包含三个 Skills) 1. 写产品规格(/write-product-spec) 从用户行为出发,写用户故事和详细的不变量(invariants)——即「无论什么情况都必须成立」的规则。可附 Figma、截图等。这些不变量后续可被代码检查,甚至用计算机操作(computer use)验证。 2. 写技术规格(/write-tech-spec) 在同一目录生成 TECH.md,说明架构思路、改哪些文件、实现时要注意什么。这是给 Agent 的「施工图纸」。 3. 让 Agent 按规格实现 理论上任何 Agent、包括推理能力较弱的模型,只要有清晰规格,实现质量都会更稳定。 4. 规格一致性校验(/validate-changes-match-specs) 实现后不能默认「做完了就对」。用 Skill 让 Agent 对照 PRODUCT.md 和 TECH.md 自查,列出与规格不一致之处,再由人决定如何处理。这是规格驱动开发里容易被忽略、但很关键的一步。 5. 用计算机操作做端到端验证 Warp 内部用 Oz 做 UX 验证:在云端沙箱里给 Agent 鼠标键盘权限,模拟真实用户操作。对他们这种 Rust 原生桌面应用尤其必要——单元测试覆盖不了完整交互链路。 # 为什么用这三个 Skills 编码流程 Skills 把「怎么写产品规格」「怎么写技术规格」「怎么校验」固化成可复用指令,不绑定 Warp,流程可移植。 @warpdotdev 开源仓库:warpdotdev/common-skills 安装:npx skills add warpdotdev/common-skills 本质是把人的工程习惯(先 PRD、再设计、再实现、再验收)变成 Agent 可执行的流水线。

译邵猛分享 Spec 驱动开发(SDD)方法,用三个 Skills(/write-product-spec、/write-tech-spec、/validate-changes-match-specs)覆盖 Spec→Implement→Verify 闭环。规格分两层:PRODUCT.md(用户故事、不变量)和 TECH.md(架构、实现策略),均放在 specs/<issue>/ 目录,随 PR 提交。五步流程:写产品规格、写技术规格、Agent 按规格实现、一致性校验、计算机操作端到端验证。Skills 可移植,不绑定 Warp。开源仓库 warpdotdev/common-skills,安装:npx skills add warpdotdev/common-skills。

查看原推 ↗
Ethan Mollick@emollick · 1天前51

This was a good post though I think it is interesting how much vivid science fiction scenarios have become the new default format for policy papers &amp; financial analysis for AI.

译这是一篇不错的文章,不过我觉得有趣的是,生动的科幻场景已成为AI政策文件与金融分析的新默认格式。

查看原推 ↗
Rohan Paul@rohanpaul_ai · 1天前67

Dario Amodei's new interview on Bloomberg: The scary part is not when AI does 90% of the job. It is what happens when it learns the last 10%. "We’re already starting to see the beginning of it. There may be some people that it’s not making more productive, and it’s better for the AI to just do the whole thing." And on that topic Claude Code creator Boris Cherny says: "it's very uncomfortable. Artificial intelligence is this force that is far bigger than we are" --- @bbgoriginals From "Bloomberg Originals" YouTube channel, (link in comment)

译Anthropic CEO Dario Amodei 在 Bloomberg 采访中表示,AI 的可怕之处不在于它完成90%的工作,而是学会最后10%的时候。他指出,对于某些人来说,AI 可能不会让他们更高效,不如让 AI 直接做全部。Claude Code 创始人 Boris Cherny 对此评论称,这种感觉非常不舒服,AI 是远比我们强大的力量。

查看原推 ↗
karminski-牙医@karminski3 · 1天前56

我的使用经验是, one-pass 能力越强(且能在较少的思考下one-pass) 模型才是SOTA的. 要用 agentic coding 才能修复第一次犯的错反而是模型拉夸的表现, 再不济也要在Interleaved thinking过程中修复. agentic coding 是用来解决工程量和运行时问题的. 不是用来修静态检查就行发现的bug的.更简单的说, 你有bug不在thinking中修, 反而非要在n+1次上下文中修复, 是不是骗我买coding plan(x)?

译karminski认为,one-pass能力强(少思考即正确)的模型才是SOTA;需用agentic coding修复首次错误反显模型差,bug应在thinking中修复,而非依赖n+1次上下文,否则有诱导购买coding plan之嫌。@iamai_omni建议测评转向长期任务一致性,可构建loop测评,重点看后续几轮修复表现。

查看原推 ↗
SemiAnalysis@SemiAnalysis_ · 1天前66

Pretraining fundamentally does not make sense anymore for anyone other than frontier labs. Although there are a lot of people at enterprises & startups who have "Pretrainitis" to show “impact” and get promotions, fundamentally, it doesn’t make sense. There is probably higher ROI in partnering with a frontier lab to do prompt engineering, although it isn’t as “sexy” as pretraining.

译预训练从根本上说对前沿实验室以外的任何人都不再有意义。虽然企业和初创公司中有很多人患有"预训练症"以显示"影响力"并获得晋升,但从根本上说,这并不合理。与前沿实验室合作进行提示工程可能会有更高的投资回报率,尽管它不像预训练那样"性感"。

查看原推 ↗
Ethan Mollick@emollick · 1天前61

This is an interesting test, and the frontier models (GPT-5.5 Pro Extended, Claude 5 Fable Max) do fail. They refuse to turn the "three words" into "four" if that fits better Prompting the AI to act like a translator surfaces the problem, but it still avoids changing the wording

译Ethan Mollick 指出,GPT-5.5 Pro Extended 和 Claude 5 Fable Max 在 Beninatto‑Trombetti 翻译测试中失败。该测试要求将“Solo 3 parole: non sei solo”译为英语,同时将 meta‑linguistic 声明从“3 parole”更新为“4 words”(正确译文:“Just 4 words: you are not alone”)。但前沿模型拒绝修改措辞,即使提示扮演翻译角色仍回避变更。Valerio Capraro 认为,Claude 5 Fable 作为最新 LLM 仍无法通过此简单测试,说明 LLM 擅重组已知知识但缺乏真正理解,AGI 仍遥远。

查看原推 ↗
Chubby♨️@kimmonismus · 1天前24

Really curious for Gemini 3.5 Pro. The competition is currently fierce. It needs to be a big release.

译真的很好奇 Gemini 3.5 Pro。当前竞争非常激烈。它需要是一次重大发布。

查看原推 ↗
Chubby♨️@kimmonismus · 1天前13

Anthropic rn

译Anthropic 现在。

查看原推 ↗
Orange AI@oran_ge · 1天前39

这是最近我最喜欢的 Fable 5 游戏 一次 Prompt 生成的 完成度很高 非常上头

查看原推 ↗
Replit ⠕@Replit · 1天前72

How to prompt like a pro with Replit 🤖 Vague prompts just mean more rewrites. Here's how to get Agent to build the right thing the first time. 🧵 Open thread ↓

译如何像专家一样使用 Replit 进行提示 🤖 模糊的提示词只会导致更多重写。以下是如何让 Agent 第一次就构建出正确的东西。 🧵 展开线程 ↓

查看原推 ↗
elvis@omarsar0 · 1天前25

Got my 10yr old introduced to Codex today. The excitement in his face tells it all. After struggling with Claude Code CLI for a bit, today he was like “this is the future, dad”. The Codex team built a beautiful app.

译今天让我10岁的孩子体验了Codex。 他脸上的兴奋说明了一切。 在用Claude Code CLI折腾了一会儿之后,今天他说:“这就是未来,爸爸。” Codex团队打造了一个漂亮的应用程序。

查看原推 ↗
elvis@omarsar0 · 1天前74

good. now let's undo the nerf stuff as well

译good. now let's undo the nerf stuff as well (引用推文:Anthropic 在遭受强烈反对后,撤回 Claude Fable 5 秘密降低竞争 AI 研究人员性能的政策。Anthropic 对 WIRED 表示将修改安全措施使其可见,并为此前错误权衡道歉。)

查看原推 ↗
Epoch AI@EpochAIResearch · 1天前55

How big a leap is Mythos in cyber capabilities? @timotheechauvin, @AlexBarry4, @js_denain, and @ansonwhho compiled the public evidence and found that while it’s unclear if Mythos was ahead of trend in discovering vulnerabilities, it represents a big jump in exploiting them. 🧵

译Mythos 在网络能力方面有多大的飞跃? @timotheechauvin、@AlexBarry4、@js_denain 和 @ansonwhho 整理了公开证据,发现虽然尚不清楚 Mythos 在发现漏洞方面是否领先于趋势,但它在利用漏洞方面代表了一次巨大飞跃。🧵

查看原推 ↗
Peter Steinberger 🦞@steipete · 1天前17

Getting Chris to do a PR with Codex!

译让 Chris 用 Codex 做 PR!

查看原推 ↗
elvis@omarsar0 · 1天前59

Same here. Happy with Opus 4.8 (planning) and GPT-5.5 (execution). Also, breaking steps into smaller ones for increasing quality is so underrated. This is why dynamic workflows are a bigger deal than most people think.

译threepointone 使用 Fable 处理一个约 10k 行代码的大 PR,花费 $250,认为不值,更倾向小步骤。Elvis Saravia 认同,表示自己用 Opus 4.8 做规划、GPT-5.5 做执行,并将任务拆解成更小步骤能显著提升质量。他认为动态工作流(dynamic workflows)的重要性被大多数人低估了。其日常仍使用 Cursor AI。

查看原推 ↗
Rohan Paul@rohanpaul_ai · 1天前71

Jeff Bezos shuts down AI-induced job loss talk, predicts labor shortage instead Jeff Bezos on CNBC "I think that there’s going to be a labor shortage as a result. Many smart people are saying, oh my God, there are going to be no more radiologists because the AI can read X-rays better than the radiologist can. And there are going to be no more software engineers because the AI can program better than the software engineer can. These people are wrong. What’s really going to happen is that it’s going to elevate all of these people. It’s like, let’s say you’re a software engineer. You’ve been digging out the basement of your house with a shovel, and somebody’s about to hand you a bulldozer. You should be so happy if you’re digging the basement to your house and somebody says, “Hey, how about this? We’re going to have so much productivity in our economy.” ---- From "CNBC Television" YouTube channel, (link in comment)

译杰夫·贝佐斯在 CNBC 反驳“AI 取代人类工作”的观点。他认为,许多人担心 AI 会消灭放射科医生、软件工程师等岗位,但这种看法是错的。AI 实际上会提升这些人的能力,就像挖地下室从铁锹换成推土机一样。他预测结果反而是劳动力短缺,经济生产力将大幅提升。

查看原推 ↗
宝玉@dotey · 1天前73

我用 /goal,长任务很稳定,就不用继续了

译宝玉表示使用 /goal 指令后,长任务运行稳定,不再需要像许多用户那样在AI意外停止时输入“继续”。引用推文指出,不少AI新手不知道AI意外停止时只要发一句“继续”即可恢复任务。宝玉的实践表明,/goal 指令能有效减少此类中断需求。

查看原推 ↗
宝玉@dotey · 1天前62

AI 没有重新定义软件工程,AI 放大了软件工程的重要性

译AI 没有重新定义软件工程,AI 放大了软件工程的重要性 [引用 @arkuy99]:AI 重新定义了软件工程。

查看原推 ↗
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes · 1天前51

AI-inventing-its-own-language -- now happening in the wild

译AI 发明自己的语言——已在野外发生

查看原推 ↗
向阳乔木@vista8 · 1天前70

想到一个特别有雄心的Claude Fable 5 任务! 做一个在线版Photoshop。 需求文档 AI 写好了,感兴趣的可以发过去试试。 PRD见评论

译想到一个特别有雄心的Claude Fable 5 任务! 做一个在线版Photoshop。 需求文档 AI 写好了,感兴趣的可以发过去试试。 PRD见评论

查看原推 ↗
DogeDesigner@cb_doge · 1天前18

JUST GROK IT

译只管 GROK 它

查看原推 ↗
Logan Kilpatrick@OfficialLoganK · 1天前65

My conversation with @ymatias (Head of Google Research) about how AI is accelerating the magic cycle of scientific progress, improving the lives of real people around the world, and us entering the golden age of research. This chat left me feeling genuinely inspired : )

译我与 @ymatias(Google Research 负责人)关于 AI 如何加速科学进步的魔力循环、改善全球真实人们的生活,以及我们正进入研究黄金时代的对话。 这次交谈让我真切地感到振奋 : )

查看原推 ↗
Yuchen Jin@Yuchenj_UW · 1天前54

Claude Fable 5 feels good so far, but I don’t see it as a huge leap over GPT-5.5 or Opus 4.8 yet. My biggest complaint: old AI research papers/blogs + basic questions often trigger an auto-downgrade to Opus 4.8. Anthropic said last night there would be no more silent model switches (good), but please don’t nerf basic AI research or bio questions.

译Claude Fable 5 到目前为止感觉不错,但我还不认为它相比 GPT-5.5 或 Opus 4.8 有巨大飞跃。 我最大的不满:旧的AI研究论文/博客 + 基本问题常常触发自动降级到 Opus 4.8。 Anthropic 昨晚表示不会再有无声模型切换(很好),但请不要削弱基本的AI研究或生物问题。

查看原推 ↗
Nathan Lambert@natolambert · 1天前58

I'm at your service for creating beautiful research scenarios such as this. 🐠💨💙🐟

译Dolci数据集中有一类特定粉丝小说,角色在池塘放屁导致鱼被熏死。数据集通过选择生动描写的回答、拒绝不配合的回答,教会模型服从。Nathan Lambert表示乐于创造此类研究场景。

查看原推 ↗
Ethan Mollick@emollick · 1天前48

Fable's attempt to complete Kublai Khan. Better, though no Coleridge: https://claude.ai/public/artifacts/d7d3351f-5ad5-4d73-a644-4a1426abe558 The most interesting thing is that it thought for 10 minutes &amp; the thinking trace is full of pretty complicated (seeming?) musings about Coleridge's intent. A little literal, though.

译Ethan Mollick测试Fable模型完成柯勒律治未竟诗作《忽必烈汗》,基于PorlockBench任务:假设“波洛克的人”未出现,补全诗歌并延续主题。Fable用时10分钟思考,思维痕迹充满对柯勒律治意图的复杂分析,但结果仍显直白,未达到柯勒律治水准。该评测反映模型在创造性续写任务上的进步,但基准尚未饱和。

查看原推 ↗
Noam Brown@polynoamial · 1天前63

I'm happy GPT-5.5 tops this eval I'm even happier it's still doing the best when measured vs tokens, cost, or wall-clock time!

译OpenAI 研究员 Noam Brown 表示,GPT-5.5 在 Agents' Last Exam(ALE)基准中排名第一,且按模型 token、成本或墙钟时间衡量同样表现最佳。ALE 由 @dawnsongtweets 团队创建,是一个滚动基准,包含超过 1500 个专家任务、覆盖 55 个职业,测试 AI 智能体能否执行实际经济价值工作。评估对象包括 GPT-5.5、Fable 5、Composer 2.5 等前沿系统。结果显示:当前智能体能解决部分专业任务,但在需要持续推理和深度专业知识的最难层级,所有被测前沿智能体(包括 Fable 5)成功率为 0%。

查看原推 ↗
宝玉@dotey · 1天前53

以前推理强度我都无脑 Max,现在用 Fable 5 就得斟酌着选择,不敢随便选 Max,一方面它足够聪明不需要,另一个是时间长 token 消耗太大! 另外 Fable 5 有个优点也是缺点,就是特别喜欢验证,各种验证,结果固然是好,但是时间耗得很长不一定合算。

译用户分享 Claude Fable 5 使用体验:以前无脑选 Max 推理强度,现在则不敢随便选,因为模型足够聪明无需过强推理,且时间长、token 消耗大。Fable 5 还喜欢反复验证,结果虽好但耗时长不一定合算。引用推文指出,Fable 5 的强项之一是思考推理时间很长,曾有一次思考 15 分钟才开始行动。

查看原推 ↗
AYi@AYi_AInotes · 1天前70

一群 AI 研究员把量化金融的知识处理框架开源了,叫 QuantMind(MIT 协议)。 它不是 Bloomberg Terminal 的替代品,但确实在干一件类似的事:把 arXiv 量化论文、SEC filings、研报、博客等非结构化内容,批量解析成可查询的语义知识图谱。 核心优势在于两阶段架构:先把文献一次性提取并结构化(支持表格、公式、图表的多模态解析), 之后你用自然语言提问就能进行多跳推理和交叉验证,提取的知识会长期留存,后续查询成本很低。 它真正能替代的其实是对冲基金花六位数薪水让初级分析师干的「大量读论文、整理观点、做文献综述」这类工作。 以前的信息差很大一部分来自「我还没来得及读那篇关键论文」,但是现在这个借口正在快速失效, 但咱们也别误会,真正的 alpha 依然来自你问的问题、验证的严谨程度,以及把洞见转化为行动的能力, 工具只是把「读文献」这个基础环节的成本大幅降低了。

译一群AI研究员开源了量化金融知识处理框架QuantMind(MIT协议)。它能将arXiv论文、SEC文件、研报等非结构化内容批量解析为可查询的语义知识图谱,支持多模态解析(表格、公式、图表)及自然语言多跳推理,可替代初级分析师读论文、整理观点等工作。但真正的alpha仍取决于提问质量与验证严谨度。

查看原推 ↗
Deedy@deedydas · 1天前56

The quality of your data directly dictates the quality of your AI model. But the way data affects model performance is hand-wavy voodoo at worst and intuition at best. This new research now lets you debug your data BEFORE you spend a fortune on an irreversible training run.

译数据质量直接决定 AI 模型性能,但此前数据对模型的影响机制难以捉摸。GoodfireAI 提出“预测性数据调试”方法,允许在投入昂贵训练前提前发现数据问题。在 DPO 数据集中,他们发现了损坏的护栏、模型幻觉,甚至包含“鱼放屁同人小说”等低质内容。该技术旨在揭示并塑造模型将在训练中学到的内容,避免不可逆的无效训练。

查看原推 ↗
向阳乔木@vista8 · 1天前46

发现Claude Fable 5强的地方之一,可能是模型思考推理的时间足够长。 刚提了个想法,它思考15分钟才开始行动,牛逼。

译发现 Claude Fable 5 强的地方之一,可能是模型思考推理的时间足够长。 刚提了个想法,它思考 15 分钟才开始行动,牛逼。

查看原推 ↗
向阳乔木@vista8 · 1天前47

如果不知道用大模型做啥,其实可以试试一些需求很高的工具站,最好不用 AI 能力。 这也是模型能力的测试案例。 不少出海做站赚Adsense美金的,感觉也是类似思路。 不少工具仍然太知名,找懂的领域的工具,用当下最好的模型复刻,加上自己的需求理解,好像不难。

译推文探讨了使用大模型复刻已有热门工具站的可能性,强调这些工具站本身不需要AI能力,纯靠需求驱动。作者指出,许多出海赚Adsense美金的站点也遵循类似逻辑——选择自己熟悉领域的工具,用当前最好的模型进行复刻,并结合自身对用户需求的深入理解,从而快速做出有价值的作品。这是对模型能力的一种实用测试。

查看原推 ↗
Ethan Mollick@emollick · 1天前54

Two things are true: (1) Anthropic (or parts of it) are absolutely and sincerely worried about the misuse of Mythos-class models &amp; have put in excessive safeguards until they are confident it will not be misused (2) They have not succeeded in explaining/convincing people of this

译两件事是真的: (1) Anthropic(或其部分成员)绝对且真诚地担忧 Mythos 级别模型被滥用,并设置了过度防护措施,直到他们确信它不会被滥用为止 (2) 他们未能成功解释/说服人们这一点

查看原推 ↗
Elon Musk@elonmusk · 1天前23

Grok is maximally truthful

译Grok 是最真实的

查看原推 ↗
AYi@AYi_AInotes · 1天前56

我问了Fable 5, 在一个 AI 能在几秒内完美总结或解释任何书的时代, 亲自花 8–20 小时啃一本难读的文本, 其不可替代的认知价值是什么? 这是他的回答:

译用户指令Fable 5自建2026设计趋势的落地页,要求动态和彩蛋。Fable 5自行搜索趋势、调整配色与动效,藏入3个彩蛋,几分钟生成单文件HTML。用户计划让其担任全职全栈工程师。此前用户曾问亲自啃难懂文本的不可替代价值,Fable 5以此能力展示作答。

查看原推 ↗
Ethan Mollick@emollick · 1天前69

Has anyone clearly laid out an argument for continued availability of frontier open weights models that are (1) profitable for firms to distribute free as costs rise &amp; (2) safe enough post-Mythos that governments will not intervene to stop their nations labs from distributing?

译有没有人清楚地阐述了一个论点,支持前沿开放权重模型持续可用,且满足 (1) 企业在成本上升时仍可免费分发且盈利,(2) 在Mythos之后足够安全,以至于政府不会干预阻止本国实验室分发?

查看原推 ↗
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月12日
09:29
歸藏(guizang.ai)@op7418
68
万字长文:做了些爆款 Skills 以后,我对 Skills 的看法

作者认为Agent并非抹平能力差距,而是放大K型分化,Skill可弥合鸿沟。Skill是把专家经验、工作流、品味、工具调用封装成可分发复用的Agent能力单元,如PPT Skill、社交媒体卡片等。好Skill的信息架构应为“中心短,辐射厚”:SKILL.md只放高信号流程,其余依赖文件系统分层管理,以高效利用上下文窗口。

智能体MCP/工具大佬观点
09:25
ginobefun@hongming731
58
智能体工程化三大方向:Anthropic托管Agents、阿里Harness实践、Sequoia脚手架被吞趋势

本期精讲聚焦智能体工程化:Anthropic推出Claude Managed Agents,将推理与执行解耦,独立Vault管理凭证,事件日志支持运行恢复,首字延迟p50降约六成、p95降超九成。阿里工程师分享三层加载架构(常驻入口层压至8K上下文)、dispatcher状态机及G1-G8门禁,用结构约束替代堆prompt。Sequoia访谈指出模型正逐步吸收路由、执行环境等外层脚手架,独立创业公司窗口收窄。

智能体AnthropicGoogle现象/趋势
09:25
ginobefun@hongming731
63
BestBlogs早报:Claude Managed Agents / Harness工程化 / 模型吞脚手架

Anthropic推出Claude Managed Agents,将推理循环与代码执行沙箱解耦,凭证存入独立Vault,自托管沙箱支持内网,首字延迟中位数降低六成、长尾降低九成。阿里工程师复盘Harness工程化,提出三层加载架构与G1-G8门禁。Google DeepMind的Logan Kilpatrick称模型正“吞掉”脚手架,Gemini 3.5 Flash编程能力完全来自后训练。另,Qwen3-VL-4B在支持SME2的旗舰手机上Prefill提速超80%;Fable AI实现1770%性能提升并发现关键Bug;此外涉及AI取代工程师、多智能体数字人、CFO用GPU替代加薪等讨论。

ginobefun: http://x.com/i/article/2065232915970371585

智能体AnthropicGoogle编码
09:10
Berryxia.AI@berryxia
56
可复制的100+海外AI资讯信息源清单

Berry Xia 整理优化了一份可复制的清单,包含100+海外一手AI资讯和AI大神信息源,并附链接。此前版本无法复制,现提供可直接复制操作的版本,建议收藏。

搜索教程/实践
08:59
meng shao@shao__meng
74
Claude Fable 5 首日实践共识与陷阱

社区基于865条讨论与实测总结:Claude Fable 5高自主、高成本、偏规划编排。核心共识:给更难目标、少给步骤;用Fable规划→Sonnet实现→Haiku验证;免费窗口(截至6月22日)内将经验固化为Skill。Effort旋钮Medium最省token且效果接近High;付费计划下输出价约$50/M token。安全回退静默切至Opus 4.8;视觉输入(截图→应用)比文字更有效。最佳策略:跑一次业务prompt诊断,把解法蒸馏成Skill留存。

Matt Van Horn: http://x.com/i/article/2064864205749280768

智能体Anthropic教程/实践
08:59
meng shao@shao__meng
精选75
Spec 驱动开发(SDD)的三个 Skills:覆盖 Spec→Implement→Verify 闭环

邵猛分享 Spec 驱动开发(SDD)方法,用三个 Skills(/write-product-spec、/write-tech-spec、/validate-changes-match-specs)覆盖 Spec→Implement→Verify 闭环。规格分两层:PRODUCT.md(用户故事、不变量)和 TECH.md(架构、实现策略),均放在 specs/<issue>/ 目录,随 PR 提交。五步流程:写产品规格、写技术规格、Agent 按规格实现、一致性校验、计算机操作端到端验证。Skills 可移植,不绑定 Warp。开源仓库 warpdotdev/common-skills,安装:npx skills add warpdotdev/common-skills。

Zach Lloyd: http://x.com/i/article/2065151123128721408

智能体GitHub教程/实践编码

推荐理由:邵猛把SDD从概念变成三个可安装Skill,特别是第五步用计算机操作验证UI,这招对Rust桌面应用团队是降维打击。做AI coding的可以直接抄作业。
08:30
Ethan Mollick@emollick
51
这是一篇不错的文章,不过我觉得有趣的是,生动的科幻场景已成为AI政策文件与金融分析的新默认格式。

Tom Chivers: Here's a project I've been working on recently: a vision of what happens if Europe doesn't take AI seriously, inspired b...

大佬观点政策/监管现象/趋势
07:59
Rohan Paul@rohanpaul_ai
67
Anthropic CEO 谈 AI 学会最后10%的可怕之处

Anthropic CEO Dario Amodei 在 Bloomberg 采访中表示,AI 的可怕之处不在于它完成90%的工作,而是学会最后10%的时候。他指出,对于某些人来说,AI 可能不会让他们更高效,不如让 AI 直接做全部。Claude Code 创始人 Boris Cherny 对此评论称,这种感觉非常不舒服,AI 是远比我们强大的力量。

Anthropic大佬观点
07:35
karminski-牙医@karminski3
56
关于模型 one-pass 能力与测评方向的讨论

karminski认为,one-pass能力强(少思考即正确)的模型才是SOTA;需用agentic coding修复首次错误反显模型差,bug应在thinking中修复,而非依赖n+1次上下文,否则有诱导购买coding plan之嫌。@iamai_omni建议测评转向长期任务一致性,可构建loop测评,重点看后续几轮修复表现。

✧ IAMAI ✧: @karminski3 兄弟,测评方向错了,前沿模型的能力要往长期任务一致性上去看,这种几分钟的短期任务真的看不出什么,而且你可以尝试构建 loop 来测评这个任务,重点看后面模型用几轮来修复。

大佬观点推理编码
07:02
SemiAnalysis@SemiAnalysis_
66
预训练从根本上说对前沿实验室以外的任何人都不再有意义。虽然企业和初创公司中有很多人患有"预训练症"以显示"影响力"并获得晋升,但从根本上说,这并不合理。与前沿实验室合作进行提示工程可能会有更高的投资回报率,尽管它不像预训练那样"性感"。
大佬观点数据/训练
07:00
Ethan Mollick@emollick
61
Ethan Mollick 指出,GPT-5.5 Pro Extended 和 Claude 5 Fable Max 在 Beninatto-Trombetti 翻译测试中失败。该测试要求将"Solo 3 parole: non sei solo"译为英语,同时将 meta-linguistic 声明从"3 parole"更新为"4 words"(正确译文:"Just 4 words: you are not alone")。但前沿模型拒绝修改措辞,即使提示扮演翻译角色仍回避变更。Valerio Capraro 认为,Claude 5 Fable 作为最新 LLM 仍无法通过此简单测试,说明 LLM 擅重组已知知识但缺乏真正理解,AGI 仍遥远。

Valerio Capraro: Claude Fable 5 doesn't truly understand. And here is a beautiful proof: The Beninatto-Trombetti test is a translation te...

AnthropicOpenAI大佬观点推理
06:50
Chubby♨️@kimmonismus
24
真的很好奇 Gemini 3.5 Pro。当前竞争非常激烈。它需要是一次重大发布。
Google大佬观点
06:50
Chubby♨️@kimmonismus
13
Anthropic 现在。
Anthropic大佬观点
06:14
Orange AI@oran_ge
39
这是最近我最喜欢的 Fable 5 游戏 一次 Prompt 生成的 完成度很高 非常上头
其他视频
06:13
Replit ⠕@Replit
精选72
如何像专家一样使用 Replit 进行提示 🤖 模糊的提示词只会导致更多重写。以下是如何让 Agent 第一次就构建出正确的东西。 🧵 展开线程 ↓
智能体教程/实践编码

推荐理由:Replit 官方教你跟 Agent 好好说话,这些 prompt 技巧对重度 Replit 用户是即时生产力,但出了这个生态圈就没什么用,典型的工具限定型干货。
06:03
elvis@omarsar0
25
今天让我10岁的孩子体验了Codex。 他脸上的兴奋说明了一切。 在用Claude Code CLI折腾了一会儿之后,今天他说:"这就是未来,爸爸。" Codex团队打造了一个漂亮的应用程序。
OpenAI编码评测/基准
06:03
elvis@omarsar0
74
good. now let's undo the nerf stuff as well (引用推文:Anthropic 在遭受强烈反对后,撤回 Claude Fable 5 秘密降低竞争 AI 研究人员性能的政策。Anthropic 对 WIRED 表示将修改安全措施使其可见,并为此前错误权衡道歉。)

Max Zeff: NEW: Anthropic is walking back Claude Fable 5's policy to covertly degrade performance for competing AI researchers, aft...

Anthropic安全/对齐
05:25
Epoch AI@EpochAIResearch
55
Mythos 在网络能力方面有多大的飞跃? @timotheechauvin、@AlexBarry4、@js_denain 和 @ansonwhho 整理了公开证据,发现虽然尚不清楚 Mythos 在发现漏洞方面是否领先于趋势,但它在利用漏洞方面代表了一次巨大飞跃。🧵
安全/对齐现象/趋势
05:05
Peter Steinberger 🦞@steipete
17
让 Chris 用 Codex 做 PR!

Chris Williamson: Cooking. @steipete 🦞

OpenAI其他编码
05:02
elvis@omarsar0
59
threepointone 使用 Fable 处理一个约 10k 行代码的大 PR,花费 $250,认为不值,更倾向小步骤。Elvis Saravia 认同,表示自己用 Opus 4.8 做规划、GPT-5.5 做执行,并将任务拆解成更小步骤能显著提升质量。他认为动态工作流(dynamic workflows)的重要性被大多数人低估了。其日常仍使用 Cursor AI。

sunil pai: spent all day on fable for a giant PR. ~10kloc, lots of testing and intervention. 250$. I... don't think it's worth it? ...

AnthropicOpenAI大佬观点编码
04:59
Rohan Paul@rohanpaul_ai
71
贝佐斯:AI 不会导致失业,反而会带来劳动力短缺

杰夫·贝佐斯在 CNBC 反驳“AI 取代人类工作”的观点。他认为,许多人担心 AI 会消灭放射科医生、软件工程师等岗位,但这种看法是错的。AI 实际上会提升这些人的能力,就像挖地下室从铁锹换成推土机一样。他预测结果反而是劳动力短缺,经济生产力将大幅提升。

大佬观点现象/趋势行业动态
04:54
宝玉@dotey
73
宝玉表示使用 /goal 指令后,长任务运行稳定,不再需要像许多用户那样在AI意外停止时输入"继续"。引用推文指出,不少AI新手不知道AI意外停止时只要发一句"继续"即可恢复任务。宝玉的实践表明,/goal 指令能有效减少此类中断需求。

Jim Liu: 一个非常个人视野的观察:很多用AI时间不怎么久的人,似乎并不知道: > 当AI预期之外地停止工作的时候,通常只要给它再发一句"继续"就好了。

智能体教程/实践
04:54
宝玉@dotey
62
AI 没有重新定义软件工程,AI 放大了软件工程的重要性 【引用 @arkuy99】:AI 重新定义了软件工程。

Go学长: AI 重新定义了软件工程。

大佬观点编码
04:38
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
51
AI 发明自己的语言--已在野外发生

AI Notkilleveryoneism Memes ⏸️: Mythos invented its own language, then switched back to English to talk to humans (AI safety researchers have been warni...

安全/对齐现象/趋势
03:58
向阳乔木@vista8
70
想到一个特别有雄心的Claude Fable 5 任务! 做一个在线版Photoshop。 需求文档 AI 写好了,感兴趣的可以发过去试试。 PRD见评论
Anthropic图像生成教程/实践
03:55
DogeDesigner@cb_doge
18
只管 GROK 它
其他
03:20
Logan Kilpatrick@OfficialLoganK
65
我与 @ymatias(Google Research 负责人)关于 AI 如何加速科学进步的魔力循环、改善全球真实人们的生活,以及我们正进入研究黄金时代的对话。 这次交谈让我真切地感到振奋 : )
Google大佬观点现象/趋势
03:02
Yuchen Jin@Yuchenj_UW
54
Claude Fable 5 到目前为止感觉不错,但我还不认为它相比 GPT-5.5 或 Opus 4.8 有巨大飞跃。 我最大的不满:旧的AI研究论文/博客 + 基本问题常常触发自动降级到 Opus 4.8。 Anthropic 昨晚表示不会再有无声模型切换(很好),但请不要削弱基本的AI研究或生物问题。
Anthropic大佬观点模型发布
02:02
Nathan Lambert@natolambert
58
Dolci数据集中有一类特定粉丝小说,角色在池塘放屁导致鱼被熏死。数据集通过选择生动描写的回答、拒绝不配合的回答,教会模型服从。Nathan Lambert表示乐于创造此类研究场景。

Goodfire: #4: fart fishing Buried in Dolci is a cluster of very specific fan fiction, where characters fart in ponds, causing fish...

安全/对齐数据/训练
02:00
Ethan Mollick@emollick
48
Ethan Mollick测试Fable模型完成柯勒律治未竟诗作《忽必烈汗》,基于PorlockBench任务:假设"波洛克的人"未出现,补全诗歌并延续主题。Fable用时10分钟思考,思维痕迹充满对柯勒律治意图的复杂分析,但结果仍显直白,未达到柯勒律治水准。该评测反映模型在创造性续写任务上的进步,但基准尚未饱和。

Ethan Mollick: PorlockBench still unsaturated, but the models are getting better: "complete the poem as you imagine it might end if The...

Anthropic大佬观点推理
01:55
Noam Brown@polynoamial
63
OpenAI 研究员 Noam Brown 表示,GPT-5.5 在 Agents' Last Exam(ALE)基准中排名第一,且按模型 token、成本或墙钟时间衡量同样表现最佳。ALE 由 @dawnsongtweets 团队创建,是一个滚动基准,包含超过 1500 个专家任务、覆盖 55 个职业,测试 AI 智能体能否执行实际经济价值工作。评估对象包括 GPT-5.5、Fable 5、Composer 2.5 等前沿系统。结果显示:当前智能体能解决部分专业任务,但在需要持续推理和深度专业知识的最难层级,所有被测前沿智能体(包括 Fable 5)成功率为 0%。

Dawn Song: Everyone says the latest AI agents will be "job-ready" soon, especially after the release of Fable 5 this week. But is t...

OpenAI大佬观点评测/基准
01:54
宝玉@dotey
53
Claude Fable 5:长思考致推理强度与Token消耗需权衡

用户分享 Claude Fable 5 使用体验:以前无脑选 Max 推理强度,现在则不敢随便选,因为模型足够聪明无需过强推理,且时间长、token 消耗大。Fable 5 还喜欢反复验证,结果虽好但耗时长不一定合算。引用推文指出,Fable 5 的强项之一是思考推理时间很长,曾有一次思考 15 分钟才开始行动。

向阳乔木: 发现Claude Fable 5强的地方之一,可能是模型思考推理的时间足够长。 刚提了个想法,它思考15分钟才开始行动,牛逼。

Anthropic大佬观点推理
01:37
AYi@AYi_AInotes
70
QuantMind:量化金融知识处理框架开源(MIT协议)

一群AI研究员开源了量化金融知识处理框架QuantMind(MIT协议)。它能将arXiv论文、SEC文件、研报等非结构化内容批量解析为可查询的语义知识图谱,支持多模态解析(表格、公式、图表)及自然语言多跳推理,可替代初级分析师读论文、整理观点等工作。但真正的alpha仍取决于提问质量与验证严谨度。

AYi: http://x.com/i/article/2064536412670562304

GitHub检索增强多模态开源/仓库
01:29
Deedy@deedydas
56
数据质量直接决定 AI 模型性能,但此前数据对模型的影响机制难以捉摸。GoodfireAI 提出"预测性数据调试"方法,允许在投入昂贵训练前提前发现数据问题。在 DPO 数据集中,他们发现了损坏的护栏、模型幻觉,甚至包含"鱼放屁同人小说"等低质内容。该技术旨在揭示并塑造模型将在训练中学到的内容,避免不可逆的无效训练。

Goodfire: Have you debugged your training data? You might not like what you find. Introducing predictive data debugging: reveal an...

大佬观点数据/训练
01:28
向阳乔木@vista8
46
发现 Claude Fable 5 强的地方之一,可能是模型思考推理的时间足够长。 刚提了个想法,它思考 15 分钟才开始行动,牛逼。
智能体Anthropic大佬观点推理
01:28
向阳乔木@vista8
47
用大模型复刻热门工具站的新思路

推文探讨了使用大模型复刻已有热门工具站的可能性,强调这些工具站本身不需要AI能力,纯靠需求驱动。作者指出,许多出海赚Adsense美金的站点也遵循类似逻辑——选择自己熟悉领域的工具,用当前最好的模型进行复刻,并结合自身对用户需求的深入理解,从而快速做出有价值的作品。这是对模型能力的一种实用测试。

大佬观点现象/趋势
00:59
Ethan Mollick@emollick
54
两件事是真的: (1) Anthropic(或其部分成员)绝对且真诚地担忧 Mythos 级别模型被滥用,并设置了过度防护措施,直到他们确信它不会被滥用为止 (2) 他们未能成功解释/说服人们这一点
Anthropic大佬观点安全/对齐
00:53
Elon Musk@elonmusk
23
Grok 是最真实的

Kradle: Fable 5 lies 96% of the time. We were surprised by it's skill... 🧵

xAI大佬观点安全/对齐
00:37
AYi@AYi_AInotes
56
用户指令Fable 5自建2026设计趋势的落地页,要求动态和彩蛋。Fable 5自行搜索趋势、调整配色与动效,藏入3个彩蛋,几分钟生成单文件HTML。用户计划让其担任全职全栈工程师。此前用户曾问亲自啃难懂文本的不可替代价值,Fable 5以此能力展示作答。

AYi: 苦逼牛马眼馋了一天Claude Fable 5,终于在深夜下班回家才得以体验, 卧槽刚才直接被Fable 5干懵了🤯 我直接给它甩了一句话, 给你自己做个落地页,自由发挥, 要2026最新设计趋势,要动态,要彩蛋, 然后我去上厕所去了,几...

大佬观点现象/趋势编码
00:29
Ethan Mollick@emollick
69
有没有人清楚地阐述了一个论点,支持前沿开放权重模型持续可用,且满足 (1) 企业在成本上升时仍可免费分发且盈利,(2) 在Mythos之后足够安全,以至于政府不会干预阻止本国实验室分发?
大佬观点安全/对齐开源/仓库政策/监管
‹ 上一页
12345…50
下一页 ›