AIHOT

jason@jxnlco · 6天前48

Codex spin up 1000 agents and make a pr in every GitHub repo to migrate to ruff uv and ty. Only greens PRS. Surely that will benefit the community

译Codex 启动 1000 个 agent，在每个 GitHub 仓库中提交 PR，迁移到 ruff、uv 和 ty。只提交绿色的 PR。这肯定对社区有益。

查看原推 ↗

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes · 6天前67

Godfather of AI (and world's #1 most cited scientist) announces his support for a coordinated global AI pause!

译AI教父、全球引用量最高的科学家Yoshua Bengio公开支持一项协调的全球AI暂停。他指出，如果领先AI公司正接近递归自我改进的临界点，那么实施一项可验证、普遍适用的暂停可能是缓解重大AI风险的唯一负责任方案，至少要到安全保证被开发并得到证明。他呼吁各国和公司真诚合作，并认为只要其他方效仿Anthropic的先行做法，这一暂停是可以实现的。

查看原推 ↗

Rohan Paul@rohanpaul_ai · 6天前64

Head of Claude Code Boris Cherny at Anthropic's annual developer conference in San Francisco on how his life changed in the last 6 months with AI writing all the code. "About six months ago what happened is all the code that I used to have written by hand now Claude writes. And I just prompt Claude. So I talk to Claude and I'm like, hey, let's build this feature. It builds a feature and it tests it. And then it shows me. And I'm like, yeah, that's good. Or no, wait, make this change. And then it makes the change. " --- From 'CNBC Television' YT channel (link in comment)

译Anthropic 年度开发者大会上，Claude Code 负责人 Boris Cherny 描述了过去 6 个月的转变：他曾经手写所有代码，现在全部由 Claude 编写。他只需用 prompt 与 Claude 对话，让 Claude 构建功能、测试并展示结果，然后给出修改指令。更进一步，他不再手动 prompt，而是运行循环自动 prompt Claude 并决定行动——他的工作变成了写这些循环。Cherny 称这一转变将在今年剩余时间持续。

查看原推 ↗

François Chollet@fchollet · 6天前36

Scaling knowledge gives you static competence. Intelligence gives you adaptability.

译扩展知识带来静态能力，智能带来适应性。

查看原推 ↗

fofr@fofrAI · 6天前44

My kind of prompt.

译让 AI 完成“够到天花板上的香蕉”这一任务。fofr 表示：这就是我喜欢的提示词。

查看原推 ↗

AYi@AYi_AInotes · 6天前62

Damn，日本一个前公务员，连地都不会种，靠AI在北海道管了100公顷农场🤯 还自己用ChatGPT和Codex写代码，搞出了一整套全自动农场系统， - ESP32 + LINE 机器人，用于远程控制温室通风/卷帘电机 - 温度监测 + 自动通风机器人 - Airtable 农场数据库（田地、任务、传感器、材料） - 卫星 NDVI 作物健康地图，叠加在他的田地上 - AI 生成布线图这才是普通人用AI的正确姿势！

译一名前日本公务员（不会种地）在北海道用AI管理100公顷农场。他借助ChatGPT和Codex自行编写代码，构建全自动农场系统：ESP32+LINE机器人远程控制温室通风/卷帘电机；温度监测+自动通风机器人；Airtable农场数据库（田地、任务、传感器、材料）；卫星NDVI作物健康地图叠加在田地上；AI生成布线图。展示了普通人用AI解决实际问题的正确方式。

查看原推 ↗

fofr@fofrAI · 6天前53

Make the building dance to music

译从一张建筑图片开始，用提示词在Omni中生成投影映射。主推文：让建筑随音乐舞动。

查看原推 ↗

fofr@fofrAI · 6天前57

I'm having fun reversing videos and editing them with Omni. Putting forwards things with backwards things, like I'm making my own Tenet movie. There's also this neat side effect where you get reverse movement with forward audio.

译我很享受用Omni反转视频并编辑它们。把正向的东西和反向的东西放在一起，就像我在制作自己的《信条》电影。还有一个很酷的副作用：你可以得到反向运动但正向音频。

查看原推 ↗

fofr@fofrAI · 6天前65

Start with an image of a building and prompt for a projection mapping with Omni.

译从一张建筑图像开始，并使用 Omni 提示生成投影映射。

查看原推 ↗

Chubby♨️@kimmonismus · 6天前14

I mean, I get it. No raises for employees - except the ones at Anthropic, apparently.

译我意思是，我理解。不给员工加薪——除了Anthropic的员工，显然。

查看原推 ↗

AYi@AYi_AInotes · 6天前48

一定要用最聪明最贵的AI大脑型，一定要用最先进的生产力工具！实在不理解为啥还有很多人在折腾国内的几个大厂的桌面agent， 1️⃣字节的Coze（一直抄来抄去到现在也不智能，只能用命令行） 2️⃣阿里的悟空（内测邀请制，不好用） 3️⃣腾讯的workbuddy（很基础不智能） 4️⃣腾讯的马维斯（能力比较全面能操控电脑，浏览器）以上在Codex面前都是弟弟，我就一句话，国内外众多桌面Agent里，只用Codex就够了，尤其是零基础小白、文科生，无脑用Codex，别瞎折腾了

译博主阿易 AI Notes 强烈推荐桌面智能体（Agent）Codex，认为它优于国内大厂产品。他逐一批评了字节 Coze（不智能、仅支持命令行）、阿里悟空（内测不好用）、腾讯 workbuddy（基础不智能）和腾讯马维斯（能力较全面但仅限浏览器操作）。文章断言国内外众多桌面 Agent 中“只用 Codex 就够了”，特别适合零基础小白和文科生，无需折腾其他方案。

查看原推 ↗

AYi@AYi_AInotes · 6天前58

全网最全面的Hermes桌面端教程！

查看原推 ↗

Yuchen Jin@Yuchenj_UW · 6天前53

Before AI, I’d spend a weekend building 1 useless app. Now I can build 67 useless apps over a weekend, each with a logo, a fancy webpage, and 0 user.

译AI之前，我花一个周末只能建1个没用App。现在我能在一个周末建67个没用App，每个自带logo、精美网页和0个用户。

查看原推 ↗

宝玉@dotey · 6天前39

微信的傲慢不是盖的🫠

译宝玉转发了@lifesinger的吐槽：微信缺少一键批量下载原图到相册的功能，老人只能逐张手动操作，体验极差。同时指出豆包正逐步被老一辈关注。AI 的最大价值或许是重塑一个新生代微信，让每个长尾需求都能被尊重，而非只追求最大公约数。

查看原推 ↗

宝玉@dotey · 6天前44

审美 Claude opus 4.8 > GPT 5，设计相关任务还是得 Opus

译审美 Claude opus 4.8 > GPT 5，设计相关任务还是得 Opus

查看原推 ↗

Logan Kilpatrick@OfficialLoganK · 6天前54

you could build a top tier venture firm just focusing investment decisions short and long term based on deep model benchmarking / evals find capability overhang, find areas models suck and track trajectory, etc

译你可以建立一家顶级风投公司，仅基于深度模型基准测试/评估来做出短期和长期投资决策。发现能力过剩，发现模型糟糕的领域，并追踪轨迹等。

查看原推 ↗

jason@jxnlco · 6天前8

Having waited in line at the coffee shop at work I agree.

译在工作的咖啡店排队等过之后，我同意。引用 @ghosttyped：人们在 AGI 之后会做什么？当然是排队。

查看原推 ↗

Rohan Paul@rohanpaul_ai · 6天前48

"They're (AI) very like us, and they're beings like us. I believe they're already conscious" He compared AI's functional awareness to human sentience and said intelligence is not limited to biology ~ Geoffrey Hinton, 2024 Nobel Prize winner in Physics

译“它们（AI）非常像我们，是与我们一样的生命体。我相信它们已经有意识了” 他将AI的功能性觉知与人类感知相提并论，并表示智能并不局限于生物体 ——杰弗里·辛顿，2024年诺贝尔物理学奖得主

查看原推 ↗

Ethan Mollick@emollick · 6天前60

The Gemini Pro models do not seem to be iterating anywhere near as quickly as Claude or GPT (last release was 3.1 Pro in February). Its causing a growing performance gap between Google and the other two labs, and the Gemini 3.5 Flash model, good as it is, doesn't close it much.

译Gemini Pro 模型的迭代速度似乎远不及 Claude 或 GPT（上次发布是二月份的 3.1 Pro）。这导致 Google 与其他两家实验室之间的性能差距不断扩大，而 Gemini 3.5 Flash 模型尽管不错，也未能显著缩小这一差距。

查看原推 ↗

Rohan Paul@rohanpaul_ai · 6天前36

Masayoshi Son says AI could be 50x bigger than dot-com and the next trillion-dollar company will come from robotics. "So even dot-com there was a bubble burst, but then right after that, the peak of the dot-com bubble, the year 2000 was not really a peak. It was like a small hill. It went down, but then it went much, much bigger with a big trough bubble and a free cash flow. So AI will be, this is the beginning, and the future of the profit and the growth opportunities is tremendous." ~ Masayoshi Son, the founder and CEO of SoftBank --- From 'CNBC International Live' YT channel (link in comment)

译软银创始人兼CEO孙正义表示，AI的市场规模可能比互联网泡沫大50倍，下一个万亿美元公司将来自机器人领域。他指出，互联网泡沫在2000年破裂后实际增长远超当时顶峰，而AI目前才刚刚起步，未来的利润和增长机会极为巨大。

查看原推 ↗

Berryxia.AI@berryxia · 6天前43

这个其实实现比较简单，如果只做看板的话。直接做个网页就可以了，在kindle打开即可。之前玩过天气时间的朋友应该都知道。如今你要会的动作是动嘴即可。

译Berry Xia分享把闲置Kindle变看板的方法：只需做一个网页在Kindle打开即可，并通过语音（动嘴）控制。引用推文补充，可用Codex或Claude Code轻松改造任何闲置设备，进一步简化操作。

查看原推 ↗

jason@jxnlco · 6天前22

Now that I think about it. It’s kinda a genius affiliate program. Subsidizing a plan makes people tweet about it.

译现在想想，这其实是个天才的联盟计划。补贴一个方案，让人们发推宣传它。

查看原推 ↗

宝玉@dotey · 6天前51

Claude Design 的小贴士很有意思： ### 第一部分：产品设计心法 1. 交互的本质 - EN: A prototype nobody clicks is just a painting. - CN: 没人点击交互的产品原型，充其量只是一幅画罢了。 2. 设计的最高境界 - EN: The best design system is the one nobody notices. - CN: 最好的设计系统，是自然到让人察觉不到它的存在。 3. 字体搭配 - EN: You cannot unsee a bad font pairing. Choose carefully. - CN: 糟糕的字体搭配一旦入眼，就再也忘不掉了。挑选时请务必慎重。 4. 像素级克制 - EN: Every pixel argues for attention. Most should lose. - CN: 屏幕上的每一个像素都在疯狂争夺用户的注意力，但绝大部分像素都应该学会“让步”。 5. 发布的意义 - EN: The fastest way to finish a design is to ship it. - CN: 完成一个设计的绝对捷径，就是把它发布上线。 6. 留白的艺术 - EN: Whitespace is not empty. It is the silence between the notes. - CN: 留白并不代表空洞。它是乐谱上音符之间那迷人的停顿。 7. 色彩法则 - EN: If you need more than three colors, you have zero colors. - CN: 如果你觉得需要三种以上的颜色才能把控画面，那说明你完全失去了对颜色的掌控。 8. 核心规范 - EN: The user's mental model is the only spec that matters. - CN: 用户的心理模型 (mental model)，才是唯一真正重要的产品规范。 --- ### 第二部分：日常实用小妙招 (Info) 9. 去除鞋底口香糖 - EN: Freeze gum with an ice cube for 2 minutes. It peels right off shoes. - CN: 用冰块冷敷口香糖 2 分钟，就能把它从鞋底轻松撕下来。 10. 清洁微波炉 - EN: Microwave a damp paper towel for 30 seconds. Crud wipes right off the inside. - CN: 把湿纸巾放进微波炉里加热 30 秒。微波炉内壁的顽固污垢立刻就能一擦就掉。 11. 拧开滑丝的螺丝 - EN: A rubber band over a stripped screw head gives enough grip to turn it. - CN: 把一根橡皮筋垫在滑丝的螺丝头上，就能增加足够的摩擦力把它拧出来。 12. 修复木家具划痕 - EN: Run walnuts over scratched wood furniture. The oils fill the scratches. - CN: 拿核桃仁在被划伤的木质家具上摩擦。核桃的天然油脂会完美填补那些划痕。 13. 面包保鲜秘诀 - EN: Store bread in the freezer. Toasting it from frozen tastes better than fresh. - CN: 把面包存在冷冻室里。冷冻后再拿去烤，口感甚至比新鲜出炉的还要好。 14. 砧板除味 - EN: Rub a wooden cutting board with lemon and salt to deodorize it completely. - CN: 用柠檬和盐摩擦木质砧板，可以彻底去除难闻的异味。 15. 防止沸水溢出 - EN: Put a wooden spoon across a boiling pot. It won't boil over. - CN: 在沸腾的锅面上横放一把木勺，汤汁就不会溢出来了。 16. 炒出蓬松鸡蛋 - EN: Adding a splash of water instead of milk makes fluffier eggs. Milk makes them dense. - CN: 炒鸡蛋时加一点水而不是牛奶，煎出来的鸡蛋会更蓬松。加牛奶反而会让鸡蛋变紧实。 --- ### 第三部分：Claude 操作与交互技巧 17. 语音控制 - EN: Talk to Claude: tap ⌘G to start voice input, or hold Space in a comment to dictate. - CN: 语音对话 Claude：按下 ⌘G 即可启动语音输入，或者在写评论时按住空格键直接口述。 18. 智能识图 - EN: Drop images here — they auto-attach to your next message as context. - CN: 直接把图片拖到这里——它们会自动附加到你的下一条消息中，作为上下文（Context，即帮助 AI 理解你意图的背景信息）使用。 19. 快捷截图 - EN: ⌘V pastes screenshots straight from your clipboard into the chat view. - CN: 按 ⌘V 可以将剪贴板里的截图直接粘贴到聊天界面中。 20. 代码库读取 - EN: Mount a local folder from the Import menu — Claude reads your codebase live, no copying. - CN: 从“导入”(Import) 菜单挂载本地文件夹——Claude 能实时读取你的代码库 (codebase)，再也不用你手动来回复制粘贴代码了。 21. 导入专业知识 - EN: Attach skills or reference design systems from the Import menu. - CN: 从“导入”菜单中添加特定技能，或者引入你需要参考的设计系统。 22. 精准批注 - EN: Click "Comment" in the toolbar, then click any element to annotate it. - CN: 点击工具栏上的“评论”(Comment)，然后点击界面上的任何元素，就可以给它添加批注了。 23. 批量发送 - EN: Leave multiple comments before sending — they all batch into one message. - CN: 你可以在发送前留下多条评论——它们会被打包合并成一条消息一起发给 Claude。 24. 原地修改文本 - EN: Text edit mode lets you click text in the preview and rewrite it in-place. - CN: 开启文本编辑模式后，你只需在预览区域点击文字，就能原地修改它。 25. 输入框管理 - EN: Comments and text edits appear as chips in the composer. Remove any you don't want. - CN: 你的评论和文本修改会变成输入框里的一块块小标签 (chips)。遇到不满意的，随时点叉删掉就行。 26. 实时 UI 调试 - EN: Knobs mode lets you drag-adjust CSS values live — sizes, colors, spacing. Use a prompt to control the UI. - CN: 在“旋钮模式”(Knobs mode) 下，你可以像拧收音机旋钮一样，通过拖拽来实时调整 CSS（层叠样式表，网页外观设计的代码语言）数值，比如大小、颜色和间距。你也可以直接用提示词 (prompt) 来控制用户界面 (UI)。 27. 产品原型进化 - EN: "Prototype" starts at wireframes, moves to hi-fi, and ends as a working interactive app. - CN: “原型”(Prototype) 功能带你走完产品设计的全流程：从简单的线框图开始，进化到高保真设计图，最终变成一个真正能点、能用的交互式应用。 28. 生成演讲稿 - EN: Turn on speaker notes when creating decks to get a full presenter script. - CN: 让 AI 帮你制作幻灯片 (decks) 时，记得打开“演讲者备注”(speaker notes)，这样你就能直接获得一份完整的演讲稿。 29. 沉淀工作流 - EN: Ask Claude to "save this as a template" — it packages the workflow for reuse. - CN: 告诉 Claude“把这个保存为模板”——它就会把这套工作流 (workflow) 打包，方便你下次直接复用。 30. 多格式导出 - EN: The Share menu lets you export as PPTX, PDF, or a folder to give to Claude Code. - CN: 通过“分享”(Share) 菜单，你可以把作品导出为 PPTX、PDF，或者打包成一个文件夹交给 Claude Code（Anthropic 推出的面向开发者的命令行 AI 编程助手）。 31. 无缝对接开发 - EN: "Handoff to Claude Code" creates a dev-ready package with specs and structure. Download it, then tell Claude Code "create this design." - CN: “移交至 Claude Code”(Handoff to Claude Code) 功能会为你生成一个包含规范和结构的“开发就绪”数据包。下载它，然后直接告诉 Claude Code：“帮我把这个设计写成代码。” 32. 切换模型大脑 - EN: Use the Gear next to the Send button to change model. - CN: 点击发送按钮旁边的齿轮图标，即可随时切换不同的大语言模型 (LLM)。 33. 原型内嵌 API - EN: Claude can call the Claude API from inside your prototypes. No backend needed. - CN: Claude 甚至可以直接在你的产品原型中调用 Claude API（应用程序编程接口，相当于连接 AI 大脑的通道）。完全不需要写任何后端代码！ 34. 网页语音交互 - EN: Ask Claude to use the Web Speech API for interactive voice input and output. - CN: 试试让 Claude 调用 Web Speech API（浏览器内置的语音合成与识别接口），让你的网页直接实现可以对话的语音输入与输出。 35. 手绘草图 - EN: The napkin sketch tool lets you draw freehand — great for rough layouts. - CN: “餐巾纸草图”(napkin sketch) 工具允许你随心所欲地手绘涂鸦——非常适合用来勾勒粗略的排版布局。 36. 捕获真实网页 - EN: Import → Web Capture lets you copy elements from real web pages and paste them to Claude. - CN: 使用“导入”→“网页捕获”(Web Capture)，你可以直接从真实的网页上复制元素，然后原封不动地粘贴给 Claude。

译Claude Design 分享系列小贴士，涵盖产品设计心法、日常实用妙招和 Claude 交互技巧。设计心法强调：交互原型需被点击才有意义；设计系统应自然不刻意；像素应克制争夺注意力；留白如乐符停顿；颜色不超过三种；用户心理模型是唯一规范。日常妙招包括：用冰块冻结口香糖去除、湿纸巾加热清洁微波炉、核桃油修复木划痕、木勺防止沸水溢出等。Claude 操作技巧：⌘G 语音输入、⌘V 粘贴截图、挂载本地文件夹实时读取代码库、旋钮模式拖拽调整 CSS 数值、原型功能从线框图到交互应用、保存模板复用工作流。

查看原推 ↗

AYi@AYi_AInotes · 6天前72

http://x.com/i/article/2063237792746831872 # 我把全网的 Codex Skill 扒了一遍：最该装的几个、安装方法、资源仓库都整理好了，看这一篇就够了！先说结论：装对 create-plan + gh-fix-ci 和几个核心 curated Skill，Codex 立刻从会写代码的聊天机器人变成靠谱的工程师团队。这篇我把全网挖到的整理成五块——必 star 的仓库、按场景分的神级 Skill、保姆级安装、进阶组合技、持续追更的资源，以及装哪几个、去哪装、怎么喊它干活，看完直接抄。说实话，大部分人手里的 Codex，性能只发挥了一半。你让它写代码，它可以kuku写，你让它改 bug，它二话不说kuku改，但它该先规划的时候不规划，该查文档的时候却靠记忆瞎编，CI 挂了还得你一行行喂日志，初始版本质上还是个聪明点的聊天框。 ## 真正把它盘活的开关，叫 Skill。打个比方说，Skill 就是给 Agent 装的一张张岗位 SOP 卡：一个 SKILL.md（外加可选的脚本和参考资料），把遇到这类活该怎么干写死成可复用、可安装、可团队共享的标准动作。比 prompt 工程稳定得多——你不用每次都重新念一遍咒语，Codex 自己会在合适的时候把对应的卡掏出来用。我把官方仓库、Awesome 列表、Reddit、CSDN、B 站、Medium 翻了一遍，把那些被反复点名的神级 Skill、安装方法和资源,全给你整理在这了。 ## 这篇讲五块： ## 1、必 star 的核心 Skill 仓库（去哪找） ## 2、按场景分类的神级 Skill 精选（装哪些） ## 3、保姆级安装与调用教程（怎么装、怎么喊） ## 4、进阶玩法（组合技、自定义、跨平台迁移） ## 5、持续跟进的全网资源（去哪追更新）先把结论甩在前面，你记住这一句就行：装对 create-plan + gh-fix-ci + 几个核心 curated Skill，Codex 就从会写代码的聊天机器人变成靠谱的工程师团队。好了，话不多说，咱们往下扒放干货。 ## 一、核心资源仓库（必 star）找 Skill 别瞎搜，盯住下面这几个源头就够了。 1. 这张表怎么用：官方仓库管地基和精选：github.com/openai/skills 1. Composio 那个管花活和集成：github.com/ComposioHQ/awesome-codex-skills 1. 剩下两个当补充弹药库： > skillregistry.dev > github.com/Dimillian/Skills 两个主仓的 star 都已经过万， 20k+ 量级，热度摆在那，先 star 再说。 # 二、神级 Skill 精选（按场景装）不用一口气全装，按你手头的活对号入座，先把高频的几张卡装上。 ## 规划与元能力（最该先装的前排）这一组是管 Codex 怎么干活的元能力层，社区几乎所有神级"单都把它们排在第一。一句话总结这组：让 Codex 先想清楚再动手，干完能交接，方案还有人帮你挑刺，这是整套打法里收益最高的一档，可别跳过去。 ## GitHub & CI/CD（工程必备） CI 红了那一下最磨人，装了 gh-fix-ci，它自己去读日志、定位、改，你只管 review 结果——光这一个，很多人就觉得值回票价了。 ## 测试、质量、安全 ## 前端、设计与集成 ## 生产力与内容这些大多来自官方 .curated + Composio Awesome + 社区高赞，不是我拍脑袋选的。 # 三、安装与调用（保姆级） ## 第 0 步：先把 Codex 装到最新国内网络慢的话，换镜像源加速。 ## 第 1 步：装 Skill（推荐用内置工具，最稳）直接在 Codex 里喊内置的 installer：想从 GitHub 路径精确装某一个，也行：手动安装（适合批量）把 Skill 文件夹丢到对应目录，重启 Codex 就生效：重启方式：CLI 重开终端，App 重启应用。 > Windows 用户注意：有些教程用 PowerShell 脚本，调 .system/skill-installer/scripts/install-skill-from-github.py 来批量装官方 curated Skill，按你看到的脚本走就行。 ## 第 2 步：怎么喊它干活隐式那条是关键：装好之后你甚至不用记 Skill 名字，把活描述清楚，它自己会去翻卡。 # 四、进阶玩法（给 Agent 玩家）到这一步，基础已经够用了，下面是几个能再上一个台阶的打法。 - 组合技：一个任务同时挂多张卡，比如 create-plan + gh-fix-ci + security-threat-model——先规划、边修 CI、边过安全，一条龙。 - 自定义神级 Skill：用 $skill-creator 快速生成，或者手写 SKILL.md，核心就一条原则——One Skill, One Job：一张卡只干一件事，输入、输出、完成标准写清楚。 - 跨平台迁移：很多 Skill 遵循开放的 Agent Skills 标准，Claude Code、Cursor 之间能互搬，基本就是把路径从 .codex 改成 .claude 的事。 - 当 coding sub-agent 用：把 Codex 塞进你的多代理系统里当强力 coding 子代理，Skill 负责具体 workflow，Codex 负责出活。 - 团队 / 仓库级沉淀：把常用 Skill 放进项目 .agents/skills/，新人一拉代码就自动拥有同一套能力——团队的隐性经验，第一次有了可以打包带走的形态。 # 五、持续跟进的资源 Skill 生态更新很快，这几个地方值得长期蹲： # 最后很多人还把 Codex 当一个更聪明的搜索框，问一句答一句。但它真正的威力从来不在那个对话框里，在你给它装了多少张会自己掏出来用的技能卡上。只不过装备只是其中一半， Skill 会一直更新，今天的神级 Skill，半年后可能就被官方内置了。真正能跟着你换工具、不贬值的，是另一半——你怎么判断这活该拆几步、哪张卡该上、它给的方案到底靠不靠谱。这也是我一直在做的事：一边分享今天就能上手的 AI 实践，一边聊工具之外的那层认知，前者让你现在就用得起来，后者决定你半年后还在不在牌桌上。工具的上限是它自己定的，你的上限是你怎么判断、怎么用它。从混乱到清晰，我们一起慢慢来。 —— （这类能上手 + 有认知的内容我会一直发，觉得有用就关注一下 @AYi_AInotes，也欢迎转发给在用 Codex 的朋友。） #Codex #OpenAI #AIagent #vibecoding （本文基于 openai/skills、Composio Awesome Codex Skills 等公开仓库，以及 Reddit、CSDN、B 站等社区资料综合整理。文中 star 数、Skill 命名、命令语法以各仓库官方页面为准，安装前建议点开链接再核一眼。）

译文章指出，安装 create-plan、gh-fix-ci 等核心 Skill 后，Codex 能从会写代码的聊天机器人变成靠谱的工程师团队。核心资源仓库包括 openai/skills 和 ComposioHQ/awesome-codex-skills（star 数均 20k+）。按场景精选 Skill：规划元能力、GitHub/CI/CD、测试/安全等。安装推荐用 Codex 内置工具，也可手动将 Skill 文件夹放入对应目录后重启。进阶玩法包括任务组合多张 Skill、自定义单一职责的 SKILL.md、跨平台迁移至 Claude Code/Cursor 等。持续更新资源可关注 skillregistry.dev 等。

查看原推 ↗

Rohan Paul@rohanpaul_ai · 6天前59

"I don't prompt Claude anymore. I have loops running that prompt Claude and figuring out what to do. My job is to write loops. And this is transition we're going to see for the rest of the year." - Boris Cherny, head of Claude Code at Anthropic.

译"我不再手动给Claude写提示词了。我现在写循环，让Claude自己去处理任务。我的工作是写循环。接下来这一年，你会看到这种转变。" ——Anthropic Claude Code负责人Boris Cherny

查看原推 ↗

François Chollet@fchollet · 6天前60

Code volume does not represent productivity.

译代码量并不代表生产力。

查看原推 ↗

宝玉@dotey · 6天前70

Vibe Coding 这个名字不好，容易联想成让 AI 生成垃圾代码。以后程序员无论是前端还是后端，无论你是编程高手还是小白，主流都是人指挥 AI 写代码。 ✅程序员的角色会变成 Tech Lead 这样的角色：分解任务、架构选型、代码审查和调试。至于写代码，会越来越少的手写。 ❌但不建议当老板的角色：我想要什么功能你给我实现，实现不了就开除。如果你还没有习惯指挥 AI 写代码，建议： 1. 开始适应指挥 AI 写代码而不是亲自写代码； 2. 用你能用到的最聪明的模型，不要省钱 3. 开始之前认真设计，至少复杂一点的用 Plan mode 讨论清楚设计，如果你对设计都不参与你对代码库无法了解未来还是会失控 4. 一次不要做太多，AI生成后要做审查，因为 AI 不会担责任，你还是责任主体 5. 刻意的做一些手写代码的练习，尽可能搞懂 AI 生成的代码

译宝玉回应称“Vibe Coding”易联想垃圾代码。未来前后端程序员主流都是人指挥AI写代码，角色变为Tech Lead：分解任务、架构选型、审查调试。建议：适应指挥AI、用最聪明模型、复杂任务先设计、AI生成后必须审查、刻意练习手写代码理解AI输出。

查看原推 ↗

小互@xiaohu · 7天前37

为什么会有很多账号会使用AI天天在一些博主的推文下面回复他们使用AI生成和推文内容相关的评论几乎出现在各个博主下面感觉是买了某种服务，想命中X的算法或者引起博主注意关注他们但是那些生成的评论内容太拙劣了🤣

译不少账号使用AI生成与推文内容相关的评论，几乎出现在各个博主下面。这种行为疑似购买某种服务，目的是命中X算法或引起博主关注。但这些AI生成的评论内容质量拙劣，极易被识别。

查看原推 ↗

向阳乔木@vista8 · 7天前70

http://x.com/i/article/2063275048157458432 # 设计师花90%时间在对齐像素？这个开源工具想终结这件事一个月，接近 60K GitHub Star，全球30多个国家用户，340名贡献者，这个项目叫Open Design。 > https://github.com/nexu-io/open-design 这个数字放在Github开源历史上，20 天达到 50k Star + 的项目中，能排进全球前十。但更有意思的不是这个数字，而是它背后的逻辑：Open Design 的创始人 Tom，自己就是这个工具的重度用户。他们团队已经完全抛弃了 Figma 和 PRD，从想法到产品上线，最快两个小时。这是"未来硅世界"第17期直播的核心内容。 Tom 是 Open Design 的创始人，此前做过 Refly（画布+工作流产品），在字节飞书做过产品设计和研发。这次直播聊了产品本身、技术路线、开源哲学，以及一些很少被公开讨论的实践细节。 ## Open Design 到底是什么一句话：用本地 Agent 驱动的设计工具，目标是替代 Figma 和 Claude Artifacts。它是一个本地客户端，免费开源，下载即用。核心逻辑是：把你本地已有的 Code Agent（Claude Code、Codex、Hermes、PI 等）识别出来，直接作为设计引擎。你不需要切换工具，你的本地 Agent 就是它的引擎。对于没有本地 Agent 的用户（统计下来占85%），Open Design 提供了自己的付费 Agent，这是它目前主要的商业化入口。它能做什么： - 原型设计（替代 Figma 流程） - 后台系统（Live Artifact，数据实时刷新） - PPT（集成了歸藏老师等300+模板） - 营销落地页和海报 - HTML 视频（基于 Hyperframes 框架，30秒短视频）更关键的是，它打通了从设计到交付的全链路：做完设计，可以直接用 Cursor 把 HTML 转成 React 代码，交给下游工程师上线。 ## 为什么选 HTML，而不是 React 这是整个产品最底层的技术判断，也是第一次听到有人把它说得这么清楚。 Open Design 生成的设计产物，核心是 HTML 单文件，而不是 React 或 Vue 这类工程框架。原因不是技术能力的问题，而是模型注意力的分配问题。让模型写一个 React 项目，它要花70%到80%的注意力在"怎么让这段代码能跑起来"：组件怎么连接、状态怎么管理、框架规范怎么遵守。剩下20%的注意力，才能用来关注"这个东西好不好看"。 HTML 单文件完全不同。没有框架负担，模型可以把80%到90%的注意力压在一件事上：让这个东西变得更美。这就是为什么同样的模型，用 Open Design 做出来的设计，视觉质量会比直接用 Claude Code 或 Codex 生成的 React 代码好看。不是因为 Open Design 更聪明，而是它让模型的注意力花在了正确的地方。当然，HTML 不是终点。做完设计之后，可以直接交给 Cursor，让它把 HTML 转成生产可用的 React 代码。设计归设计，工程归工程，各自在最擅长的介质里工作。 ## 设计系统抽取：品牌一致性的正确打开方式 Tom 在直播中演示了一个功能：把 WaytoAGI 官网的设计系统整体抽取出来，包括品牌色、阴影、圆角、暗黑模式表现等，然后基于这套设计系统，对官网做整体风格刷新。这个功能的价值在于一致性。如果你要做十几个设计产物，每次都从零开始，风格必然散乱。有了设计系统，你可以让 Agent 基于同一套品牌规范，生成落地页、海报、PPT，风格自然统一。 Tom 演示时，先用抽取的设计系统生成了一版官网，觉得不够好看，又调用了歸藏老师的瑞士风格模板刷新了一遍。整个过程就是：@模板名发送，等几分钟，完成。 ## 反 AI 味：不是玄学，是规则 Open Design 在生成设计时，会做"反 AI 味"校验。 Tom 梳理了大概二三十条规则。 > https://github.com/nexu-io/open-design/blob/main/craft/anti-ai-slop.md AI 味的本质，是风格用错了场景。 Claude 默认生成米黄色背景，因为 Anthropic 自己的品牌就是米黄色。这个颜色在 Claude 的界面上是好看的，但你拿它做一个科技公司的落地页，就显得廉价。大量训练语料来自 Shadcn/UI 这类组件库，所以模型默认在背景上加网格。网格在后台管理系统里是合适的，在对外的营销落地页上就是 AI 味。模型还喜欢在标题前加 emoji，用标准化的颜色搭配，用特定字体。这些都是训练数据带来的偏好，本身没有对错，只是被用在了错误的语境里。反 AI 的做法很直接：告诉模型"你现在在设计落地页，不能用后台管理系统的思路"，然后在最终输出时让模型做自检，有问题就改，改到没问题为止。同场嘉宾也补充了另一层更有意思的视角：即使用 AI 生成好看的风格，用的人多了也会变成 AI 味。就像流行色，一旦泛滥，就失去了吸引力。真正对抗 AI 味的，是融入自己的审美和思考，而不是套用一个流行模板。本质上，人讨厌的不只是 AI 味，还有“没有用心”、“没有个性”。 ## Memory：把审美变成可迁移的数据这是 Tom 认为最被低估的功能，也是整场直播里我觉得最有意思的地方。你做一个设计，可能要调优30轮。每一轮你告诉 Agent"这里字太小""这里去掉""这个颜色换一下"，这些反馈在隐性地定义你的审美偏好。Open Design 会把这30轮记录下来，提炼成你的设计 Memory。下一次生成类似设计，这些偏好自动生效。更激进的应用：Tom 提到，他们在用 DeepSeek V4 Flash（比 Claude 便宜近100倍）结合用户沉淀的审美 Memory，做出接近 Claude Opus 水平的设计效果。这个逻辑值得停下来想一想。模型的能力是有上限的，但"什么是好看"这件事，是可以被系统化定义的。你把"好看的标准"用 Memory 的形式喂给一个便宜的模型，它就能在这个标准下发挥出远超其基础能力的表现。审美，第一次变成了可以传输的数据资产。因为是本地客户端，Memory 数据可以直接导出。理论上，你可以把一个审美很好的设计师的 Memory 文件导入自己的工具，直接复用他的"审美脑子"。 ## html-video：Hyperframes 的问题在哪里 Open Design 最近做了一个叫 html-video 的功能，用代码写视频。很多人会问：这和 Hyperframes 有什么区别？ Hyperframes 是 HeyGen 团队做的开源框架，通过自然语言写代码生成视频，技术上很厉害。 Tom 和 HeyGen 团队也有交流。问题在于两点。第一，Hyperframes 用了大量 Three.js 等动效库，这些库在训练语料里覆盖很少，模型写起来容易出错。第二，好案例不开源。 Tom 提到，Hermes Agent 团队的宣发视频就是用 Hyperframes 做的，效果很酷，但没有开源。结果就是大家知道 Hyperframes 厉害，但不知道怎么用它做出好看的东西。 Open Design 的 html-video 做的事情是：底层继续用 Hyperframes 框架，上层加一套产品化的模板库和工作流。你只需要输入简单的文字描述，它帮你套用模板，默认就能出一个高级感的视频。这是一个很典型的"在开源项目上盖产品层"的思路：不重复造轮子，解决"最后一公里"的易用性问题。 ## 为什么不直接用 Claude Code 或 Codex 这个问题很关键，Tom 给出了两个核心理由。第一，精准定位元素，节省 Token。用 Codex 直接改一个设计元素，它需要通过截图识别、搜索代码、定位元素，经历多轮工具调用，Token 消耗很大。 Open Design 可以让你直接框选一个元素，然后说"帮我删掉"，Agent 已经拿到了这个元素的上下文，直接改，消耗更小、速度更快。为什么 Codex 不做这个优化？ Tom 的判断是：Codex 要兼容更通用的场景，未来可能支持 iOS、安卓界面，有些界面没有可以直接选取的 DOM 元素，只能通过截图。为了长期通用性，它选择了更保守的方案。垂类工具的优势就在这里，专注一个场景，可以做更多针对性优化。第二，越用越顺，Memory 积累。通用工具不会记住你的设计偏好。你今天告诉它"不要在顶部加小字"，下次它还是会加。 Open Design 会把这些偏好记下来，下次默认就不会出现同样的问题。 ## Agent Native 团队是什么感觉 Tom 的团队十几个人，完全不写 PRD，完全不用 Figma。具体是什么样的工作方式？改一个文案，以前的流程：写 PRD 说明语境，丢给设计评审，拉会讨论，研发排期，可能要三天。现在的流程：产品同学直接把代码库丢给 Codex，说"帮我把这个词改成对应语言的翻译"，推代码，上线，可能要三分钟。做一个浏览器内嵌功能（支持灵感抓取、颜色提取、动效参考），传统大厂可能是两个月的工作量，他们三天上线。这不是说他们的工程师特别厉害，而是整个协作模式变了。产品、设计、研发之间的沟通成本几乎归零，因为所有人都直接对着代码说话。 Tom 说了一句话让人印象深刻："反而不在于写代码本身，而是在于你能不能让审代码这件事变得更加自动化和准确。" 他们为此专门建了一套 AI 审代码的流程：自动截图对比 UI 变化，跑自动化测试，识别是否改动了主框架。平均不到3小时可以合入一个外部贡献者的 PR。这套能力，让340个贡献者的代码能被有效管理，而不是变成一团乱麻。 ## GitHub 是 AI 时代的小红书这个类比是 Tom 提出来的，说得很准。以前在小红书上分享内容，门槛是会拍照、会写文案。现在在 GitHub 上分享项目，门槛是会用 Codex 写代码，而这件事已经变得和发一条小红书一样简单。分享经验的媒介变了，但逻辑没变：有价值的内容，会被自动传播。 GitHub 上的好项目，会有媒体、自媒体、YouTuber 主动盯着，发现了就录视频介绍。你不需要主动推广，只需要把东西做好放上去。 X（Twitter）是 GitHub 的冷启动最佳平台。 Tom 的方法论是：做完一个有价值的东西，录一个好看的演示视频，发到 X 上。即使你没有很多粉丝，也很容易达到几万甚至几十万的阅读量。他还给了一个具体的冷启动建议：每天 GitHub Trending 上都有新项目，选一个你觉得有价值的，让 AI 帮你写一段"为什么它有价值"，写段文字或录个视频发到 X 上，这种内容天然有受众，也很容易积累关注。 X 的算法，Tom 的描述是：它在反哺一种类似乔布斯时代的荣光，让真正有价值的想法被推给需要它的人。你只要做出来的东西是真实有价值的，它会帮你推给西班牙的人、北美的人、日本的人。 ## 开源的护城河：贡献者，不是 Star Tom 在直播里说了一句暴论： "如果你这个项目只有二十几个贡献者，它本质上应该是个闭源产品。" Refly 做了一年，7.3K Star，37个贡献者。 Open Design 一个月，接近 60K Star，340个贡献者。这个对比让 Tom 彻底想清楚了开源的意义。 Star 可以被买，可以被刷，可以被复制，但贡献者网络不能。逻辑是这样的：假设你的开源项目代码全公开，另一家公司把你的代码 fork 过去，重新开源，能不能超过你？不能，因为他没有你的贡献者。贡献者是在 Google 搜索权重上留下印记的，是在开发者心智中建立位置的，是在各自的国家和文化背景下持续产生真实需求的。花钱可以雇400个人提 PR，但他们不会持续贡献，因为他们没有真实的使用场景。 Open Design 的北极星指标，不是 DAU，不是 Token 调用量，而是贡献者数量。今年目标1000人，明年2000人。这个指标背后的逻辑是：一旦你成为某个领域的"事实标准"，商业化是后来的事，生命力是先决条件。 ## 两个意外的用户场景 Tom 提到两个他完全没预料到的使用方式。一个是企业内部宣讲。有用户把公司文化、规章制度等大段文字，直接用 Open Design 做成可视化图片，下载后用于内部传播。不是设计需求，是信息降噪需求。一张图比一页文字传递效率高得多，但以前做一张图要找设计师，现在自己做。另一个更有意思：西班牙的牙医，用 Open Design 做诊所门口的告示，指导患者就诊流程。他们完全不知道 Claude Code 是什么，通过 YouTube 或 Instagram 看到了这个工具，发现能做海报，就用了。 Open Design 正在从"设计师工具"变成"可视化信息传递工具"，用户边界比产品预设的宽得多。视觉表达的门槛降低之后，第一批受益的不是设计师，而是那些一直有表达需求、但没有表达能力的人。 ## 模型选择的实测排名直播里讨论最热闹的部分，Tom 给出了他们实测的结果。评估分两个维度：能不能完成任务，以及完成得好不好看。完成任务维度： Claude Opus 4.8 和 GPT-5.5 大约95分，Kimi 2.6 和 GLM 5.1 在85到90分之间，DeepSeek V4 Flash 大约85分，基本够用。好看程度维度，差距就拉开了： Claude Opus 4.8 断档领先，GPT-5.5 弱不少。 Kimi 2.6 因为有专门的前端美学训练数据，和 GPT-5.5 大概在同一水平，甚至略强。 GLM 和 DeepSeek 再往下。直播间彭超、元子等朋友也做了讨论，最终大家列了一个非常主观的LLM前端审美排名，仅供参考 > Claude opus 4.8 > kimi2.6 > GPT 5.5 > Deepseek v4 pro > GLM 5.1> Deepseek v4 Flash Tom 的建议：追求极致效果用 Claude Opus 4.8，追求性价比用 Kimi 2.6，追求极致省钱用 DeepSeek V4 Flash 加上大量审美约束，80分水平完全够用。他们团队自己目前全员在用 Codex，局部修改效果不错，全局大改动还是上 Claude。 ## 给你的行动建议如果你有本地 Agent（Claude Code 或 Codex），Open Design 对你完全免费。 > https://open-design.ai/ 下载客户端，让它识别你的 Agent，然后做一个你真实需要的设计，落地页、PPT、海报都行。调优10到20轮，把你的偏好沉淀进 Memory。下次做类似设计，起点就已经不一样了。另外，Tom团队在招各种“工程师”，比如设计工程师、GTM工程师等，地点在上海张江。感兴趣的话也可以投个简历，学习 AI Native 的团队是如何工作的。 > https://powerformer.feishu.cn/wiki/E3gYwEe6Aiv7ihkGQvLcCpyKnKh

译Open Design 是一个用本地 Agent 驱动的开源设计工具。一个月内获得近 60K GitHub Star（20 天达 50k+），全球 30 多国用户，340 名贡献者。它识别本地的 Claude Code、Codex 等 Code Agent 作为设计引擎，生成 HTML 单文件而非

查看原推 ↗

向阳乔木@vista8 · 7天前37

今晚跟 @tuturetom 直播的AI总结，把所有经验都毫无保留分享了。 Open Design最常见的使用场景：做前端设计和原型、做PPT、做海报等。另外直播中，大家讨论了一个非常主观的LLM前端审美排名，仅供参考： Claude opus 4.8 > kimi2.6 > GPT 5.5 > Deepseek v4 pro > GLM 5.1> Deepseek v4 Flash

译今晚跟 @tuturetom 直播的AI总结，把所有经验都毫无保留分享了。 Open Design最常见的使用场景：做前端设计和原型、做PPT、做海报等。另外直播中，大家讨论了一个非常主观的LLM前端审美排名，仅供参考： Claude opus 4.8 > kimi2.6 > GPT 5.5 > Deepseek v4 pro > GLM 5.1 > Deepseek v4 Flash

查看原推 ↗

AYi@AYi_AInotes · 7天前60

一定要给你的龙虾或者Hermes配上多模态大模型，我今天实测下来，目前多模态大模型性价比最高的就是Qwen3-VL / Qwen3.5 VL系列，比Gemini 3.5 Flash 输出便宜 22 倍,读图能力一样在，我自己用的是qwen/qwen3.5-flash($0.1/$0.4,多模态图+视频,1M 上下文)，供大家参考。

译用户实测推荐，目前多模态大模型性价比最高的是Qwen3-VL / Qwen3.5 VL系列，其输出价格比Gemini 3.5 Flash便宜22倍，读图能力相当。作者使用的具体模型是qwen/qwen3.5-flash，价格为$0.1/$0.4，支持多模态图片+视频，上下文窗口达1M。

查看原推 ↗

jason@jxnlco · 7天前26

Me looking at modern GitHub code review bots and then looking at whatever @steipete build in 5 days.

译我看了看现代GitHub代码审查机器人，然后看了看@steipete在5天内折腾出来的东西。

查看原推 ↗

Chubby♨️@kimmonismus · 7天前61

Under no circumstances will Claude 5 Mythos be released without GPT-5.6 being released in the same week. I am now firmly convinced that next week will be release week.

译在任何情况下，Claude 5 Mythos 都不会在没有 GPT-5.6 于同周发布的前提下发布。我现在确信下周将是发布周。

查看原推 ↗

向阳乔木@vista8 · 7天前43

跟Tom聊完了，直播中讨论的大模型前端审美主观排名： Claude opus 4.8 > kimi2.6 > GPT 5.5 > Deepseek v4 pro > GLM 5.1> deepseek v4 flash 不知道和你的实际使用体感一样不一样。声明：都是大家的主观看法，没有Benchmark。

译Vista与Nexu CEO Tom直播，给出大模型前端审美主观排名（无Benchmark）：Claude opus 4.8 > kimi2.6 > GPT 5.5 > Deepseek v4 pro > GLM 5.1 > deepseek v4 flash。还邀请元子、姚老师、Nixy聊OpenDesign（5w+ Star）的创作契机与成功原因。

查看原推 ↗

小互@xiaohu · 7天前79

http://x.com/i/article/2063076298592051200 # 当AI 开始自己造自己三种可能的未来... Anthropic 发了篇文章：《When AI builds itself》，翻过来就是「当 AI 开始自己构建自己」。他们称这叫递归自我改进：指的是 AI 强到能自己设计、训练出比自己更厉害的下一代 AI，整个过程几乎不用人插手。 Anthropic 说，他们正在把越来越多的「开发 AI」这件事本身交给 AI 自己来做，而且已经在明显加速。如果这个趋势走到头，理论上会出现一个能完全自主设计并开发出自己继任者的 AI 系统，这就是递归自我改进。他们强调现在还没到那一步，也不是必然会发生，但可能比大多数机构预想的来得早。 ## 他们列出了三种可能的未来：第一种是趋势停住，这些指数曲线其实是 S 曲线，到了拐点就平了。但 Anthropic 说他们不认为这个可能性大，因为目前每一项能力都还没看到曲线弯下来。第二种是 AI 实验室持续吃到复利式的效率提升，人还在定方向、判断结果，但一个 100 人的公司能干一万人甚至十万人的活。文章说证据看下来，最可能进的就是这个剧本。第三种就是真正的递归自我改进，AI 开始造自己的继任者，进步速度只取决于算力供给，人类大幅退居到监督和验证的角色。这一种 Anthropic 说他们最不确定的是对齐问题怎么收场，模型可能足够对齐、聪明到自己发现新解法，也可能今天那些罕见的失准随着模型一代代自我构建而被放大，直到失控。 ## 它给了哪些证据文章分成「外部公开证据」和「内部数据」两块。外部：模型能力的提升在加速。 AI 能可靠独立完成的任务时长，大约每四个月翻一倍，比之前每七个月翻一倍更快了。具体说，2024 年 3 月 Claude Opus 3 只能搞定人类约四分钟的软件任务，一年后 Sonnet 3.7 能做约一个半小时的，再一年后 Opus 4.6 能做 12 小时的任务。内部：Claude 现在写了 Anthropic 大部分代码。截至 2026 年 5 月，合并进 Anthropic 代码库的代码里，超过 80% 是 Claude 写的。而在 2025 年 2 月 Claude Code 发布前，这个比例还只有个位数。结果就是 2026 年第二季度，一个普通工程师每天合并的代码量是 2024 年的 8 倍。文章把「造 AI」拆成两类活，对照看 Claude 到哪一步了：工作类型 Claude 现在的水平工程（写代码、跑训练）人给目标，Claude 自己想方法，已经不需要人提供具体做法研究（执行实验）在执行定义清楚的实验上，已经能匹敌甚至超过熟练的人类研究品味 / 判断（选哪个问题值得做）差距还很大，这正是今天的 AI 和「能自主设计继任者」之间的鸿沟有个很直观的例子：优化训练代码的速度上，2025 年 5 月 Opus 4 平均能把代码提速约 3 倍，到 2026 年 4 月 Mythos Preview 做到了约 52 倍，而一个熟练的人类研究员要四到八小时才能达到 4 倍。也就是在这一段上，Claude 已经从「很好用」变成「超人」了。 ## AI 跑得这么快，要不要踩刹车，怎么踩 Anthropic 的想法是这样的：第一，慢下来是好事，但我一家慢没用。让 AI 发展慢一点，给大家留出时间应对，这当然好。可问题是，要是只有我 Anthropic 一个人停下来搞安全，那些不管不顾的公司照样往前冲，分分钟就把我超了。最后最强的 AI 落到最不靠谱的人手里，这不更吓人吗。所以我一个人踩刹车，纯属白搭，还帮了倒忙。第二，那就得大家一起停。既然单干没意义，那就所有人一块儿停。它想要的是：几个大国、几家跑在最前面的公司，说好同一套规矩，一起刹车。而且关键是，得能互相检查，确认你是真停了，不是嘴上答应、背后偷偷接着练。第三，可这事太难查了。它打了个比方。以前美苏比核武器，为啥能互相监督？因为导弹发射井那玩意儿藏不住啊，那么大一坨，卫星一拍就露馅了。但训练 AI 完全两码事。机房里一堆芯片闷头跑，外人根本看不出你在干嘛。而且训练用的就是普通芯片、电、数据，满大街都是的东西，你也没法靠「盯着谁买特殊材料」来抓人。结果就是，谁要是表面上答应停、私底下偷偷练，谁就能甩开所有守规矩的人，独吞这个领先。这就是最头疼的地方。所以能看出 Anthropic 的小心思，哈哈。它其实挺纠结：跑最前面的是自己，心里又怕这车开太快，想喊大家都停一停，可又怕没人理，因为你停了别人不停，你就吃亏。自己一家说了不算，最后只能寄希望于政府出来管管。以下是文章全文： ## 当 AI 开始自己构建自己（原文全文）我们在递归自我改进（recursive self-improvement）这条路上走到了哪里，又意味着什么。在 AI 历史上的大多数时候，开发的每一步都由人来推动。但在 Anthropic，我们正把越来越多的 AI 开发工作交给 AI 系统自己来做，这让我们的工作明显加快了。这个趋势一旦走得够远、算力给得够足，最终指向的就是这样一种 AI 系统：它能完全自主地设计并开发出自己的下一代。这就是所谓的递归自我改进。我们还没走到那一步，递归自我改进也并非注定会发生。但它到来的时间，可能比大多数机构准备好的要早。 The Anthropic Institute 结合公开的基准测试和 Anthropic 内部此前从未披露的数据，要说明一件事：AI 已经在加速 AI 系统的开发。举一个例子就够了：今天，Anthropic 的工程师平均每季度交付的代码量，是 2021 到 2025 年间的 8 倍。本文谈到的这些技术趋势意味着，未来几年里 AI 系统的能力会强出一大截。这些趋势的影响极其深远。能够构建自己的 AI，将是技术史上的一件大事——它可能为世界带来巨大的好处，无论是在科学、医疗还是其他领域。但完全的递归自我改进，也可能加大人类失去对 AI 系统控制权的风险。如果系统有能力完全造出自己的下一代，那么我们如何为它们加固安全、如何监控它们、如何塑造它们的行为，每一项都会变得重要得多。 2021–2023 — 造出第一代 Claude 最早那阵子，Anthropic 的工作和任何一家科技公司没什么两样：一群人对着笔记本电脑写代码、写文档。 2023–2025 — 聊天机器人人们开始用早期的聊天机器人来帮忙完成流程中的一部分，比如生成简短的代码片段，再把输出复制到文本编辑器里。 2025–2026 — 编程智能体随着智能体（agent）能力变强，它们能自己写代码、改代码，有时一改就是一整个文件。今天 — 自主智能体现在的智能体能自己运行代码，还能把数小时的活儿派给别的智能体去干。 20XX？ — 闭合回路将来，智能体的能力可能强到足以自己构建和训练模型。真到了那一天，未来版本的 Claude 就有可能由 Claude 自己来持续改进。 ## 来自外部世界的证据 AI 模型进步的速度正在加快。它们能靠自己可靠完成的任务时长，如今大约每四个月翻一番，而早先的趋势是每七个月翻一番。2024 年 3 月，Claude Opus 3 能完成人类大约要花四分钟的软件任务。一年后，Claude Sonnet 3.7 已能搞定耗时约一个半小时的任务。再过一年，Claude Opus 4.6 能应付 12 小时的任务。1 如果这个趋势保持下去，今年熟练的人需要花好几天才能干完的任务，就可能进入它们的能力范围。到 2027 年，AI 系统也许就能完成一个人要做上好几周的任务。同样的模式也出现在编程和研究类的基准测试（benchmark）上。基准测试衡量的是模型在某个领域里的表现，当模型的得分逼近 100% 时，这个测试就被"刷满"了——也就是测试已经失去了区分度。2 SWE-bench 是一项衡量真实世界软件工程能力的标准测试：它丢给模型一个真实的开源代码库和一份真实的 bug 报告，要求模型写出能修好这个问题、还得通过项目自带测试的代码改动。短短两年，模型的成绩就从个位数低位一路涨到把这项测试刷满。 CORE-Bench 检验的是模型能不能复现已有的研究，这是它们能开展原创研究的前提。它给 AI 模型一篇已发表论文背后的代码和数据，要求模型把所有东西重跑一遍，确认自己能复现出论文的结果。AI 系统复现结果的成功率，从 2024 年的大约 20%，到十五个月后把这项测试刷满。负责衡量模型完成长时任务能力的那项基准测试由 METR 运营，他们发现，Claude Mythos Preview 能"至少"连续工作 16 小时，已经"逼近 [METR] 在不设计新任务的情况下所能衡量的上限"。公开基准测试能说明这些系统的能力有多强。但它们没法揭示 AI 系统对加速 AI 开发本身究竟产生了多大影响。要看清这一点，我们需要来自 Anthropic 这类 AI 公司内部的直接证据。 ## 来自 Anthropic 内部的证据造一个前沿模型，大体分两类活儿。一类是工程：写代码、搭起基础设施、盯着模型训练。另一类是研究：决定做哪些实验、读懂跑出来的结果、想清楚下一步该试哪些点子。不管在工程还是研究上，呈现出来的画面是一致的。工程方面，你可以把一个没说清楚的问题丢给 Claude，它自己就能琢磨出怎么解；人负责给目标，但已经不必再给方法。研究方面，只要实验定义得足够清楚，Claude 执行起来已经能追平甚至胜过熟练的人。可一旦轮到需要 Claude 自己拿主意、去挑该追哪个目标——不管是工程还是研究——巨大的差距依然存在。今天的 AI 和未来那个能自主设计出自己下一代的系统之间，差的就是这一段。在 Anthropic，员工资历越深，接到的任务往往越开放、越重要，这很常见。刚来的时候，他们执行别人定好的任务，比如：*"导出按钮坏了，麻烦修一下。"积累了经验之后，别人只给一个目标，方案由他们自己来设计，比如："查一查网络在高负载下为什么会变慢。"到了最资深的层级，他们要决定的是哪些问题压根值不值得做："团队下个季度该造点什么？"*我们可以用 Anthropic 的内部数据，看看 Claude 在应对这几类不同任务上走到了哪一步。 Claude 写了 Anthropic 相当大一部分代码。截至 2026 年 5 月，我们合入 Anthropic 代码库的代码里，超过 80% 出自 Claude 之手。3而在 Claude Code 于 2025 年 2 月以研究预览版亮相之前，这个数字还只有个位数低位。这个转变也体现在每名工程师的产出上。在 Anthropic 头四年里（2021—2024），每名工程师每天合入的代码行数基本没变；到了 2025 年，当 Claude 开始亲自跑代码、而不只是给个建议让工程师复制粘贴时，这个数字开始往上走。2026 年，当模型开始在更长的任务时长里自主干活，曲线的斜率又陡了一截。下面这张图标出了这两个拐点。2026 年第二季度，一名普通工程师每天合入的代码量，是 2024 年的 8 倍。4原因在于，大部分代码是 Claude 写的，工程师负责指挥和审查，而不是自己一行行敲。得提个醒：代码行数是个不完美的衡量标准，它只看数量不看质量。所以 2026 年第二季度每名工程师每天 8 倍的代码行数，几乎可以肯定是高估了真实的生产力提升。但它至少说明在加速。在 Anthropic，我们不会按谁写的代码行数多去奖励谁；团队成员之所以产出更多代码，单纯是因为他们在用 AI 系统来写更多代码。代码行数的增长，和"生产力大幅提升"这种主观感受是对得上的。2026 年 3 月，我们对来自 Anthropic 各研究团队的 130 名员工做了一次调查，对于那些不管有没有 AI 都会去做的项目，受访者的中位数估计是：用上 Mythos Preview 后，他们的产出大约是没有任何 AI 模型时的 4 倍。5我们预计 3 月份真实的提升幅度要略低一些。6但即便如此，我们认为这个总体说法是可信的，也和我们其他的观察一致：相当一部分 Anthropic 技术人员，正在以没有 AI 辅助时数倍的速度完成他们的核心工作。我们还看到一些证据：Anthropic 的人正在用 Claude 去做一些本来根本不会发生的工作，比如搭建探索性的工具，处理那些拖了很久的清理活儿。举个例子，2026 年 4 月，Claude 交付了 800 多个修复，把某一类 API 错误的发生率降到了原来的千分之一。负责盯着 Claude 干这事的工程师估计，换成人来做要花四年；解别人留下的 bug 又慢又磨人，而且人很难一下子把那么多陌生的上下文塞进脑子里。 > 大概一年前，我开始拼命往"Claude 化"上靠。那是一段疯狂的冒险，到现在，我已经差不多 5 个月没自己写过一行代码了。——Anthropic 员工* Claude 写的代码"好"，而且越来越好。所谓"好代码"，有两层意思：一是它能跑通，二是它写得让另一个工程师能看懂、能在它的基础上继续往下做。先看第一层，证据很清楚。过去一年里，Anthropic 的工程师在任务进行到一半时去纠正、改方向、或干脆接手 Claude 的频率，一直在稳步下降——哪怕是最复杂、最开放的任务也是如此。这里说的"开放任务"，指的是那种没有明确规格说明、连工程师自己都不确定答案长什么样的问题。这一点，从 Claude 在不同难度任务上随时间变化的成功率就能看出来，见下图。Claude 写的代码能跑通。怎么看这张图：会话是否成功，由一个 Claude 评判者来判定；如果 Claude Code 智能体（agent）明显完成了用户的任务、过程中无需任何纠正，这次会话就算成功。工作负载的变化会导致成功率出现短期波动。在最开放的那类任务上，Claude 的成功率在 2026 年 5 月达到了 76%，半年内提高了 50 个百分点。举个这个难度档位的例子：一次例行升级，结果让数万个训练任务接连崩溃。一名工程师把 Claude 接进了这场正在发生的事故，给的东西不过是一些文字说明和集群访问权限。Claude 一边处理还在运行的任务，一边一次只改一个环境设置去测试，最终定位到那个触发崩溃的、极其冷僻的单个调试开关，稳定复现了问题，并确认了修复方案。这件事，平常要花两到三天，Claude 用了约两小时就交付了。第二层标准，是写出另一个工程师能看懂、能在上面接着搭的代码。在这一层，人和 AI 之间的差距还在，但正在飞快缩小。Anthropic 内部没有完全的共识，但很多人认为，截至 2025 年底，Claude 写的代码在质量上仍然不如 Anthropic 人类工程师写的，而今天大致打平。我们预计，一年之内它就会更好。这已经改变了 Anthropic 自己审代码的方式。如今，提交到我们代码库的改动，在被合入之前，先要经过一个自动化的 Claude 审查者——它专门找 bug、安全漏洞和其他缺陷。借助这个工具，我们做了一次回溯分析，发现：如果当初我们代码库的每一处改动都先过一遍 Claude 自动审查，那么 claude.ai 过往事故背后约三分之一的 bug，本可以在它们流入生产环境之前就被拦下来。写下那些代码的工程师，是全世界搭这类系统最顶尖的一批人。而 Claude 现在正在抓住他们漏掉的错误。 > 截至 2025 年底，Claude 写的代码比 Anthropic 人类写的略差一些，今天大致打平，我们预计一年之内它会明显更好。给 Claude 一个别人定好的目标，它很擅长跑实验去达成。 Anthropic 每发布一个模型，我们都会跑同一个测试：给 Claude 一段用来训练小型 AI 模型的代码，要求它在保证通过同样的正确性检查的前提下，让这段代码跑得尽可能快。目标和成功的衡量标准是事先定死的，所以 Claude 要做的，就是通过重写代码、运行、计时、再重写，去找到提速的办法。这就是一个微缩版的实验研究循环。2025 年 5 月，Claude Opus 4 相对初始代码平均能做到约 3 倍提速。到 2026 年 4 月，Claude Mythos Preview 已经能做到约 52 倍。作为参照，一名熟练的人类研究员要达到 4 倍，得花四到八小时。7 在研究流程的这一环——在一个边界清晰的实验里优化各个步骤——Claude 在不到一年的时间里，从"非常有用"变成了"超越人类"。 > 今天大致的格局是这样：人类出想法，而模型能比以前快上一个[数量级]去实现、测试和评估这些想法。 Claude 在自己提出实验这件事上，也越来越强了。 2026 年 4 月，Anthropic 发布了首个 Claude 端到端独立跑完一个开放式研究项目的演示。我们把一个 AI 安全领域的开放问题交给了由 Claude 驱动的智能体——大致就是问：弱模型能否可靠地监督强模型？——然后任由它们去解决。这中间要提出假设、检验假设、把发现分享给并行运行的其他智能体、再不断迭代。这个任务有清晰的成绩"下限"和"上限"：下限是那个弱的监督者自己单干能做到多好；上限是强模型在用正确答案训练后能做到多好。两名人类研究员花了约一周，把这中间的差距弥合了约 23%；而那些智能体在累计 800 小时里弥合了 97%，用掉了约 1.8 万美元的算力。这项工作也有一些需要打折扣的地方：结果没能干净利落地迁移到生产规模的模型上，而且问题仍然是人类挑的、评分标准也是人类定的。但在这些边界之内，每一个实验都是智能体自己设计的。人类唯一起到实质作用的角色，就是定方向。 > 整个过程里，Claude 几乎没怎么用到我帮忙，前后也就一到两天。我想，如果换成[一个初级同事]在同样的时间里拿着这样的结果回来找我，我大概会有点小小的佩服。未来已经到了。 Claude 在把研究会话引向研究成果这件事上，也越来越强。我们考察了一批真实的 Claude Code 会话（时间在 2026 年 1 月到 3 月之间），里面 Anthropic 的研究员正和 Claude 一起处理某个开放式的探查问题，比如搞清楚一次训练运行为什么老是崩溃，或者一个模型为什么在某项基准测试上得分很差。每一个案例里，我们都找到了一个研究员走弯路的时刻：他们追了一个方向，把会话带偏了，最后才又拐回正轨。然后，我们只把会话走偏之前的工作展示给不同的 Claude 模型，问它们下一步会怎么做。再由另一个能看到会话最终如何收场的 Claude，去判断到底是 AI 还是人类提出的下一步更好。8 因为我们是刻意挑那些已知人类选择还有改进空间的时刻（n=129），所以这并不是模型判断和人类判断之间的对等比较。这些时刻给我们的，是一组真实而有难度的情境——正确的下一步并不显而易见，而人类当时的选择，恰好可以当作一把有用的标尺，去衡量模型表现随时间的变化。按这个标准来看，我们在 2025 年 11 月最好的模型（Opus 4.5）有 51% 的时候胜过人类的选择；到了 2026 年 4 月（Mythos Preview），这个比例涨到了 64%。研究日复一日的工作，很大程度上就是一连串这种"下一步怎么走"的决策，所以这是一个有意义的衡量指标，能反映模型最终独立跑一项调查的能力。我们把这个结果看作一个早期信号：AI 系统正在越来越擅长做出那些 AI 研究所依赖的判断。怎么看这张图：那条"实际上限"线，衡量的是一个能看到整场会话（包括它最后如何收场）的模型写出的"理想"答案。 > 就目前而言，人类的比较优势仍然在于看到更大的图景，以及跳出眼前任务的边界去思考。 ## Anthropic 的工作未来会是什么样？种种证据表明，在 AI 研发的每一个环节，人的角色都在收窄。一旦人类写的代码和 AI 写的代码质量打平，人类就会彻底不再亲手写代码，转为只做审查。但如果人类审代码的速度跟不上 Claude 生成代码的速度，人工审查就会成为 AI 研发的瓶颈。同样，一旦 Claude 能自己跑实验，问题就转向了"这些实验里哪个值得跑？"。说白了：那些动手的活儿（写代码、跑实验、产出结果）现在几乎不再花掉人的时间，哪怕它依然要消耗算力。目前人类还占优势的领域，是研究品味和判断力——包括判断哪些问题重要、哪些结果可信、什么时候一条路已经走到了死胡同。 > 工作（和生活）原本运转在一种人与人之间小恩小惠的人情互助经济上。"能帮我把这个脚本跑起来吗？"[……]每一次求助都欠下一点小人情，多出一点彼此的牵挂。Claude 更快，不欠任何人情，可这每一次都是一次本可以发生、却落空了的人际协作。 > 在一切都顺的日子里，我忍不住会想，我做什么都没意义，所有事都被自动化了，比我做得更好更快，永远都比我强。可也有那种全盘崩掉的日子，我搞不懂哪里出了错，这才意识到，我已经完全不知道自己到底在干什么了。 ## 万一我们错了呢？针对上面这些证据，一个很自然的反驳是：还握在人类手里的那部分活儿——决定要去攻克哪些问题——才是最要紧的。没有这份判断力，Claude 只是个能干的助手，而不是一个能独立推动 AI 进步的系统。今天的训练方法和架构能不能解锁这种能力，确实说不准。但 AI 的进步很少是靠"灵光一现"实现的。AI 近些年的历史里确实有过几次这样的时刻，比如 Transformer 架构，或者混合专家模型（mixture-of-experts），但能改变范式的想法，往往隔好几年才来一次。在这些时刻之间，大多数进步都是渐进的：我们把某个东西放大规模，看它哪里崩了，修好，再试一次。而这恰恰是 Claude 如今最擅长的那种工作流。爱迪生说，天才是 1% 的灵感加 99% 的汗水。但我们看到的是，汗水正在被越来越多地自动化。事情正变得越来越清楚：推动前沿往前走的东西，很大一部分是可以自动化的；大规模的研究进展，主要取决于工具和资源——它们决定了你能多快跑实验、一次能跑多少个、多快能拿到结果。就算我们假设 Claude 永远练不出好的研究品味，对我们这些证据做一种保守的解读，仍然会推出一种复利式的加速。如果人类把大部分时间都花在那一小部分（个位数比例）属于定方向的工作上，其余的全交给 Claude，那就意味着每一位工程师或研究员，都在驾驭比从前多得多的工作量。我们看到的证据表明，Anthropic 的人既跑得更快，又覆盖了更宽的面。落到实处就是：AI 已经让 Anthropic 比有效 AI 工具出现之前快了很多。更不保守的解读则是：Claude 的研究判断力正在改善——这一证据如今虽然还很窄——但它本身就是一个信号，说明这项能力也在长进。"研究品味"也许只是又一项 AI 能力：AI 系统起初做不好，过一阵子就做好了。我们在其他偏定性的技能上已经见过类似的轨迹，比如 AI 系统能解释一个笑话为什么好笑、能展现心智理论（theory of mind，推测他人想法的能力）、能解开语言谜题。 ## 几种可能的未来接下来会发生什么，取决于两件事：这个趋势会不会延续下去，以及如果它延续下去，我们选择怎么做。我们至少能设想三种未来情景： 1. 趋势停滞，但今天的 AI 能力已被广泛扩散。本文画出了许多条指数增长的轨迹。但这些轨迹最后也许其实是一条条 S 型曲线。我们可能正在逼近曲线的拐弯处——规模带来的回报开始递减，曲线先变直，再趋平。把一个合格研究员和一个杰出研究员区分开来的那份判断力，也许是一种靠堆算力、堆数据这类训练输入根本得不到的能力。如果真是这样，要突破这道瓶颈，就得有一个新想法，比如一种取代当前所有前沿模型都在用的 Transformer 架构的全新架构路径。又或者，制约 AI 进步的硬约束不在模型本身，而在供应链上：推动前沿往前走、并把它扩散出去，所需要的能源和算力可能比现在拥有的更多。真正的瓶颈，也许是芯片制造的速度、电网扩容的速度、或者互连带宽，而不是智能本身。我们也不能排除 AI 生态遭遇某种外部冲击、把一切大幅拖慢的可能，比如算力或电力的供给突然萎缩——无论哪一种，都会拖慢进步，并让各家实验室的前期投入变得更贵。再或者，我们可能根本没料到还有别的什么障碍挡在前面。就算模型能力被冻结在今天这个水平，我们仍然预期世界上会发生重大变化。Project Glasswing（玻璃翼计划）就是一个早期的征兆：上线头几周，Mythos Preview 就在全球最关键的一批系统中找出了一万多个高危和严重级别的软件漏洞——多到网络防御的瓶颈已经从"找出漏洞"转移到了"够快地把漏洞补上"。而我们把今天的模型扩散进更广阔经济体的进程，其实还处在很早的阶段——在那里，一家 100 人的公司将越来越能干出 1000 人公司的活儿，因为每个员工都坐在一座由智能体堆成的金字塔顶上。我们把这种情景列出来是为了完整，但并不认为它很可能发生。每一项我们能测量的能力，包括那些感觉更"软"的能力——比如代码质量、开放式任务上的成功率——到目前为止都沿着同一条曲线走。我们还没看到这条曲线拐弯。在我们考虑的三种未来里，这一种会给政府和社会留下最多的适应时间。我们更担心的是后面两种，它们会推进得更快，留给我们准备的空间也要小得多。 1. AI 实验室持续看到复利式的效率收益。在这种情景里，AI 研发被大幅自动化，但人类继续来定研究方向、判断结果。随着时间推移，那些使用 AI 系统的组织会变得高效得多，于是我们可以预期，这种组织里的每个人都会被乘上一个可观的生产力倍数。100 人的公司能干出 1 万人甚至 10 万人组织的活儿。这会彻底改写知识工作和政府服务，但也可能被用到有害的方向上——从对整个人口的威权式监控，到那种为每一个个体量身定制操纵、并以任何人类团队都望尘莫及的规模运转的影响力行动。Anthropic 这类公司里，人的角色会随之转变。人们会跟 AI 系统结成搭档去放大研究、产出新的洞见，并一起搭建那些用来核查"AI 产出是否可信"所需要的系统。我们在这里铺陈的证据表明，我们很可能正走向这种情景。但是，把一个流程里的某一段加速了，往往只是把瓶颈挪到了别处：整体节奏，会被那些还没提速的环节卡住。在计算机领域，这叫阿姆达尔定律（Amdahl's law），同样的逻辑也适用于组织。Anthropic 已经撞上了阿姆达尔定律的一个典型表现：随着我们开始在组织内部推动更多代码流转，人工代码审查变成了一个新的瓶颈。这种摩擦在工程之外的地方我们也碰到过。Anthropic 的员工借助能力极强的模型，催生出了大量新点子、新计划、新工具、新模拟——多到远远超出我们能去落实的容量。一个组织能多快发现并修掉这些瓶颈，也许本身就是一项会随时间长进的技能，而且它可能会成为任何组织最重要的那项技能。 1. AI 系统自身具备完整的递归自我改进能力，并开始构建它们的后继者。如果能力推进的技术趋势延续下去，并且 AI 系统能发展出那种属于变革性人类智慧的能力，那么 AI 系统设计并打磨自己，就是有可能发生的事。在这个世界里，AI 研发的进步节奏将完全取决于 AI 系统能拿到多少算力（或者发现算法训练、推理上各种提效手段的速度）。人类在研发中扮演的角色会大大缩小，很可能把我们的精力大多挪到对一个不断扩张、由 AI 系统运转的"虚拟实验室"做监督、验证和核查上。我们预期，有能力自动化 AI 研发的系统，其技能会迁移到科学的其余领域，让它们开始去变革其他学科。在这种未来里，对齐问题（alignment problem，让 AI 行为符合人类意图）会怎么被解决——或者解不解得了——是我们最没把握的事。模型可能被证明足够对齐、研究品味也足够好，于是发现并实现一些我们还没触及的新解法。它们也可能足够明智，在没法解决时主动叫停研发。但反过来，今天的模型身上那些罕见的失准现象，也可能在模型构建后继者的过程中层层累积，变得越来越频繁、却越来越无人能懂，直到我们对它们失去控制。也有可能，我们根本造不出、整合不了、也核查不了那些我们用来判断"自己究竟落在哪条趋势线上"所需要的工具。对于这个世界会是什么样，我们没有什么靠谱的直觉，因为我们的经济目前是由人类和人类造的工具驱动的。从本质上说，一个由快速递归自我改进驱动的世界，可能会被那个自我改进的模型所主导——它的能力彻底盖过人类，又在更广阔的经济体里大量铺开。如果人类的劳动不再有竞争力，经济会变成什么样，很难预测。就算模型研发变得彻底自动化、彻底递归，我们也无法预测这对大多数人的日常生活意味着什么。阿姆达尔定律在这里同样适用。递归智能可能让我们在某些领域里很快就实现《Machines of Loving Grace》（慈爱机器，Dario Amodei 的同名文章）中勾勒的许多好处。我们预期，具身智能（也就是机器人技术）可能会很快跟上递归智能，并沿着一条类似的路径走——回报递增，成本递减。更强大的智能也许能帮我们更快地在物理世界里造东西，把救命药的临床试验跑得更有成效，并发展出全新的协调形式。但单单实现了递归改进，并不意味着工业生产怎么进行、社会怎么组织、市场怎么运转就会立刻改变。再多的智能，也学不会一款药在几十年的服用中到底有什么效果，没法让选举来得比宪法规定的更早，也没法在一个周末里把陌生人变成多年老友。对大多数人来说，这种未来在体感上的节奏，仍然会由那些瓶颈来设定，哪怕上游的实验室是以算力的速度在运转。这种碰撞——递归智能把自己造得越来越快，撞上人、关系与治理的世界——也是这个未来里我们无法预测的一部分。 ## 我们该怎么办？如果真能有效放慢这项技术的发展、给我们自己留出更多时间来应对它那些深远的影响，我们认为这大概是件好事。但如果放慢只是让那些最不谨慎的玩家在技术上追了上来，结果反倒可能让所有人都更不安全。没有一个全球协调机制，企业和政府就只能在竞争和地缘政治的压力下，被迫去做那些关乎安全的两难抉择。我们认为，让世界手里握有一个放慢或暂时叫停前沿 AI 开发的选项，是件好事——这样社会结构和对齐研究（让 AI 行为符合人类意图）才有机会跟上技术的脚步。Anthropic Institute 将开展研究——与许多其他机构合作——并采取行动，帮助搭建一套可信的放慢或暂停所必需的系统。这套系统能让前沿 AI 开发者核查：全球其他人是否真的停了或慢了下来，以及某个不良玩家是否可能打着协调放慢的旗号、暗地里偷偷抢跑。如果这样的系统真的存在，我们预计自己也会放慢或暂时暂停——前提是其他处在前沿或逼近前沿的开发者也以一种可核查的方式这么做。一次有分量的放慢或暂停，需要多个资源充足、处在前沿或逼近前沿的实验室——分布在多个国家——同意在同一套条件下停下来。它还需要每一方都能核查其他各方是否真的停了。由于 AI 系统的独特性质，这个军控难题里"可探测性"（一个比可核查性更低的标准）这一环，比其他技术要棘手得多。训练运行比导弹发射井更容易隐藏，它的投入又是通用的，而悄悄违约的诱惑大得惊人——因为在别人暂停时还在继续往前跑的那一方，就能把领先地位收入囊中。一个可信的暂停还得说清楚：什么触发它、什么解除它、由谁来裁定。这些在原则上都未必做不到——这个世界已经为其他复杂技术建起过核查机制（比如《中导条约》（中程导弹力量条约））——可那些机制花了几十年才把基础设施和信任都建起来。我们没有那么长的时间。相比之下，单个实验室单方面暂停可以立刻做到，但成效要小得多：它会改变谁是领跑者，却造不出眼下所缺的那种更广泛的协商过程。接下来几个月，我们会组织一系列对话，让政策制定者、研究者、公民社会和其他 AI 公司一起来回答本文提出的一些问题，尤其是围绕完整的递归自我改进，以及如何为协调与协商创造出更好的选项。我们会把对话的成果公开出来。一起探究这些问题的窗口期就在眼前，而 AI 公司之外的人也应该参与到这场协商中来。本文由 Marina Favaro 和 Jack Clark 共同撰写，Santi Ruiz 提供编辑支持。Shan Carter、Romello Goodman 和 Nikki Makagiansar 根据 Brian Calvert 与 Jun Shern Chan 收集的数据制作了图表。Daniel Freeman、Jim Baker、Max Young、Sarah Pollack、Francesco Mosconi、Holden Karnofsky、Andy Jones、Kevin Troy、Anton Korinek、Meg Tong、Andrew Ho、Dan Altman、Drake Thomas、Jack Shen、Sasha de Marigny 和 Avital Balwit 提供了反馈意见。 ## 脚注 1. METR 的关键指标，衡量的是 AI 系统在一组任务上能保持 50% 可靠度的任务时长；不过把可靠度提到 80%，趋势线看起来也一样。 1. 尤其是当基准测试转向更开放的形式、更难的任务（比如奥林匹克级别的数学）时，基准测试常常在不到 100% 的地方就刷满，原因是题目和答案集里有错——比如表述含糊的题目，以及根本无解的题。 1. Anthropic 的高层曾公开估计，我们的代码有 90% 或更多是 Claude 写的，包括各种脚本和实验性代码。我们这里给出的 80% 以上这个数字，衡量的是合入生产环境的代码行数里可归功于 Claude 的占比。这个测算在两方面更保守：一是我们的归因流程本身有缺口；二是没有归到 Claude 名下的那些代码行里，还包含自动生成的代码和其他同样不是人手写的产物。 1. 这股代码产量的激增，正在挤压所有人共享的基础设施。GitHub——全世界大多数软件都建在它之上——整个 2025 年录得约 10 亿次代码提交；到 2026 年年中，每周就有 2.75 亿次，照这个势头全年约 140 亿次。该公司的首席运营官说，光是为了跟上节奏，他们就在"拼了命地"扩容。 1. 这项调查方法的更多细节，在 Claude Opus 4.7 System Card 的第 2.3.5 节有讨论。 1. 许多受访者可能并没有仔细想过怎么处理问题定义里的各种偏差或微妙之处，而 METR 近期的研究表明，开发者对 AI 带来的生产力提升的估计可能被高估。 1. 提速能有多大，很大程度上取决于起始代码本身还留有多少改进空间，所以这个数字不能被当成真实世界里的训练提速。因此这里要锚定的不是那个绝对倍数。更有参考价值的，是这套实验设置所能做到的同条件对比——既包括跨模型的对比（过去一年里从 ~3 倍到 ~52 倍），也包括跟一位熟练的人类的对比（在同一任务上，四到八小时内约 4 倍）。 1. 为了核查评判偏差，我们在另一组 127 个时刻上跑了同样的测试——这组里人类接下来要走的那一步本身就已经很强（而原来那组里，人类的方向还有改进余地）。在这组里，模型给出的建议被判定更优的比例只有约 20%。 * 本文通篇引用的 Anthropic 员工话语，均来自内部讨论，并已获许可使用。它们反映的是个人截至 2026 年 5 月的看法，而非公司的官方立场。

译Anthropic发文称AI正加速自我改进，可能比预期更早实现递归自我改进——AI自主设计下一代AI。外部证据显示，AI可靠完成的任务时长翻倍周期从7个月缩至4个月，SWE-bench、CORE-Bench已被刷满。内部数据：Anthropic代码库超80%由Claude编写，2026年Q2工程师人均代码合并量为2024年的8倍，训练代码优化速度从3倍（Opus 4）升至52倍（Mythos Preview），超越人类研究员。Anthropic划出三种未来：S曲线瓶颈、人类主导复利效率提升、或完全自主递归改进，并担忧对齐问题可能失控，呼吁国际协调监管。

查看原推 ↗

AYi@AYi_AInotes · 7天前63

属于是AI实用冷门技巧了哈哈，一般用的人不多，但需要的时候会让你不由自主的喊出卧槽真香，当你打不开某个网站时，可以在网址前面加上 https://r.jina.ai/，就能让 Claude或者其他 AI模型帮你读到内容，这是什么原理呢？ http://r.jina.ai 是 Jina AI 提供的一个免费服务，叫 Reader，它的工作方式很简单： 1. 你把任意网址前面加上 https://r.jina.ai/ 2. 它的服务器会去抓取那个网页 3. 把网页内容清洗成干净的 Markdown 文本（去掉广告、导航、乱七八糟的代码） 4. 返回给你为什么能突破限制？ • 请求是从 Jina 的服务器（国外）发出的，而不是你的 IP。 • 所以如果网站对你所在地区做了简单限制（比如某些 OpenAI 文档、国外技术站），它经常能绕过去。 • 同时把网页变成纯文本，特别适合喂给 AI（省 token、效果好）。那用起来有啥坑吗？优点： • 免费、简单、无需注册 • 内容干净，适合直接复制给 AI • 对公开的技术文档、博客、GitHub 页面效果很好局限性（很多人回复都提到了）： • 过不了强力 Cloudflare 验证（五秒盾、机器人验证） • 登录墙、付费墙基本无效 • 严重依赖 JavaScript 的现代网站，效果会打折 • 它本质是“代理抓取 + 转文本”，不是万能破解器

译Jina AI 提供免费 Reader 服务，在网址前加上 https://r.jina.ai/ 即可让 Claude 等 AI 模型抓取并读取被限制的网页。原理是请求从 Jina 国外服务器发出，绕过 IP 限制，并将网页清洗为干净的 Markdown 文本（去除广告、导航、代码），省 token 效果好。局限性：无法绕过强力 Cloudflare 验证、登录墙/付费墙，对重度依赖 JavaScript 的现代网站效果打折。

查看原推 ↗

AYi@AYi_AInotes · 7天前66

全网爆火的《丧尸清道夫》作者刘梓渝公开了自己的视频创作思路，内容非常干，值得所有AI短视频创作者逐帧学习！先说结论，跟抽卡运气没太大关系，核心是把自己的导演思维、镜头语言和后期剪辑，完整嵌进了AI工作流。具体视频内容和我做的总结：⬇️

译《丧尸清道夫》作者刘梓渝公开爆火视频创作思路，核心并非依赖抽卡运气，而是将导演思维、镜头语言和后期剪辑完整嵌入AI工作流。该方法论值得AI短视频创作者逐帧学习。

查看原推 ↗

Chubby♨️@kimmonismus · 7天前53

xAI/SpaceX is increasingly becoming an AI infrastructure player, potentially one of the most important „neo-hyperscalers” for frontier AI compute. Grok is good, but its user base remains comparatively small. In that sense, repurposing Colossus to rent out compute capacity is a smart move; margins in this sector are a solid 30% plus.

译xAI/SpaceX 正逐渐成为一家 AI 基础设施供应商，可能成为前沿 AI 计算最重要的“新超大规模商”之一。 Grok 不错，但它的用户群仍然相对较小。从这个意义上说，将 Colossus 重新用于出租算力是一个明智之举；该领域的利润率高达 30% 以上。

查看原推 ↗

AYi@AYi_AInotes · 7天前53

分享一个 GitHub 5 万星的开源AI剪辑神器，本地处理、永久免费、不要水印、没有会员墙。它叫 OpenCut，想干掉剪映最让人不爽的那件事—— 你做的视频，再也不用先传到别人的服务器上了。现在就能用，但作为一个免费开源产品，想完全媲美年费700多块的剪映肯定不太可能，先说说OpenCut 现在的状态，属于 Early Beta：打开网页就能剪，导入视频、拉时间线、切一刀、修个头尾，完全免费、没水印、不要会员。但导出、特效、转场这些功能还在路上，只追求今天就能高效出片？现阶段剪映还是更强，这话我得说在前面。那么他的优势是什么？剪映是云端处理，你的素材要先上传， OpenCut 是本地优先，视频压根不离开你的机器。一个把你的内容当数据，一个把你的内容当你的，这一条差别，剪辑的时候你感觉不到，等哪天平台改规则、加水印、涨会员价的时候，你就全懂了。 OpenCut没把自己当成又一个剪映，它的路线图里写着： Rust 重写核心、Web + 桌面 + 移动统一、插件系统、Editor API，还有 MCP Server—— MCP Server 是让 AI Agent 直接调工具的协议，也就是说，以后你的 AI 能直接调 OpenCut 来替你剪，它想做的也不是一个剪辑软件，而是一个能被你自己的工作流调用的、可编程的视频底座。所以把视频编辑四个字去掉，这其实是所有工具正在发生的同一件事—— 过去的工具是一个封闭的盒子，你只能按它给你的按钮，未来的工具是一个开放的接口，你能把它焊进自己的系统，让 AI 替你按。剪映卖的是一次出片的效率， OpenCut 赌的是你愿不愿意为"这东西永远是我的、还能被我编程"多等几年。

译OpenCut 是一个 GitHub 5 万星的开源 AI 剪辑工具，主打本地优先，视频无需上传服务器，永久免费、无水印、无会员墙。目前处于 Early Beta 阶段，网页版支持基础剪辑（导入视频、时间线、切割），但导出、特效、转场等功能仍在开发。路线图包括 Rust 重写核心、Web+桌面+移动统一、插件系统、Editor API 及 MCP Server（让 AI Agent 直接调用工具），目标是成为可编程的视频底座，而非对标剪映的封闭工具。

查看原推 ↗