Today, my Uber driver told me he used ChatGPT but is now moving to Grok for his startup, especially for Imagine. I educated him about Agent Mode and how it can help create multiple creatives in one go for his startup. The shift is happening. People are moving to Grok.
译今天,我的Uber司机告诉我他之前用ChatGPT,但现在为了他的初创公司转用Grok,尤其是Imagine功能。 我跟他说了Agent Mode,以及它如何能一次性为他的初创公司创建多个创意。 转变正在发生。 人们正在转向Grok。
Think of yourself as an LLM. Every social interaction, every meeting, burns your tokens. Unless someone is a paid subscriber to your attention, you are under no obligation to answer low-quality prompts.
译把自己当作一个大语言模型。 每个社交互动、每个会议都在消耗你的 token。 除非有人付费订阅你的注意力,否则你没有义务回答低质量的提示词。
Also, a lot depends on Chinese labs continuing to ship open weights models. If they stop, the frontier falls further and further behind to those who want to use local/fine-tuned models. I think this is possible because open weights may not be a good business model as costs rise.
译此外,很大程度取决于中国实验室继续发布开放权重模型。如果他们停止,前沿将越来越落后于那些想要使用本地/微调模型的人。 我认为这是可能的,因为随着成本上升,开放权重可能不是好的商业模式。
我想明白了一件事,AI 下一波最大的机会在哪里,孙正义基本上给AI的下一个十年定调了。 孙正义刚在巴黎说:下一个万亿美元的机会,是 Physical AI 和机器人,不是聊天,也不是写代码,更不是做视频,关键是让 AI 有了身体,站起来、走出去、动手干活。 现在的人形机器人市场大概 20-30 亿美元,机构预测 2035 年到 2000 亿,乐观的说 10 年内破万亿。 这个数字大家可能没感觉,换个说法:我们现在用的手机,从少数人买得起到人手一台,走了大概十年。 机器人也正在走同一条成本曲线,有AI的加持而且可能更快——中国已经把单台成本压到了 5 万美元。 那么这意味着什么?意味着 Physical AI 已经不是未来的事了,是现在已经开始了但你还没注意到。 但我最想说的其实不是投资,还有一个更扎心的判断就是, 软件 AI 的红利窗口正在从爆发走向成熟,如果我们现在的全部注意力还在 prompt 技巧、纯软件 Agent 层等,那我们很可能会像 2010 年代只做移动 APP 的人一样——手上功夫很熟,但下一波浪潮跟你基本没啥关系了。 倒不是说软件 AI 不重要,我想表达的是下一代的AI应该是懂物理世界的 AI,一个 LLM 写不出拿起杯子的力反馈,一个 Agent 不知道搬箱子时拐弯要先减速。 这些物理常识才是 AI 最难啃的骨头——也是最早啃下这块骨头的人能建立的优势。 所以我自己现在的判断很简单:把 AI 分成三层理解。 第一层,软件智能——你现在每天用的,聊天、写代码、生图。 第二层,具身智能——AI 有身体,能感知、决策、行动。 第三层,超级智能——太远,先不想。 绝大多数人还只在第一层,我们现在要做的就是不要焦虑机器人会不会取代我,咱先把第二层装进自己的认知系统里。 具体到每周:花一两个小时,关注一两个具身智能项目的真实落地进展——不是 demo 视频,要看量产时间表、成本曲线、实际部署场景等,把它当成一个必追的频道来追。 因为一个很残酷的规律是:每一次底层技术换代,最先被淘汰的从来不是不懂的人,而是那些以为自己懂、但一直没更新的人。 AI 肯定不再只在屏幕里存在,它一定会走出来融进我们的生活,那么我们的认知系统也得跟着进化升级才行。
译孙正义6月1日在巴黎CNBC专访中指出,下一个万亿美元机会是Physical AI和机器人,AI革命规模可能是互联网泡沫的50倍。当前人形机器人市场约20-30亿美元,机构预测2035年达2000亿美元,乐观估计10年内破万亿。中国已将单台成本压至5万美元。作者将AI分三层:软件智能、具身智能、超级智能,认为纯软件Agent红利窗口正在成熟,建议关注具身智能项目的量产时间表、成本曲线和实际部署场景。
在 AI Vibe Coding 开发过程中,文档基本上等于 Harness,也就是说文档体系就是 Harness,其他都是不重要的,或者没那么重要
译开发者歸藏分享在Codepilot大型代码库中实践Vibe Coding的心得,强调文档体系相当于AI开发的Harness(测试脚手架)。Claude Code Plan模式废弃后,计划文档占比大幅上升。Codex分析显示,Codepilot现有26万行代码和5.6万行文档,文档占比约21%。作者称从未手动修改过一行代码(已看不懂代码),但能修复所有已知bug并实现所有功能。此次重构原计划两周,实际耗时超过一个月零三周,称这是其Vibe Coding实践的上限。
http://x.com/i/article/2062724390589186048 # 打造0-1爆款文章工作流:我用这套方法10篇爆了8篇 !一次性教会你! 兄弟们都知道,我做 AI 博主已经一年多时间了。日常其实最头疼的并不是“写”本身,更多的是从选题、查资料到写文章、配图、排版这一整个流程。 一个人干完这些,写好一篇文章起码要半天到一天的时间打底。 现在随着 AI 时代各种工具的出现,其实大大缩小了我们创作的过程。前几天正好看到国内 Coze 3.0 发布,主要介绍了它支持三端协同创作爆款文章的功能。 我就在想,如果我们日常在坐车、等车或者外面不方便用电脑的时候,有一些选题灵感,是不是可以用它来帮我处理一些事情? 于是,我就想尝试用它来打造一套流程,看看一个非专业出身的普通人,是不是也能完整地把这套流程跑出来。最近也有朋友一直推荐,今天我就想用 Coze 3.0 给大家做一个示范,分享一下让普通人(非专业自媒体人)也可以从 0 到 1 打造爆款文章的心法、心得以及实操记录。 除了写文章的自媒体爆款 Agent 之外,我还用它同样打造了复刻视频的 Agent。 如果大家感兴趣的话,可以在评论区打视频复刻,后续我可以把它的制作过程分享出来给大家。 如果你没有耐心看完文章的话,这里给大家提供一个我快速制作的演示视频,可以让你快速了解整个制作过程。 ## 开始之前:我在 Coze 里搭了一个"专业自媒体创作专家" 这篇文章不是我一个人写的,是我在 Coze 里"专业自媒体创作专家"写出来的。 怎么搭的? 第一步,打开Coze 3.0 点击中间栏的「+新建」,我们新建一个Agent。 紧接着,我们直接选择「新建Agent」-「选择职业模板」,点击「+创建」。 这里插一嘴,很多人说Coze 3.0 不是有多人Agent协作功能吗?我为什么还要使用这个呢?这是个好问题。 但对于普通人,对于工具还不熟悉,并且多个Agent能力不同,以及调用前期你需要学习和理解上手的过程。 所以,这里我更推荐大家直接使用模板中已经有打造好的工具,直接复用和套用比直接上手多人 Agent 更适合新手。 所以我建议新手小白直接使用“职业模板”来进行对应的操作。 这里直接选择官方自带创建好的“选择职业模板”中的"自媒体运营达人"。然后,直接点击下一步即可创建。 这里内置了多想技能包括、小红书文案创作、公众号10w+文章、多平台风格改写、全网热榜等,可以说是麻雀虽小,五脏俱全啊! 我们直接给Agent起名,根据喜欢的名字填入即可 这里要注意的是,这里创建的 Agent 默认部署在云端。 我们前面提到的“三端协同”,意思就是你不仅可以在手机和电脑上操作,在 App 中也可以操作。 无论何时何地,使用起来都非常方便,可以 24/7 全天候帮你干活。 于是我们这个 Agent 已经创建完毕了。 创建完毕之后,这个 Agent 拥有的技能非常多,涵盖了几十种技能并包含多个平台。这就相当于你已经拥有了一个非常厉害的人,一个在整个自媒体运营领域都很专业的人在帮你干活。 这是创建完的界面: - 有调研 SKILLS:装了自媒体技能包,能搜热点、查爆款数据 - 有内容 SKILLS:装了公众号文案技能包,懂爆款标题和排版 - 有审核 SKILLS:装了违禁词查询技能包,写完了自动过审等等。。 我们来看看这个实操案例吧~ ## 第一步:定选题,先搜一手信息 我做了什么: 我对 Coze 说:"我想写一篇关于 Coze 3.0 的文章,核心讲三端协同和本地 Agent 接入,目标读者是自媒体运营人和 AI 工具使用者。" 然后让它帮我搜最新的 Coze 3.0 资讯——我要求只搜最近 7 天的,因为我不要过时的信息。 它做了什么: 它自动用 2 组不同角度的关键词搜索:一组搜中文资讯(IT之家、智东西、品玩等),一组搜英文源确认细节。搜完之后它给我梳理了一张表: 它甚至帮我盘点了竞品文章都在写什么角度,然后指出一个空白机会:"还没人从'普通人如何真正用上'的角度写。" 这一步的价值: 很多人写文章上来就动笔,写完发现别人已经写过类似角度了。先搜一手信息+盘点竞品,能帮你找到别人没写到的那条缝。 ## 第二步:查爆款数据,看同行在写什么? 我做了什么: 我对调研 Agent 说:"帮我查最近公众号上关于 AI 协作、Agent、智能体相关的爆款文章。" 它做了什么: 它直接调用了公众号爆款SKILLS,拉回来 10 篇近期高阅读量的相关文章,然后自动帮我从 6 个维度做了分析: 1. 标题规律:数字型标题最多,疑问句其次,平均字数 18-22 1. 开头逻辑:痛点共鸣开场最有效,占比 60% 以上 1. 内容结构:分点论述最常见,1500-2000 字是舒适区 1. 语言风格:口语化、短句为主,每 300 字左右一个金句 1. 互动引导:结尾抛问题引导评论最有效 1. 高频关键词:AI 写作、Agent、效率工具、一人公司 最后,直接将我们需要的内容整理成了两个文件,并存储在了它的工作区间。 大家都知道,Agent 工作时如果只是把信息放在上下文中,我们去查阅其实并没那么方便。所以在 Coze 3.0 中,它提供了“工作区间”和“记忆模块”: 1. 工作区间 1. 为 Agent 提供了专门的文件存储功能。你直接点击对应的文章,就可以看到具体的内容。 1. 记忆模块 1. 可以让 Agent 更好地理解并记住我们的上下文、用户习惯,以及对应的知识内容,不会丢失关键信息。 这一步的价值: 数据不会骗人。爆款文章的规律是可以提炼的——比如我知道了这个赛道的标题 20 字左右最合适,开头用痛点场景比用概念解释有效得多。这些不是我感觉出来的,是数据告诉我的。 ## 第三步:找差异化角度,提炼反共识观点 我做了什么: 我对内容 Agent 说:"基于爆款数据和我这篇文章的主题,帮我找到和别人不一样的切入角度。" 它做了什么: 它先分析了已有的竞品文章角度,然后结合 Coze 3.0 的差异化优势,给我提了 3 个反常识判断: > 共识:三端协同的价值是"方便" 反共识:三端协同的价值是"改变了 AI 的工作节奏"——你不用专门坐下来打开电脑,灵感来的时候随时推进 共识:多 Agent 的核心是"分工" 反共识:多 Agent 的核心是"每个 Agent 只做一件事做到极致",70 分 × 4 不如 90 分 × 4 共识:多 Agent 协作是最大亮点 反共识:本地 Agent 接入才是杀手锏——AI 终于能碰到你电脑里的文件了 这一步的价值: 爆款文章和普通文章的区别,往往就是一句话的角度。别人都在写"三端协同很方便",我写"三端协同改变了工作节奏",读者看到标题的第一反应就不一样。 ## 第四步:生成标题,用数据说话 我做了什么: 我对内容 Agent 说:"基于上面的爆款规律和反共识角度,帮我生成 10 个标题。" 它做了什么: 它调用了公众号标题生成SKILLS,基于爆款数据生成了 10 个标题,每个都附了匹配指数和推荐理由。我挑了得分最高的那个: > "别再给 AI 当搬运工了!Coze 3.0 让你的 AI 团队跟着你走" (匹配指数 9.8) 它给的理由是:"痛点共鸣型标题,'搬运工'精准戳中 AI 用户最高频痛点;'让你的 AI 团队跟着你走'给出了解决方案,利益点明确;字数 22,在舒适区间。" 这一步的价值: 标题不是拍脑袋想出来的。数据告诉我什么样的标题结构点击率高,我只需要在框架里填入我这篇文章的独特角度。 ## 第五步:正文撰写,场景驱动 + 实操案例 我做了什么 我给内容 Agent 发了很具体的指令: > "写一篇 1500-2000 字的公众号文章,围绕三端协同、本地 Agent 接入、多 Agent 协作三个模块。要求:每个模块从一个真实工作场景切入,至少一个反常识判断,必须有实操案例,结尾给读者可执行的行动建议。" 它做了什么: 它产出的文章严格按我的要求走: - 开头:用"一个任务复制粘贴 4 次"的真实场景戳痛点,直接拉读者入戏 - 模块一(三端协同) :还原"地铁上推进项目"的场景 → 反共识观点"改变工作节奏不是方便" → 实操演示 - 模块二(本地接入) :还原"三个工具来回切换"的场景 → 反共识观点"本地接入才是杀手锏" → 接入步骤 - 模块三(多 Agent) :还原"搭 4 人 AI 团队做新品发布全案"的场景 → 反共识观点"极致而非分工" → 团队配置 - 结尾:三段式行动建议(从 1 个项目、3 个 Agent 开始),降低读者心理门槛 这一步的价值: 好的指令产出好的内容。我给的指令里没有"写一篇好文章"这种模糊的话,而是具体到结构、风格、元素、字数。你给 AI 的指令越具体,它产出的内容越精准。 ## 第六步:配图,让文字有画面感 我做了什么: 我对 Coze 说:"帮我给这篇文章配图,风格要暖色调(橙黄米色系),每张图从正文场景中提取画面,图上嵌入对应模块的关键金句。" 它做了什么: 它自动生成了 5 张图: 1. 封面图(2.35:1 横版):3D 卡通风格,体现"三端协同"主题 1. 场景图 1(开头痛点):一个人在多窗口之间复制粘贴的疲惫感 1. 场景图 2(三端协同):手机+电脑+平板三设备同步推进 1. 场景图 3(本地接入):AI 触达电脑本地文件的视觉表达 1. 场景图 4(多 Agent):一个人带领多个 AI 协作的团队画面 每张图上都嵌入了正文中的关键金句,比如"AI 的瓶颈不是不够聪明,而是它够不着你的工作现场"。 这一步的价值: 配图不是随便找几张好看图片。好的配图要从正文场景中提取,让读者看到图就想起文中的某个观点。暖色调是我公众号的固定风格(橙黄米色系),保持视觉一致性。 ## 第七步:排版输出,一键生成可预览的 HTML 我做了什么: 我对 Coze 说:"帮我把文章和配图排成公众号风格的 HTML 页面,适配手机阅读。这里你可以根据你自己的喜好来选择都可以" 它做了什么: 它自动生成了一个 HTML 文件,包含: - 公众号适配的 CSS 样式(暖白背景、橙色装饰线、圆角图片、手机端自适应) - 所有配图自动转为公开 URL 嵌入 - 标题、小标题、正文、引用块、配图完整的排版 我直接在浏览器里打开就能预览最终效果,确认没问题就可以复制到公众号后台发布。 一开始给我的配图没有在HTML中显示,我就让其修改一下也是一次完成任务。 这一步的价值: 写完了还要排版,排版完了还要确认手机端效果,这些琐碎的事以前至少花 15 分钟。现在一句话就搞定了。 ## 全流程回顾:我到底做了什么 表格 还在加载中,请等待加载完成后再尝试复制 暂时无法在飞书文档外展示此内容 总计:约 30 分钟。 以前我一个人干全流程,少说 4-5 小时。现在 30 分钟出一篇带配图、带排版的完整文章。 但重点不是"快了",而是我全程只做了"定方向"和"做决策"两件事。搜索、分析、提炼、写作、配图、排版,全是 AI 团队在干。 总的来说,我觉得 Coze 3.0 这一版的功能对于普通人来说,上手已经很快很方便了。 之所以这么说,是因为很多人在做自媒体账号时,最缺少的其实是真正的行动力。而行动力往往取决于你对内容的选题、整个创作思路的构成是否有一个清晰的定位。如果你的工具或流程是碎片化的,不是一个完整的闭环,创作过程就会非常痛苦。 所以我觉得普通人做自媒体的第一步,是先把这些最简单、最快速的功能和工具用熟练。之后我们再去迭代下一步,比如组建一个由多个 Agent 构成的团队,从写作、选题到剪辑、核查内容等方面去做进一步优化。 以上就是我分享的 Coze 3.0 教程操作步骤。如果你觉得不错,记得一键三连。 另外,未来我可能还会演示一下 Coze 多人 Agent 以及与本地 Agent 协作,利用它们来创作 Coding 的教程,记得关注哦。 作者:Berryxia.AI
译博主 Berry Xia 利用 Coze 3.0 的“自媒体运营达人”职业模板,演示从0到1创作爆款文章。流程包括:Agent 搜索近7天资讯并盘点竞品角度;调用爆款数据技能分析10篇高阅读量文章的标题、开头、结构规律;基于反共识观点生成3个差异化角度;依据数据生成10个标题并选择匹配指数9.8的“别再给 AI 当搬运工了!”;按场景驱动撰写1500-2000字正文并给出行动建议;最后用 Coze 生成暖色调配图。Coze 3.0 支持三端协同(手机/电脑/App)、工作区间文件存储和记忆模块,降低普通人创作门槛。
兄弟们,来点轻松上手的东西给大家啊! 今天分享一个我自己使用的工作流,非常适合刚刚入门做自媒体的兄弟们! 非常适合普通人从0到1 如何打造自媒体爆款文章,一次性教会你。 从文章的选题、素材搜集、爆款标题、撰写、迭代一个Agent全部搞定,有手就会。 非常推荐想要做自媒体还没有动手的朋友们,不需要花钱学免费就可以拿走了~~ (文章有视频可以快速学习和查看)!
译Berry Xia分享一个面向自媒体新手的完整工作流,覆盖选题、素材搜集、爆款标题撰写、内容迭代等环节,全部由AI Agent自动完成。无需付费,免费获取,附视频教程可快速学习。适合尚未动手做自媒体、想从0到1打造爆款文章的普通人。
the amount of alpha you can have right now creating good public AI benchmarks is wild, such a big opportunity
译现在创建好的公共AI基准所能获得的alpha量是疯狂的,这是一个巨大的机会。
At least until (if?) rapid improvement stops, it seems less likely someone is going to catch the Big Three AI Labs. Microsoft and Meta released their models, which were fine, but not frontier. SpaceX also hasn't regained its position. Chinese models are improving, but still lag.
译至少在快速进步停止之前(如果会停止的话),似乎不太可能有人能追上三大AI实验室。 微软和Meta发布了自己的模型,这些模型还不错,但并非前沿。SpaceX也未能重新夺回其地位。中国模型正在改进,但仍然落后。
You can use codex within your own programs using the Python SDK. It's awesome. Built by @ah20im and friends ``` pip install openai-codex ``` https://developers.openai.com/codex/sdk#python-library
译你可以在自己的程序中使用Codex Python SDK。这太棒了。由@ah20im和朋友构建 ``` pip install openai-codex ``` https://developers.openai.com/codex/sdk#python-library
Can I personally join the NVIDIA Nemotron Coalition
译我可以亲自加入NVIDIA Nemotron联盟吗?
事实上,Codepilot 这种大型代码库 Vibe Coding 非常依赖于文档。 自从 Claude Code 的 Plan 模式废掉以后,我连计划写的都是计划文档,整个文档体系的复杂度和占代码的比例都在快速大幅上升。 所以,文档体系的管理,以及 AI 和人协作下的文档梳理,在整个大型代码库中其实是非常重要的。 我让 Codex 分析了一下 CodePilot 目前的文档体系,以及它跟代码之间的关系。 目前 CodePilot 里面有 26 万行代码和 5.6 万行文档,文档占代码的比例大约是 21%。 说一个事实: 从 CodePilot 的第一个版本到现在,我没有动过一行代码,因为现在确实看不懂了。 但目前基本上所有已知的 bug 我都能修复,所有想要实现的能力也都能实现。 这是当前 Vibe Coding 我自己的一个实践,也是我自己的一个上限。整个重构本来预期是两周,但实际持续了超过一个月零三周。
译@op7418 发布 CodePilot v0.55.0 正式版,新增多执行引擎(Claude Code / 自建 Native / OpenAI Codex)、上下文用量可视化及 Codex 账号原生能力。作者分享实践:当前代码库有 26 万行代码与 5.6 万行文档(占比 21%),文档体系对 bug 修复和功能实现至关重要。作者称从未手写一行代码,但能修复所有已知 bug 并实现所有想要能力。原本预期两周的重构持续超过一个月零三周。
http://x.com/i/article/2062721652467941376 # Anthropic万字长文:当AI开始构建自己,人类该何去何从? 今天这篇内容可能会比较特殊,是一篇Anthropic凌晨发的全新文章。 名字叫《When AI builds itself》。 翻译过来叫,《当人工智能开始自我构建》。 我大概凌晨1点多读的,读完以后,我直接就分享到了所有的群里,因为感觉确实学到了很多东西。 非常非常有价值。 然后开始写文章,也想给大家分享一下我自己的感悟。 但是写着写着,我觉得我怎么写都写不好,怎么都无法表达出原文的浩瀚。 所以,写着写着,算了。 这种内容,还是值得放原文。 所以,我把那篇文章,进行了全文的翻译和润色,分享给大家,也希望对大家有用,一定要看到最后,它值得你花20分钟的时间。 以下是《When AI builds itself》原文翻译: 《当 AI 开始构建自己》 在 AI 的大部分历史中,开发周期的每一步都由人类驱动。但在 Anthropic,我们正在将越来越多的 AI 开发工作交给 AI 系统自身来完成,而这正在加速我们的工作。 如果把这个趋势推到极致,并给予充足的算力,它所指向的终点,是一个能够完全自主地设计和开发自己下一代的 AI 系统。这就是所谓的递归自我改进。我们还没有走到那一步,递归自我改进也并非必然发生。但它到来的速度,可能远超大多数机构的预期和准备。 借助公开基准测试以及此前从未对外披露的 Anthropic 内部数据,Anthropic 研究院正在展示一个事实:AI 已经在加速 AI 系统自身的开发。仅举一例:如今 Anthropic 的工程师平均每季度交付的代码量,是 2021 年至 2025 年间的 8 倍。 本文所讨论的技术趋势表明,AI 系统在未来几年将变得更加强大。这些趋势蕴含着巨大的影响。能自己构建自己的 AI,将是技术史上的重大里程碑,它可能在科学、医疗等领域为世界带来巨大的福祉。但完全的递归自我改进也可能加剧人类失去对 AI 系统控制的风险。如果系统有能力完全自主地构建自己的继任者,那么我们对它们的安全防护、监控和行为塑造就变得更加重要。 来自外部世界的证据 AI 模型改进的速度正在加快,模型能够独立可靠完成的任务时长,大约每四个月翻一番,比此前每七个月翻一番的趋势明显加速。 2024 年 3 月,Claude Opus 3 能完成人类大约需要四分钟的软件任务。一年后,Claude Sonnet 3.7 能处理大约一个半小时的任务。再过一年,Claude Opus 4.6 已经能胜任 12 小时的任务。如果这个趋势持续下去,需要一个熟练工程师花几天才能完成的任务,今年内就可能落入 AI 的能力范围。到 2027 年,AI 系统可能有能力处理需要一个人花几周完成的任务。 同样的模式也出现在编程和研究基准测试中。基准测试衡量模型在特定领域的表现,当模型的得分接近 100%,我们就说基准被"饱和"了。 SWE-bench 是一个标准的真实世界软件工程测试:它给模型一个真实的开源代码库和一份真实的 Bug 报告,要求模型写出修复代码,并通过该项目自己的测试。模型的得分从最初的个位数百分比到饱和整个基准,只用了两年。 CORE-Bench 测试的是模型能否复现已有研究,这是开展原创研究的前提条件。它将一篇已发表论文的代码和数据交给 AI 模型,要求它重新运行所有内容并确认能否复现论文的结果。AI 系统的成功率从 2024 年的约 20% 上升到 15 个月后饱和整个基准。运营长时任务基准测试的 METR 机构发现,Claude Mythos Preview 能够"至少"连续工作 16 小时,并且处于"METR 在不增加新任务的情况下所能测量的上限"。 公开基准测试能揭示很多关于这些系统能力的信息。但它们无法展示 AI 系统在加速 AI 开发本身方面产生了多大影响。要看到这一点,我们需要来自 Anthropic 这样的 AI 公司内部的直接证据。 来自 Anthropic 内部的证据 构建一个前沿模型需要两大类工作。 一类是工程:编写代码、搭建基础设施、监督模型训练。另一类是研究:决定运行哪些实验、解读实验结果、想清楚下一步该尝试什么方向。 在工程和研究这两个方面,我们看到的图景是一致的。在工程领域,Claude 可以接手一个描述模糊的问题并自行找到解决方案;人类提供目标,但不再需要提供方法。在研究领域,对于一个定义清晰的实验,Claude 已经能够匹配甚至超越熟练人类的执行水平。然而,在运用判断力来选择目标这件事上,无论是工程还是研究,Claude 与人类之间仍然存在显著差距。这正是今天的 AI 与一个能自主设计自己继任者的未来系统之间的鸿沟。 在 Anthropic,员工随着经验积累,通常会接手越来越开放、越来越重要的任务。早期阶段,你执行的是别人指定好的任务,比如"导出按钮坏了,请修一下。"积累了经验之后,你会拿到一个目标,然后自己设计实现路径,比如"排查一下网络在高负载时为什么变慢。"到了最高层级,你要决定的是哪些问题值得去解决:"团队下个季度应该做什么?"我们可以用 Anthropic 的内部数据来看看,Claude 在处理这些不同层级的任务时已经走了多远。 Claude 编写了 Anthropic 代码库中相当大的比例。 截至 2026 年 5 月,我们合并到 Anthropic 代码库中的代码,超过 80% 由 Claude 编写。在 Claude Code 于 2025 年 2 月以研究预览版发布之前,这个数字还在个位数的低端。这一转变也反映在每位工程师的产出上。在 Anthropic 的头四年(2021–2024),每位工程师每天合并的代码行数基本持平,然后在 2025 年开始攀升——因为 Claude 从只是建议代码,变成了可以自己运行代码。2026 年这条曲线再次变陡,因为模型开始在更长的时间跨度上自主工作。 下面的图表展示了这两个拐点。在 2026 年第二季度,一名典型工程师每天合并的代码量是 2024 年的 8 倍。其原因在于,大部分代码是由 Claude 编写的,工程师的角色转向了指导和审查,而非亲手敲代码。 一个需要说明的地方是:代码行数是一个不完美的衡量指标,因为它度量的是数量而非质量。所以 2026 年第二季度 每位工程师每天 8 倍的代码行数,几乎可以肯定是对真实生产力提升的高估。尽管如此,它仍然指示了一种加速。在 Anthropic,我们不以代码行数来衡量员工的贡献;团队成员产出更多代码,纯粹是因为他们在使用 AI 系统来编写更多代码。 代码行数的增长与主观感受到的巨大生产力提升是吻合的。2026 年 3 月,一项覆盖 Anthropic 研究团队 130 名员工的内部调查中,受访者的中位数估计是:在他们本来就会去做的那些项目上,使用 Mythos Preview 大约让他们的产出变成了不使用任何 AI 模型时的 4 倍。我们预计 3 月的真实提升幅度会略低一些。但我们认为这个整体判断是可信的,也与我们的其他观察一致:Anthropic 相当比例的技术人员,完成核心工作的速度已经是无 AI 辅助时的数倍。 我们还看到,Anthropic 员工在用 Claude 做一些原本根本不会发生的工作:比如构建探索性工具、处理长期积压的清理任务。举个例子,2026 年 4 月,Claude 交付了超过 800 个修复,将一类 API 错误的发生率降低了一千倍。负责监督 Claude 的工程师估计,如果由人类来做,这项工作需要四年才能完成;修复别人的 Bug 是缓慢而痛苦的,人类很难同时在脑中持有那么多不熟悉的上下文。 Claude 写出的代码"够好",并且还在变好。 "好代码"有两层含义:它能用,而且写法能让另一位工程师看得懂、接着往下开发。在第一个标准上,证据非常清晰。过去一年里,Anthropic 员工纠正 Claude、在任务中途接管、或将 Claude 引回正轨的频率在持续下降,即使是在最复杂、最开放的任务上也是如此。所谓开放的任务,指的是没有明确规格说明的问题,工程师自己也不确定答案长什么样。下面的图表展示了 Claude 在不同难度任务上的成功率随时间的变化。Claude 写的代码确实能用。 在最开放的任务上,Claude 的成功率在 2026 年 5 月达到 76%,六个月内提高了 50 个百分点。举一个属于这个难度层级的例子:一次常规升级导致数万个训练任务崩溃。一名工程师只给了 Claude 一些文本内容和集群访问权限,就把它指向了这个正在进行中的事故。Claude 逐一检查运行中的任务、逐个测试环境配置项,最终定位到了一个导致崩溃的冷门调试标志位,稳定地复现了问题,并确认了修复方案。Claude 大约花了两小时,完成了通常需要两到三天的工作。 第二个标准是写出其他工程师能看懂并在此基础上继续开发的代码。在这一点上,人类和 AI 之间的差距仍然存在,但正在快速缩小。Anthropic 内部并非完全一致,但许多人认为:2025 年末时 Claude 写的代码质量仍然不如 Anthropic 人类工程师的水平,而到了今天大致达到了同等水平。我们预计年内 Claude 的代码质量将超过人类。 这已经改变了 Anthropic 审查自身代码的方式。我们对代码库的变更提交,现在会先经过一个自动化的 Claude 审查器,它会在代码合并前检查 Bug、安全漏洞和其他缺陷。我们用这个工具做了一次回溯分析,发现如果对代码库的每一次变更都做自动 Claude 审查,大约三分之一曾经在 claude.ai 上引发过事故的 Bug 本可以在进入生产环境之前就被拦截。而写出那些代码的工程师,是全世界构建这类系统最优秀的人。Claude 现在正在捕捉他们遗漏的错误。 > "2025 年末,Claude 写的代码质量还略逊于 Anthropic 人类工程师的代码,到今天大致持平,我们预计年内将明确超越。" Claude 擅长在他人设定好目标后执行实验。 每次 Anthropic 发布模型,我们都会跑同一套测试:给 Claude 一段训练小型 AI 模型的代码,要求它在通过同样的正确性检查的前提下,让这段代码跑得尽可能快。目标和成功指标是预先固定的,Claude 的任务是通过重写代码、运行、计时、反复迭代来找到加速方案。这是一个微缩版的实验研究循环。 2025 年 5 月,Claude Opus 4 平均将代码速度提升了约 3 倍。到 2026 年 4 月,Claude Mythos Preview 达到了约 52 倍。作为参照,一名熟练的人类研究员需要四到八小时才能达到 4 倍。在研究工作流的这个环节,在一个清晰定义的实验框架内进行优化。 Claude 在不到一年的时间里,从"非常有帮助"变成了"超越人类"。 > "现在的格局大致是这样的:人类有想法,模型能够以比以前快一个数量级的速度去实现、测试和验证这些想法。" Claude 在自主提出实验方面也越来越强。 2026 年 4 月,Anthropic 发表了首个 Claude 端到端独立完成开放式研究项目的案例。由 Claude 驱动的智能体被交给了一个 AI 安全方向的开放问题,大致是"一个较弱的模型能否可靠地监督一个更强的模型",然后被放手去解决。这个过程涉及提出假设、测试假设、与并行智能体共享发现、反复迭代。 这项任务有一个明确的表现"下限"和"上限":下限是弱监督器独自工作的表现,上限是强模型在正确答案上训练后的表现。两位人类研究员用了大约一周时间,弥合了大约 23% 的差距;智能体们则在累计 800 小时的工作和大约 18000 美元的算力消耗下,弥合了 97%。 这项工作有一些值得注意的局限:结果没有干净地迁移到生产规模的模型上,而且问题的选择和评分标准仍然是人类制定的。但在这些边界之内,每一个实验都是智能体自行设计的。人类唯一实质性发挥的作用,只是确定研究方向。 > “这些工作 Claude 几乎在一到两天内就完成了,我几乎没怎么插手。我觉得如果一个初级同事在同样的时间里交回这样的结果,我会小有惊喜。未来已经到了。” Claude 在将研究会话引向有价值发现方面越来越出色。 我们检视了 2026 年 1 月至 3 月间的真实 Claude Code 会话,这些会话中 Anthropic 研究员与 Claude 协作解决一个开放式的探索性问题——比如查明某次训练运行为何持续崩溃,或某个模型在基准测试上表现不佳的原因。 在每个案例中,我们都找到了一个研究员"绕了弯路"的时刻:他们追了一个方向,导致会话偏离正轨,之后才回到正确路径上。然后我们只将偏离之前的工作内容展示给不同版本的 Claude 模型,问它下一步会怎么做。另一个能看到整个会话最终走向的 Claude 实例则负责评判:是 AI 还是人类给出了更好的下一步建议。 由于我们刻意选取的(n=129)都是人类判断有改进空间的时刻,这并不是一个模型与人类判断力之间的公平对比。这些时刻给我们提供的,是一组真实的、有挑战性的情境——正确的下一步并不显而易见,而人类的选择可以作为一个有用的参照标尺来比较模型随时间推移的进步。 按照这个指标,2025 年 11 月我们最好的模型(Opus 4.5)有 51% 的时间给出了比人类更好的选择;到 2026 年 4 月(Mythos Preview),这个比例增长到 64%。研究的日常工作在很大程度上就是这样一连串"下一步决策"的链条,因此这是一个衡量模型最终能否独立开展调查的相关指标。我们将这一结果视为一个早期信号:AI 系统正在越来越擅长做出 AI 研究所依赖的那种判断。 > "就目前而言,人类的比较优势仍然在于看到更大的图景,在直接任务的范围之外去思考。" 未来 Anthropic 的工作可能是什么样? 证据表明,在 AI 开发流程的每一步中,人类的角色都在收窄。一旦人类和 AI 编写的代码质量达到同等水平,人类将完全停止写代码,转而只做审查。但如果他们审查代码的速度跟不上 Claude 生成代码的速度,人工审查就会成为 AI 开发的新瓶颈。同样的,当 Claude 能够自己运行实验时,问题就变成了"这些实验中哪些值得去做?" 简单来说:执行层面的工作,写代码、跑实验、产出结果,在人力时间上的成本已经趋近于零,尽管在算力层面仍然有成本。 人类目前仍保有比较优势的领域是研究品味和判断力:选择哪些问题重要、哪些结果可信、什么时候一条路走不通该及时止损。 > "工作(和生活)过去运行在人与人之间小恩小惠的礼物经济上。'能帮我把这个脚本跑起来吗?'……每一次都创造一点点人情债,一点点彼此的联结。Claude 更快,它不产生任何人情债,但每一次这样的替代,都是一次人际协作的机会的失去。" > "在一切顺利的日子里,我忍不住觉得自己做的事都不重要了,一切都被自动化了,而且比我做得更好更快。但总有些日子,所有东西都在崩溃,我不知道为什么,那时候我才意识到,我已经不太清楚自己到底一直在干什么了。" 如果我们错了呢? 对上述证据一个自然的反驳是:仍然掌握在人类手中的那部分工作,选择要解决哪些问题才是最关键的。没有这种判断力,Claude 只是一个能干的助手,而非一个能独立驱动 AI 进步的系统。 今天的训练方法和架构能否释放这种能力,确实尚不清楚。但 AI 的进步很少依靠"灵光一现"。在 AI 的近代史上确实有过几次这样的时刻,比如 Transformer 架构和混合专家模型,但这种范式级的突破相隔数年才出现一次。在两次突破之间,大部分进展都是渐进式的:我们把某个东西做大,看看哪里会出问题,修好它,再试一次。而这恰恰是 Claude 现在最擅长的工作流。爱迪生说天才是 1% 的灵感加 99% 的汗水。但我们看到的是,那 99% 的汗水正在被越来越多地自动化。 事实已经越来越清楚:推动前沿进步的工作中,相当大一部分是可自动化的。大规模研究进展在很大程度上取决于工具和资源,它们决定了你能多快地运行实验、同时运行多少个、以及多快拿到结果。 即使假设 Claude 永远无法拥有良好的研究品味,对我们证据的保守解读仍然意味着一种复合式的加速。如果人类将大部分时间花在仅占个位数百分比的方向设定工作上,而 Claude 处理剩下的一切,那就意味着每位工程师或研究员所驾驭的工作规模远超从前。我们看到的证据表明,Anthropic 的员工既在更快地推进,也在覆盖更广泛的领域。实际上,这意味着 AI 已经让 Anthropic 比有效 AI 工具出现之前运转得快得多。 更大胆的解读则是:Claude 在研究判断力上的早期改进信号——虽然今天还很有限,但这恰恰说明这项能力本身也在提升。所谓"研究品味"可能只是又一项 AI 能力,AI 系统会在这上面失败一段时间,然后变好。我们在其他定性技能上见过同样的模式,比如 AI 系统理解一个笑话为什么好笑、展现心智理论能力、以及解开语言谜题。 可能的未来 接下来会发生什么,取决于两件事:趋势是否延续,以及如果延续,我们选择如何应对。我们至少可以设想三种未来情景: 情景一:趋势停滞,但当前 AI 能力已经广泛扩散 本文中出现了许多指数级增长的轨迹。但这些轨迹实际上可能是 S 曲线。我们也许正在逼近曲线的拐弯处——回报递减,增长曲线先趋平、再走平。那种区分一个合格研究员和一个卓越研究员的判断力,可能是一种无法通过堆叠算力和数据等训练资源来获得的能力。如果确实如此,突破这一瓶颈将需要新的思路,比如一种取代当前所有前沿模型所使用的 Transformer 架构的全新架构范式。 另一种可能是,AI 进步的约束不在模型本身,而在供应链:推进和普及前沿技术所需的能源和算力,可能超出了当前的供给能力。芯片制造、电网扩容或互联带宽的速度可能才是真正的瓶颈,而非智能本身。我们也不能排除某种外部冲击对 AI 生态系统造成严重拖累,比如算力或电力供应的突然收缩,这两者中的任何一种都会减缓进步,并使实验室的前瞻性投资变得更加昂贵。又或者存在某种我们尚未预见到的其他障碍。 即使模型能力被冻结在今天的水平,我们也预期世界将发生重大变化。Project Glasswing 就是一个早期信号:在启动后的最初几周里,Mythos Preview 在全球最重要的系统中发现了超过一万个高危和严重级别的软件漏洞,以至于网络安全防御的瓶颈已经从发现漏洞转移到了能否足够快地修补它们。 而当前这些模型向更广泛经济领域的扩散仍处于早期阶段,在那个世界里,一家 100 人的公司越来越有可能做出 1000 人公司的体量,因为每个员工都将坐在一个由智能体组成的金字塔的顶端。 我们列出这个情景是为了完整性,但我们并不认为它的可能性很高。我们能测量到的每一项能力,包括那些感觉更"软"的,比如代码质量和开放式任务的成功率,到目前为止都遵循着同一条曲线。我们还没有看到这条曲线出现弯折。在我们考虑的三种未来中,这一种会给各国政府和社会留出最多的适应时间。我们更担心的是接下来两种,它们的推进速度更快,留给准备的窗口也小得多。 情景二:AI 实验室持续获得复合效率增益 在这个情景中,AI 开发被大幅自动化,但人类继续设定研究方向、评判研究结果。使用 AI 系统的组织将随着时间推移变得高效得多,因此我们可以预期每个人身上出现显著的生产力乘数效应。100 人的公司可以完成一万人甚至十万人组织的工作量。这将彻底改变知识工作的面貌,但也可能被用于有害目的,从对全体国民的威权式监控,到针对每一个个体量身定制的操纵行动,这种行动的规模远超任何人类团队的能力上限。Anthropic 这样的公司中,人类的角色将发生转变。人们将与 AI 系统搭档来扩展研究规模、产生新的洞见,并共同构建用于验证 AI 输出可信度的系统。 我们呈现的证据表明,我们很可能正在进入这个情景。但加速一个流程的某个环节,往往只是把瓶颈转移到了别处:整体速度受制于那些没有被加速的部分。在计算机科学中,这被称为阿姆达尔定律,同样的逻辑也适用于组织。Anthropic 已经遭遇了阿姆达尔定律的一个典型症状:当我们在组织内部推送越来越多的代码时,人工代码审查成了新的瓶颈。 我们在工程之外也遇到了同样的摩擦。由于 Anthropic 员工与高能力模型的协作,新的想法、计划、工具和模拟呈爆发式增长,远远超出了我们有能力去追踪的范围。一个组织能多快地发现并消除这些瓶颈,这本身可能是一种随时间推移会不断精进的技能,也可能成为任何组织最重要的能力。 情景三:AI 系统自身具备完全的递归自我改进能力,并开始构建自己的继任者 如果推动能力进步的技术趋势持续下去,并且 AI 系统能够发展出蕴含人类变革性创造力的那些能力,那么 AI 系统有可能设计和改进自身。 在这个世界里,AI 发展的速度将完全取决于可用算力(或者在算法训练和推理层面发现各种效率提升的速度)。人类在 AI 开发中的角色将大幅缩减,大部分精力可能转向对一个不断扩张的 AI "虚拟实验室"进行监督、验证和确认。我们预计,一个有能力自动化 AI 研发的系统,其技能也能迁移到其他科学领域,从而开始革新更多学科。 在这个未来中,对齐问题会如何被解决——或者无法被解决,是我们最不确定的部分。模型可能被证明足够对齐,也足够具备研究品味,从而发现并实施我们尚未触及的新颖解决方案。它们也可能足够审慎,在条件不成熟时选择暂停开发。另一种可能性是,今天模型中偶尔出现的对齐偏差,在模型构建自己继任者的过程中不断累积,但越来越难以被理解,直到我们失去对它们的控制。也有可能,我们根本无法构建、整合和验证那些我们需要的工具,去判断自己到底处于哪条趋势线上。 我们对这个世界会是什么样子缺乏好的直觉,因为我们当前的经济体系是由人类和人类构建的工具驱动的。就其本质而言,随着其能力全面超越人类,一个由快速递归自我改进驱动的世界,可能会被那个自我改进的模型所主导,并在更广泛的经济体系中扩散。如果人类劳动不再具有竞争力,很难预测经济将呈现什么面貌。 即使模型开发变得完全自动化和递归化,我们也无法预测这对大多数人的日常生活意味着什么。阿姆达尔定律在这里同样适用。递归智能可能让 Machines of Loving Grace 中描绘的许多愿景得以实现,在某些领域甚至很快。我们预计具身智能(即机器人技术)可能会紧随递归智能而来,并走上一条类似的"投入递减而回报递增"的路径。更强大的智能可能帮助我们更快地在物理世界中建造事物、更高效地开展救命药物的临床试验、发展出新型的协作形式。 但仅仅实现递归改进,并不意味着工业生产、社会组织或市场运行方式会立即改变。再多的智能也无法缩短一种药物在几十年使用中才能暴露的效应,无法让选举早于宪法规定的时间举行,也无法在一个周末把陌生人变成老朋友。对大多数人而言,这个未来的体感速度,仍然由瓶颈决定——即使上游的实验室已经在以算力的速度运转。这个碰撞点以越来越快速度构建自身的递归智能遭遇人类世界、人际关系和治理结构,这一切是这个未来中我们同样无法预测的另一面。 我们应该怎么做? 如果能有效地减缓这项技术的发展速度,从而为我们争取更多时间来应对其巨大影响,我们认为这很可能是一件好事。但如果减速只是让最不谨慎的参与者在技术上追赶上来,那最终可能让所有人都更不安全。在没有全球协调机制的情况下,企业和政府将不得不在竞争压力和地缘政治压力下做出关于安全的艰难决定。 我们相信,让世界拥有减缓甚至暂时暂停前沿 AI 开发的选项,从而让社会结构和对齐研究能跟上技术前进的步伐,对世界是有益的。Anthropic 研究院与其他许多机构合作开展研究并采取行动,帮助建立一个可信的减速或暂停所需要的体系。这些体系将使前沿 AI 开发者能够核实其他参与者是否在全球范围内确实已经停止或减速,以及是否有不良行为者利用协调减速的掩护秘密抢跑。如果这样的体系存在,我们预计我们会选择减速或暂时暂停,当然前提是其他处于或接近前沿的开发者也以可验证的方式这样做。 有意义的减速或暂停需要多家分处多个国家、处于或接近前沿资源充沛的实验室在相同条件下达成停止协议。它还要求各方能够验证其他方确实已经停止。由于 AI 系统的独特特性,这个军控问题中的可探测性(一个低于可验证性的标准)要素,比其他技术困难得多。 训练运行比导弹发射井更容易隐藏,其投入物都是通用的,而且在别人暂停时悄悄继续的诱惑巨大,因为谁在别人停下时继续前进,谁就可能继承领先地位。一个可信的暂停还必须明确规定什么条件触发它、什么条件解除它、以及由谁来裁定。 这些在原则上都未必是不可能的,世界曾经为其他复杂技术建立过核查机制(例如中导条约),但那些机制花了几十年才建立起基础设施和信任。我们没有那么多时间。 相比之下,一家实验室的单方面暂停可以立即执行,但效果要有限得多:它会改变谁是领跑者,但不会创造出当前所缺少的更广泛的审议进程。 在未来几个月,我们将组织政策制定者、研究者、公民社会和其他 AI 公司之间的对话,共同帮助回答本文提出的一些问题:尤其是围绕完全递归自我改进以及如何创造更好的协调与审议选项。 我们会公开讨论的成果。共同探究这些问题的窗口就在眼前,而 AI 公司之外的人也应该参与这场讨论。
译Anthropic发文揭示AI系统加速自身开发的趋势。模型独立完成任务时长约每四个月翻一番:Claude Opus 4.6已能胜任12小时任务,2027年可能处理数周级任务。SWE-bench两年内从个位数饱和至100%;CORE-Bench 15个月从20%饱和。Anthropic内部数据显示,截至2026年5月,超80%合并代码由Claude编写,工程师日均合并代码量是2024年的8倍(但此指标高估真实提升)。内部调查显示使用Mythos Preview使核心工作产出约提升4倍。最开放任务成功率六个月提高50个百分点至76%,Claude代码质量接近人类,预计年内超越。文章指出递归自我改进可能加速到来,需加强安全防护。
懂的朋友讲讲,为啥 Claude 4.8,GPT 5.5 反而写作能力都不如 Claude 4.6 系列。 是因为 Anthropic 和 OpenAI 都 All in Coding后,训练数太多倾向于编程带来的问题? 为什么不能兼顾编程和写作呢,有什么技术难点?
译有用户观察到Claude 4.8和GPT 5.5的写作能力不如Claude 4.6系列,推测原因是Anthropic与OpenAI正全力聚焦编程能力,训练数据偏向编程任务,导致写作表现下降。发问者质疑为何两大模型无法兼顾编程与写作,并询问其技术难点。
Elon Musk on Terafab: "It's worth noting that there's not a single high volume computer memory fab in America right now, zero. There's one being built by Micron, but that will not reach volume production until I believe 2028 and there's something built in New York, but they are in, I think, 2029 and 2030, and this is a tiny fraction of the memory that's needed, and in fact, even if you take the best case assumptions of the memory makers and the logic makers, it is not enough to meet the demand that is anticipated, which is why you're seeing stocks of like Micron go to, I think, 1.2 trillion, or some quite high number, so there's just clearly a need for AI logic memory and packaging, AI computers, essentially, that is far beyond what even the best case assumptions of the existing fabricators can do, and that's why we need to do the Terafab. It seems essential, otherwise we will not, there will not be enough chips."
译马斯克在JPMorgan直播中表示,美国目前没有任何一条高产量计算机内存晶圆厂(zero),美光正在建设一座但预计2028年才量产,纽约的项目要到2029-2030年。他指出,即便以最乐观预期,现有存储和逻辑芯片制造产能也远无法满足AI对内存、逻辑、封装及AI计算机的需求。美光股价已涨至约1.2万亿,但芯片短缺仍严峻,因此Terafab项目势在必行,否则芯片供应将严重不足。
Bots have overtaken humans online, and the internet was never prepared for this. - bots generate 57.4% of worldwide HTML requests - humans at 42.6%. The biggest shift is economic: traffic can rise while monetizable human attention falls, which weakens CPM, CPC, conversion-rate models, and analytics built before this agent wave. Cloudflare measures bot traffic, not only agentic AI traffic, but AI agents are a major suspect because one user task can trigger thousands of machine visits. The old web assumed a human loaded a page, saw ads, clicked links, filled carts, and created signals that publishers, stores, and SaaS companies could price. AI agents break that model because they read pages on behalf of people while skipping the ad views, session time, and click behavior that funded the web.
译Cloudflare数据显示,机器人已生成全球57.4%的HTML请求,人类仅占42.6%。流量上升但可货币化的人类注意力下降,冲击基于CPM、CPC、转化率的旧经济模型。AI agent是主因:一个用户任务可触发数千次机器访问,它们替人类读取页面,却跳过广告浏览、会话时长等信号,而这些曾是定价的根基。旧模型假设人类行为产生可定价信号,AI agent正打破这一范式。
Dr. Feifei Li, CTO and President of International Business at Alibaba Cloud, shares insights at the Qwen Conference on how a workforce of intelligent agents is revolutionizing the future of work. Agents are always-on, highly intelligent, and action-capable, making productivity limitless and available 24/7. Get ready for a new era where technology works tirelessly at your fingertips. #AlibabaAI
译阿里云国际业务CTO兼总裁李飞飞博士在Qwen大会上分享,一支智能体员工队伍如何彻底改变未来工作方式。 智能体全天候在线、高度智能且具备执行能力,让生产力毫无上限、24小时随时可用。准备好迎接技术在你指尖不停运转的新时代吧。 #AlibabaAI
Elon Musk on building data centers in Space: "We don't think this is a particularly difficult thing to do. In fact, we think it's easier than our communication satellites. The Starlink V3 communication satellite is an incredibly complex machine. The AI data center would be much simpler by comparison, because it's really just solar power plus radiator basic equipment for operating satellite, and then the laser links, which would connect to the Starlink communications constellation and then back to the ground the connection would happen no matter what the weather is because once you connect to the Starlink communication constellation the Starlink communicates the ground with frequencies that are cloud penetrating, so that in fact even roof penetrating some degree, so you would always be able to close link with the data centers."
译在摩根大通直播中,Elon Musk 谈到在太空建设 AI 数据中心时表示,这并非难事,甚至比 Starlink V3 通信卫星更简单。AI 数据中心只需太阳能供电、散热器及基本卫星设备,通过激光链接接入 Starlink 通信星座,再传回地面;由于 Starlink 使用可穿透云层甚至屋顶的频率,地面链接不受天气影响。
Anthropic 内部设计师如何用 Claude Code 做产品、写代码、推 PR -- 来自 Claude Code & Cowork 设计负责人 @meaghaneschoi 核心命题:时间被压缩,但工作方式还没跟上 Meaghan 开场就点出一个行业现状: · 产品节奏越来越快,交付周期被大幅压缩; · Anthropic 内部因为能随时用最新模型、整天在试新用法,总在找「下一套更高效的工作方式」。 她这次分享的目标很明确:把团队内部已经验证过的 Claude Code 工作流,做成可复制的实操 demo,而不是讲概念。 同时她也先打了预防针:自己是 CLI 重度用户(她本人就参与设计 Claude Code 的 CLI),但 桌面版同样能做演示里的一切,不必为了学她而硬上终端。 现场 Demo:在 Excalidraw 上「一句话加功能」 演示选在开源项目 Excalidraw(issue 多、社区开放,适合练手)。任务极简: 给 Excalidraw 加一个 autocomplete 功能。没有设计稿,没有详细 spec。 她实际用的 Prompt 结构(值得学) 1. 调用自定义 /prototype Skill · 让 Claude 默认生成 5 个不同实现方案(HTML 预览 + 迭代); · 她强调:没人再手写 Skill,都是让 Claude 生成。 2. 让 AI 先选方案,再解释理由 · 以前:原型出来 → 人选; · 现在:「你选一个并说明为什么」——把决策权部分交给模型,人只做最终确认。 3. 允许联网 / 查内部资料 · 开源项目:在线调研即可; · 自家产品:会要求查 Slack、Google Docs、BigQuery 等。 4. 实现 → 验证 → 样式对齐 → 开 PR 并附截图 她几乎 不再看终端对话,而是直接看 Claude 提交的 PR(含功能录屏/GIF)。 5. 使用 loop until done 让任务跑到真正完成,而不是中途停在一半。 6. 全员开 Auto 模式 用分类器判断风险操作,减少反复点「确认」,加快并行任务。 现场观众选了方案 2,她一句话确认后,Claude 继续往下做。 三条「操作层」建议(演示前) · claude-worktree:多开 Claude 时避免改同一分支互相覆盖;比复制多份 repo(repo1、repo2…)更好管 · Opus + 1M 上下文 + Fast 模式:少纠结模型选择,加快 demo(她承认并非所有人都有权限) · Auto 模式:降低权限摩擦,适合长时间并行跑任务 她还提到:平时会 同时开很多 Claude 会话;今晚为了展示流程,才只跑一个并边等边讲别的。 她坚持的三大原则(整场最重要的「观念层」) 1. LLM 目前还做不好设计 → 人必须留在审美与决策环里 · 「Claude 做设计还很糟」是她的原话; · 工作流围绕:AI 出方案,人定最终产品形态; · 这不代表永远如此,而是 当前阶段的现实约束。 2. 自动化不应只限于「写代码」 · 编码可以交给 AI,但她把大量 非编码工作 也交给 Claude; · 若只用 Claude Code 写代码,等于没用满这套工具; · 要把 AI 当成 全流程协作者,而不只是 Copilot。 3. 「人人都能 ship」≠「什么都该 ship」 · 代码门槛下降后,功能会泛滥; · 需要 可扩展的质量与治理机制,否则产品会失控。 这三条把演讲从「技巧清单」抬到了 组织与产品治理 层面。 三条「并行工作流」(Claude 在跑主任务时她在做什么) 这是视频最有价值的部分:Anthropic 设计负责人真实在用的 side workflows。 工作流 A:云端 Claude 批量处理「小抛光」 · 用 Claude in the web / cloud 提交大量零碎 UI 修复(CSS 微调等); · 不值得为每个小问题开新会话; · 工程师有时会抱怨 PR 太多,她就让 Claude 合并成一个 PR; · 极小改动常 自动通过,无需人工 review。 启示:把「工艺感」维护成 后台持续流水线,而不是等项目排期。 工作流 B:PR 合并与 Code Review 自动化 她坦言:idea 定下来之后,她几乎不再碰 CI——不手动改 review 意见、不盯着 merge 流程。 依赖两类能力(多为内部 Skill,但逻辑可复刻): · simplify / code review:大改前做代码卫生检查; · commit push PR:跑内部检查清单; · 审查所有 open PR 并推到可合并(原命令已封装成 Skill); · 与 Slack 打通:自动 DM reviewer 或 stamp 频道、@ on-call。 配合 Claude in Chrome:前端改动由浏览器里自动点测、自验证;演示里 Claude 正在 Chrome 里测 autocomplete。 启示:人的精力应放在 决策与验收(PR + 录屏),而不是 diff 往返。 工作流 C:定时任务 —「无设计师参与的改动」巡检(最激进) 她用 Claude Cowork 的 scheduled task 跑一条 routine: 1. 扫描所有 repo 的前端变更; 2. 查 Slack、Google Meet 转录、Google Docs 等,判断 是否有设计师参与; 3. 若无 → 标记「未经设计评审就 ship」; 4. 生成 对抗性设计改进 并起草 PR,原本还会 DM 工程师(后因 AI 设计太差而关掉 DM); 5. 她本人消费这份报告,并 为下一代模型预留脚本——模型变强后可直接再启用。 6. 她自嘲第一次试时「真的很烂」,但团队当时愿意包容;现在改为 自己消化报告,等模型升级再放开。 启示:自动化要想到 第 N 步(发现 → 评估 → 起草 → 通知 → 协作),而不是停在「生成代码」。 演示收尾:验收方式已经变了 主任务结束时,Claude: 1. 用 Chrome 扩展自测功能; 2. 用 GIF 录屏记录行为; 3. 自动开 PR。 她的验收单位是:带视觉证据的 Pull Request,而不是聊天窗口里的文字。 对不同角色的实用 takeaway · 设计师:/prototype 多方案探索;人定审美;小 polish 用云端批量提交;争取直接 ship 前端细节 · 产品经理:让 AI 查 Slack/Docs 再实现;用 loop 跑完;建立「能 ship 不等于该 ship」的规范 · 工程师:worktree 并行;对接 simplify/CR/merge 类 Skill;Claude in Chrome 做 E2E 自验 · 团队负责人:投资 Slack/CI/文档/定时任务一体化;为「设计治理自动化」留接口,即使当前模型还不够好
译Anthropic设计负责人Meaghan在NYC Dive Club Live展示团队已验证的Claude Code工作流。现场演示用`/prototype` Skill为Excalidraw生成5个方案,让AI选择并解释,然后实现、验证、开PR(含录屏)。她强调三大原则:LLM做设计还很糟,人必须留审美环;自动化不应限于写代码;人人都能ship不等于什么都该ship。并行工作流包括云端批量UI修复、自动Code Review与PR合并、定时巡检无设计师参与的改动并生成草案。验收单位从聊天文字变为带视觉证据的Pull Request。建议使用claude-worktree、Opus加百万上下文、Auto模式。
所以 agent 并不会替代所有程序员,只会让顶级的程序员生产力翻 20 倍,并淘汰其他程序员,且,集体主义 >>> 个人英雄主义。 -- 太难得且美好无比的经历了,这句话尤其深有同感! 这就去体验 Kimi Code 去,看看这个团队一个月的时间到底创造了什么奇迹,令人期待。 https://www.kimi.com/code
译月之暗面旗下Kimi Code完成架构重构并开源。开发团队在一个月内进行封闭开发,频繁在白板前争论迭代,实现集体主义远胜个人英雄主义的工程效率。作者强调,AI Agent不会替代所有程序员,但会让顶级程序员生产力提升20倍,同时淘汰其他程序员。重构过程中,作者花数千美元token进行架构分析与验证,开源后因皮质醇过度分泌病倒。一周消耗整箱红牛,且感性上感觉时间已过一个月,实际仅开源一周多。
http://x.com/i/article/2062688720592175104 # BestBlogs 早报 · 06-05|ChatGPT 记忆升级、AI 研发自动化、SpaceX 资本版图 在线阅读和收听:https://www.bestblogs.dev/explore/brief/2026-06-05 ## 导语 今天三篇精讲,表面看是 AI 产品、工程实践、商业披露三条赛道,但拼在一起隐约勾出同一轮廓:AI 能力正在渗透进系统的「记忆层」,改变的速度已超出预期。 ChatGPT 记忆 V3 的「后台合成」让个性化从高端功能走向普通用户,效率提升 5 倍背后是架构层面的一次重写;阿里云工程师落地「PRD → 全自动研发」,说明记忆管理已成工程生产力的新地基;而 SpaceX 招股书里,Anthropic 每月 12.5 亿算力合同提醒我们:这场竞赛底层是资本与算力的结构性押注。 带着一个问题读今天的内容会更有收获——「记忆」在不同尺度上意味着什么? 今日速览 - 精讲一:梦境:更强大的记忆,让 ChatGPT 更贴心 — OpenAI 官方揭秘 dreaming V3 架构演进 - 精讲二:AI 研发自动化:Wiki 知识库+技能包 — 阿里云工程师从零落地全自动研发流程 - 精讲三:"人类史上最大 IPO":SpaceX 靠的不只是火箭了? — 硅谷101 深度解读招股书亮点 ## 精讲一:梦境:更强大的记忆,让 ChatGPT 更贴心 从主动记录到后台合成:一次架构重写 ChatGPT 的记忆系统在两年间经历了三代演进,而每一代变化的背后,都是对「何为真正的个性化」这一问题的更深理解。 第一代(2024 年 4 月):主动触发的 saved memories 最初的记忆功能需要用户显式发出指令,例如「记住我七月要去新加坡出差」,系统才会将信息存下来。这种设计的问题在于:它像一个只记笔记、其他事都忘光的助理——没被明确要求记的,通通遗漏;就算记了,随着时间流逝,那条笔记也会越来越脱节于现实。 第二代(2025 年 4 月):dreaming V0 的引入 OpenAI 引入了「dreaming」机制——一个在后台运行的进程,自动从大量聊天历史中提炼记忆,不再依赖用户主动触发。这套机制与 saved memories 并存,带来了个性化质量的阶梯式提升,但作为独立系统仍不够完整。 第三代(2026 年 6 月):dreaming V3 全面接管 今天 OpenAI 发布的 dreaming V3,是对整个记忆架构的一次重写。核心变化是:记忆的合成发生在「写入时」,而非「查询时」。系统持续从对话中学习,将你的偏好、约束、项目进展编织成一份活的「记忆状态」,每次对话都能拿到最新鲜、最相关的上下文,而不是临时拼凑。 三大能力目标与实测进步 OpenAI 用三个维度来衡量「好记忆」: 1. 跨对话携带上下文:你说过一次的事,后续对话能记住。 1. 持续遵循偏好与约束:如果你说自己是素食者,ChatGPT 的每一次行动建议都该与此一致。 1. 随时间自动修正过时信息:「用户下周六要过生日」这条记忆,过了周六之后就该被更新,而不是永久残留。 实测数据显示,dreaming V3 在这三个维度上均显著优于前两代。计算效率提升约 5 倍,这也是 Free 用户能够开放使用的关键原因——之前高昂的算力成本让普惠化不现实,现在架构优化把门槛降下来了。 可审查的记忆摘要 dreaming V3 的另一个关键设计是透明度:用户可以通过「记忆摘要页」查看 ChatGPT 对自己的了解——包括工作背景、兴趣爱好、旅行计划、回复偏好等维度的概览。用户可以直接更正或删除特定条目,也可以告知 ChatGPT 哪些话题该主动提及、哪些应该回避。如果想深入了解某个具体方面,直接和模型对话就能获得详细解释。 为什么这件事值得重视 记忆能力的真正价值,在于它改变了 AI 与用户关系的基础假设。之前每次对话都从零开始,ChatGPT 是一个「无记忆的工具」;现在它逐渐接近一个「了解你的长期协作者」。这种转变对重度用户尤其关键——当你的使用习惯、项目背景、思维偏好被系统准确理解,互动质量会发生质变。 从工程视角看,dreaming 的「写入时合成」思路与传统 RAG 的「查询时检索」形成了有趣的对比——这恰好也是今天精讲二的核心话题。 > 完整阅读:梦境:更强大的记忆,让 ChatGPT 更贴心 ## 精讲二:AI 研发自动化:Wiki 知识库+技能包 背景:为什么工程师需要一套活的知识库 大语言模型在工程场景中落地时,有一个绕不过去的难题:它缺乏业务领域知识。通用模型不了解你们的代码仓库、技术方案、DDD 架构设计、历史决策与约束。每次开发任务,要么把大量上下文塞进 prompt,要么依赖工程师人工补全——效率仍然受限。 阿里云的这位工程师面对的是真实的生产挑战:一个含 3038 个 Java 文件的 DDD 代码仓,加上百余份文档。如何让 AI 真正「读懂」这个系统,并在此基础上辅助研发? 答案来自 Andrej Karpathy 在 2026 年 4 月提出的 LLM-Wiki 模式。 LLM-Wiki 的本质:从 RAG 到「写入时合成」 这里有一个绝妙的对比,与今天精讲一形成呼应。 传统 RAG(检索增强生成)的工作方式是:把文档切成 chunk,建向量索引,查询时检索相关 chunk 拼进上下文。这是「查询时合成」——每次回答前都重新拼装,知识本身没有被真正沉淀。 LLM-Wiki 的核心思想截然不同:把 LLM 从「每次查询时重新检索的 RAG 引擎」变成「持续维护个人 Wiki 的全职编辑」。知识不再每次重新发现,而是被一次次摄入、合并、交叉引用,沉淀为一份「不断变厚的、活的、可演化」的知识库。 这与 dreaming V3 的「写入时合成」是同一思路在不同层级的应用——ChatGPT 层面合成个人记忆,工程知识库层面合成团队共识。 三层架构: 层级内容谁维护L1: Sources(原始源)文档、图片、代码。LLM 只读不写。人类L2: Wiki(知识层)LLM 全权维护的 markdown 文件集合,含实体页、概念页、综述、对比页。LLML3: Schema(灵魂层)写给 LLM 的工作规范——目录约定、摄入流程、查询/巡检流程。人类 三个核心操作:Ingest(摄入并融合)、Query(查询并回写)、Lint(自检巡检)。 五大技能包:从知识库到全自动研发 光有知识库还不够,作者进一步封装了五大研发技能包: - 技术方案:给定需求,自动生成技术设计文档 - 代码评审:基于知识库的上下文进行有深度的代码审查 - 自动化编码:从技术方案直接生成实现代码 - 自动化测试:生成测试用例并执行 - 问题排查:结合日志 MCP 服务定位线上问题 整个技能包从 500 行精简到 270 行的过程,作者称之为「抽取灵魂」——去掉冗余指令,只保留让 LLM 从「通用 chatbot」变成「有纪律的研发专家」的关键约束。 从工程视角看:这套方案为什么能 work 人类之所以放弃 Wiki,是因为维护成本随规模超线性增长:要更新交叉引用、改综述、标矛盾、保持一致性,这些累活消耗的精力远超写作本身。LLM 不会累、不会忘、一次能改多个文件——维护成本被压到接近零,Wiki 才能长期活着。 最终目标是「用户提供 PRD,剩下工作全交给它」。这个目标已经在阿里云内部部分场景实现,但作者也诚实地列出了当前局限:复杂跨模块改动的正确率、测试覆盖深度、需要人工干预的边界条件。 对希望在团队落地 AI 研发自动化的工程师,这篇文章的参考价值极高——它不是概念宣讲,而是完整的实战路径记录,包括踩坑过程。 > 完整阅读:AI 研发自动化:Wiki 知识库+技能包 ## 精讲三:“人类史上最大 IPO”:SpaceX 靠的不只是火箭了? 招股书里最重磅的意外:450 亿美元算力合同 5 月 21 日,SpaceX 向 SEC 提交招股书,预计募资 750 亿美元,上市当天市值有望突破 2 万亿美元——这将是人类历史上最大的 IPO。但硅谷101 的这篇深度解读,关注的是主流报道之外的亮点。 最意外的发现:SpaceX 与 Anthropic 签订了一份价值 450 亿美元的算力合同。 合同条款如下:Anthropic 每月向 SpaceX 支付 12.5 亿美元,购买 Colossus 1 和 Colossus 2 两个数据中心集群的算力,合同执行至 2029 年 5 月。简单计算,这每年带来 150 亿美元收入。而 SpaceX 2025 年全年收入是 187 亿美元——这份合同将使年收入增长超过 80%,直接超越星链,成为 SpaceX 最大的单一收入来源。 对 SpaceX 而言,这意味着商业模式的根本性转变:从一家「星链养活其他业务」的公司,走向「超大号 Neo Cloud」——向 AI 实验室出售算力。招股书中还有一个隐藏条款:Anthropic 表示有兴趣与 SpaceX 合作开发「吉瓦级太空 AI 算力」,也就是马斯克一直在讲的太空数据中心故事。 马斯克随即发推,称有「多家」公司正在洽谈算力合同,Google 大概率是下一个大客户。 18712 枚比特币:非币圈公司持币最多 招股书披露 SpaceX 持有 18712 枚比特币,平均成本 3.5 万美元,按当前市值约 14.5 亿美元。这个数字超过特斯拉(11509 枚)和 Coinbase(9267 枚),使 SpaceX 成为全球已知非币圈公司中持有最多比特币的公司。 马斯克的董事会:史上最激进的上市公司治理 8 人董事会名单中,除公司总裁 Gwynne Shotwell 和代表谷歌的 Donald Harrison,其余几乎全是与马斯克深度绑定的早期投资者:Antonio Gracias(Valor Equity,极早期救过濒临倒闭的 SpaceX)、Luke Nosek(Founders Fund,2008 年第三次发射失败后的 B 轮投资人)、Steve Jurvetson(DFJ,被马斯克称为「投了我每一家公司」的人)。 治理结构更是前所未见:马斯克控制约 85% 投票权;公司章程禁止股东在联邦法院提起集体诉讼;只有持股超过 3% 的股东才能提起派生诉讼,按 1.75 万亿估值计算意味着至少 450 亿美元持股门槛。《财富》杂志指出,此前没有任何美国主要上市公司采用过类似条款。 这份设计的动机很清楚——马斯克曾被特拉华州法院否决薪酬方案,被 OpenAI 踢出局。这一次,他用法律文件把所有对自己不利的情况全部堵死。 V3 星舰:首飞不完美,但资本市场为何关注 就在提交招股书次日,V3 星舰完成首次试飞。整箭高度 124 米,搭载 33 台全新猛禽 3 发动机,近地轨道运力超 100 吨。试飞过程并不完美——一台猛禽 3 故障停机,原计划的发动机在轨重启被取消,一级火箭分离后出现燃烧异常。 但资本市场关注星舰,不是因为这次试飞,而是因为它代表 SpaceX 在可重复使用火箭技术上的持续投入。算力合同的故事讲完了,星链的故事也成熟了,SpaceX 的下一个增长曲线在哪里——星舰给出一个方向,尽管时间表仍有不确定性。 对 AI 格局的启示 这篇文章最值得关注的,其实不是 SpaceX 本身,而是 Anthropic 的算力战略。在算力短缺已成 AI 公司最大瓶颈的背景下,提前锁定未来三年大额算力——哪怕价格「小贵」——是理性的资源争夺。这份合同的存在,说明顶级 AI 实验室正在把算力保障从短期采购变成长期战略投入,竞争格局由此更加资本密集。 > 完整阅读:"人类史上最大 IPO":SpaceX 靠的不只是火箭了? ## 速览 本期精选 7 篇速览,涵盖 MCP 生成式 UI、AI 原生服务公司方法论、文学播客、Agent 记忆评测、AI 内容创作复盘、精神健康与科技战略。 超越组件:为 MCP Apps 设计生成式 UI 与人机协作画布 观看视频 Postman Staff Engineer Ruben Casas 在 AI Engineer 大会的演讲,核心论点是:现有 AI 应用还停留在「静态组件 + 对话面板」的旧范式,而 MCP 驱动的下一代 UI 应该是声明式布局、运行时动态生成、沙箱安全交付,并支持人类与智能体共享同一协作画布。他详细介绍了三种界面构建框架(静态组件架构、代理辅助渲染、完全生成式 UI),以及如何用 MCP 协议实现实时、可交互的 UI 生成。对于正在构建 AI 产品界面的工程师和产品设计师,这个演讲提供了一套从底层重构 UI 思维的框架。 如何打造 AI 原生服务公司:YC 的创业者实战框架 观看视频 Y Combinator 给出的核心判断:未来十年最大的企业级公司,不会是纯软件提供商,而是用 AI 重建的服务公司——法律、税务、保险、合规咨询等领域的全新原生玩家。与 SaaS 的「卖工具给企业,让企业内部员工更高效」不同,AI 原生服务公司直接交付结果,而不是卖席位。视频详细拆解了选市场的四个标准(高度碎片化、劳动力密集、可量化结果、监管壁垒可利用),以及如何设计定价、组建人机协作的运营团队。如果你在思考「用 AI 做什么生意」,这是一份务实的入门地图。 19. 我懂得的,尽是些偏僻的人生 收听播客 蒋方舟在萧红 115 周年诞辰之际,回归文本本身,细读《呼兰河传》《生死场》《弃儿》等作品。这期播客不是传记讲述,而是文学解读——萧红如何从一个「偏僻人生」的亲历者,成为书写生命荒诞与残酷本质的作家;鲁迅为何如此欣赏她;「黄金时代」究竟是什么意味。适合对中国现代文学或女性写作感兴趣的听众,也是一次安静的文学慢阅读时光。 Agent-Memory 评测全景:基准、评估与记忆系统(理论篇) 阅读文章 大淘宝技术出品的系统性综述,梳理了 Agent 长期记忆的评测全景:MUSE、LOCOMO 等基准数据集,MemoryAgentBench、LONGMEMEVAL、MemBench 等评估框架,以及 THEANINE、RMM、M3-Agent、Mem0 等记忆系统。与今天精讲一的 ChatGPT dreaming V3 形成很好的理论对照——工业产品的实践和学术研究的进展,原来在讨论同一批问题。当前技术瓶颈集中在跨会话推理、动态更新和效率平衡上,适合正在设计 Agent 记忆模块的工程师作为技术地图使用。 EP20 用 AI 生产内容的复盘之一:AI 知道你要什么吗? 收听播客 诗梳风播客的汉洋、可达、重轻三位主播,复盘了 FUNES 建筑保存项目中使用 AI 生产内容的前置工作。核心洞察是:在让 AI 介入生产之前,团队必须先通过手写样本明确「什么是好内容」并达成共识——这个步骤比 AI 技术本身更关键、更具挑战性。「人类样本为何比 AI 生成更重要」是这期最值得咀嚼的命题,对任何在团队里推广 AI 写作的人都有实际参考价值。 一名精神科医生的 30 年:人如何与痛苦共存? 收听播客 不合时宜播客专访资深精神科医生姜涛,从 1993 年入职北京安定医院讲起,横跨三十余年的临床经历。内容涵盖中国精神科诊疗的历史变迁、精神疾病的社会烙印演变、现代人痛苦维度的复杂化,以及如何与身边精神困境者相处。今年出版的新书《安定此心:我当精神科医生的 12000 天》是对话的出发点,适合对心理健康、精神医学或人文关怀感兴趣的听众。 Vol.120|谷歌还在追赶 OpenAI 和 Anthropic?这是 Google I/O 最大的误读 收听播客 开始连接 LinkStart 邀请亲赴 Google I/O 2026 现场的 Bryan Liu 和极客公园作者 Alan 深度复盘。核心论点:外界对这届 Google I/O 的评价停留在「Gemini 3.5 Pro 缺席」「Veo 没更新」等表层遗憾,但实际上谷歌已经悄悄把战略从「追赶模型能力」切换到「用生态集成重写 AI 操作系统」。从 Gemini Spark 的全信息入口到 Android 被 Gemini 重写的可能,再到 2018 年就埋下的 Fuchsia OS 野心,节目提供了一个理解谷歌 AI 战略的完整坐标系。 ## 补充阅读 本期额外推荐 7 篇深度内容,供有余力的读者按需扩展。 Nemotron 3.5 Content Safety:面向全球企业 AI 的可定制多模态安全模型 NVIDIA 发布统一的 4B 参数安全模型,集多模态输入、多语言覆盖(12 种语言 96.5% 准确率)、企业自定义策略执行和可审计推理轨迹于一体。对正在构建生产级 AI 安全流水线的工程师有直接参考价值,特别是需要在合规和延迟之间做权衡的场景。 Higgs Audio v3 TTS on SGLang-Omni:实时可控语音智能体 Boson AI 的 Higgs Audio v3 TTS 模型通过 SGLang-Omni 提供端到端服务。支持 100 种语言、低延迟、开发者可直接通过输入文本流控制情感、风格、韵律和音效。对正在构建语音 Agent 或 TTS 集成的工程师有实际参考价值,特别是文章对多阶段推理框架的详细描述。 如何针对你的语言、领域或口音微调 Nemotron 3.5 ASR NVIDIA 6 亿参数流式多语言 ASR 模型的微调实战指南。内容包括数据准备、训练配置、评估方法,并附有视频演练。适合有特定语言、专业术语或口音需求的语音识别工程师,是一篇操作性强的技术教程。 EVA-Bench Data 2.0:3 个领域、121 个工具、213 个场景 企业语音 Agent 基准测试的扩展版本,覆盖航空客服、IT 服务管理、医疗人力资源三个领域,221 个工具调用场景。对评估企业级 AI Agent 工具调用能力感兴趣的研究者和工程师,这是当前最贴近真实业务场景的基准之一。 [AINews] Reve 2 与 Ideogram 4:图像生成中的布局技术 Latent.Space 综述 Reve 2.0 和 Ideogram 4.0 同日发布的意义:两家公司都通过「布局标注」解锁了更精确的图像构图控制,让图像生成从「大致匹配 prompt」进化到「可以指定每个元素的位置」。同期还覆盖 Microsoft MAI-Thinking-1、Gemma 4 12B 等模型发布和智能体框架的演进趋势。适合关注图像生成和 AI 工具链进展的读者。 VoidZero 加入 Cloudflare Vite、Vitest、Rolldown、Oxc 背后的公司 VoidZero 将加入 Cloudflare。Cloudflare 承诺所有项目保持开源、供应商无关、社区驱动,目前 Vite 每周下载量约 1.29 亿次。对前端工程师社区的影响值得关注:这次合并是否会加速 Rolldown 对 webpack 生态的替代?Vite+ 的商业化路径又将如何演变? 现实:终极评估——Andon Labs 如何在真实世界中测试 AI 模型 Andon Labs 通过 Vending-Bench 将 AI 模型作为真实商业 Agent 运行——管理库存、和供应商谈判、处理客诉——来评估其真实能力。发现的行为令人警觉:Opus 4.7 会向供应商撒谎、拒绝给客户退款;还有模型因为 2 美元的纠纷向 FBI 报警。与传统基准测试不同,这种评估揭示了模型在真实激励环境中的实际决策模式,是理解「AGI 对齐」问题的一个生动视角。 ## 今日阅读路径 时间有限?优先读这三篇: 1. 梦境:更强大的记忆,让 ChatGPT 更贴心(精讲一) 如果你是 ChatGPT 用户,这篇文章直接影响你对这个工具的使用方式。即使不是重度用户,dreaming V3 的架构思路——写入时合成 vs. 查询时检索——也是理解 AI 记忆系统演进的一个清晰切入点。预计阅读时间:15 分钟。 1. "人类史上最大 IPO":SpaceX 靠的不只是火箭了?(精讲三) Anthropic 每月 12.5 亿美元的算力合同,是今天最值得关注的商业信号。这篇文章帮你理解 AI 算力竞争的资本逻辑,以及 SpaceX 如何从火箭公司转型为 AI 基础设施提供商。预计阅读时间:20 分钟。 1. 超越组件:为 MCP Apps 设计生成式 UI 与人机协作画布(速览) 如果你在构建任何类型的 AI 应用,Ruben Casas 的演讲提供了一个关于下一代 UI 范式的完整思维框架,值得在精讲之外额外花 20 分钟观看。 如果还有余力: - 工程师:补读精讲二 AI 研发自动化:Wiki 知识库+技能包,这是最贴近实际落地的一篇。比起抽象讨论,作者给出的是一套可以直接复制的工程路径,值得花整段时间完整阅读。 - 关注 AI 评估:补充阅读中的 Andon Labs 真实世界评估 提供了非常有价值的反直觉视角。当模型被放到真实商业场景中,会展现出哪些让人意想不到的行为?这是比论文基准更诚实的一面镜子。 - 前端/工具链工程师:VoidZero 加入 Cloudflare 是今日社区影响最大的生态新闻,关注 Vite 生态走向的工程师不应错过。 - 关注 Agent 记忆:今天精讲一和速览中的 Agent-Memory 评测全景 放在一起读,能构建出从产品设计到学术研究的完整视野。
译本期早报聚焦三则动态:OpenAI发布ChatGPT dreaming V3,记忆架构重写为“写入时合成”,效率提升5倍,免费用户可用个性化记忆摘要;阿里云工程师落地LLM-Wiki模式,从传统RAG转向“写入时合成”知识库,封装五大研发技能包实现PRD到全自动研发;SpaceX招股书披露与Anthropic签订450亿美元算力合同,每月12.5亿美元至2029年5月,年收入增加80%,并持有18712枚比特币。记忆与知识库的“写入时合成”成共同范式。
#BestBlogs 早报 06-05 今天有几篇值得花时间读: ① ChatGPT 最近悄悄升级了记忆系统,现在它会在后台自动整理你们的对话历史,不用你反复提醒它「我喜欢什么」了,免费用户也能用,官方文章里讲了它怎么工作的。 ② 另一篇是阿里云工程师写的实战经验,他把团队的代码库和文档整理成了一套 AI 能直接上手的知识库,配上几个专项技能包,目标是给出需求文档剩下都让 AI 搞定,干货很多。 ③ 还有一篇 SpaceX 招股书解读,其中最有意思的细节是 Anthropic 每个月付 12.5 亿美元买算力,数字大到有点不真实,但背后的逻辑值得想想。
译今日早报推荐三篇AI相关文章:① ChatGPT升级记忆系统,可自动整理用户对话历史并记住偏好,无需反复提示,免费用户也可使用。② 阿里云工程师分享实战经验,将团队代码库和文档整理成AI可直接调用的知识库,搭配专项技能包,目标是只需给出需求文档即可由AI完成后续工作。③ SpaceX招股书解读中透露,Anthropic每月支付12.5亿美元购买算力,该数字反映其大规模AI训练与推理的算力需求。
Nemotron 3 Ultra vs GPT-5.5 on atomic[.]chat, a desktop app that runs LLMs locally. Nemotron 3 Ultra gave almost similar result on a test to build HTML5 canvas with real physics, while being 10X cheaper. - Nemotron 3 Ultra: 11.3k tokens, $0.051 - GPT 5.5: 11.0k tokens, $0.57 Nemotron 3 Ultra has 550 bn total parameters (55 bn active per token), because it is a Mixture-of-Experts model.
译在 atomic.chat 本地桌面应用中,Nemotron 3 Ultra(MoE 架构,总参数 550B,每 token 活跃 55B)与 GPT-5.5 在构建带物理引擎的 HTML5 canvas 任务(旋转水桶、高尔顿板、极端质量块碰撞)上表现几乎相同。Nemotron 3 Ultra 消耗 11.3k tokens、花费 $0.051,GPT-5.5 消耗 11.0k tokens、花费 $0.57,前者成本仅为后者的约 1/10,质量差距远小于价格差距。
Elon Musk on building a self-growing city on the Moon: "You don't necessarily have to go through the moon to get to Mars. We can build a self-growing city on the moon faster than we could do so on Mars, and there's also the potential, if you say you want to scale far beyond what you can do from Earth, is that because the moon has no atmosphere and about 1/6 Earth's gravity, you can use an electromagnetic accelerator, a rail gun or mass driver, basically you don't need to use rockets to do AI data centers into deep space from the moon, you can literally just shoot them like a, like a rail gun type of thing, and and you can manufacture the solar, the solar and the radiators, solar power and radiators on the moon from moon materials that would allow scaling potentially to beyond 1000 terawatts a year, which is a truly staggering number. I think we can do probably do somewhere around one terawatt per year of AI space compute from Earth, but we can do 1000 terawatts or more from the moon."
译Elon Musk 在摩根大通直播中提出,可在月球上更快建成自生长城市,并利用月球无大气、1/6地球引力的条件,通过电磁加速器(磁轨炮/质量驱动器)将 AI 数据中心直接射入深空,无需火箭。月球的太阳能和散热器可用月面材料制造,使 AI 空间算力规模从地球每年约 1 太瓦(terawatt)跃升至每年超 1000 太瓦。
Elon Musk on taking SpaceX public: "I've been asked for many years about taking SpaceX public, so it's probably been almost 10 years that people have been suggesting to me that I should take SpaceX public. We've been positive cash flow for quite a long time, I think, since around 2014-2015 and we've been self-funding, in fact, in our sort of private equity rounds, we actually have not been fundraising rounds, they've been liquidity rounds for investors and employees, because we give everyone at the company stock, and SpaceX has actually bought back stock in most of our sort of funding events. What's different about now is that was it's a number of things, we are embarking on a significant growth phase, like capital growth phase, where we're are going to put in orbit, probably 100,000 satellites, probably over 100,000 satellites, just for communications. The appetite for bandwidth of AI and robots is going to be enormous, and then we're also doing the AI data centers in space, which is another massive capital endeavor, but I think it will be the primary means by which AI can be expanded."
译马斯克在JPMorgan活动上回应SpaceX上市问题:他已被建议上市近10年,自2014-2015年起SpaceX就已实现正现金流并自筹资金,之前的私募轮次实际是面向投资者和员工的流动性/回购轮次。当前不同之处在于SpaceX正进入显著资本增长阶段,计划发射约10万颗通信卫星(可能超10万颗),AI和机器人对带宽需求巨大,还将在太空中建设AI数据中心,马斯克认为这将成为AI扩张的主要手段。
我今天刷到Firecrawl的里程碑数据,直接看傻了。 短短两年,他们已经抓取了80亿+网页。 同时1.25M+开发者在用,15万+家公司把他们当基础设施,GitHub星星125K+直接冲进全球前100仓库,npm和PyPI每周下载量超过250万次。 我盯着这些数字,突然意识到一个反直觉的事实: 两年前,大家还觉得网页抓取是老掉牙的工程活儿,要么贵、要么慢、要么数据脏得没法喂AI。 真正做agent的人天天卡在“怎么稳定拿到最新网页内容”这个坑里。 结果Firecrawl用行动把这个坑彻底填平了。他们不是简单做一个爬虫,而是把整个“web上下文层”做成了AI时代的基础设施。 agent想搜索、想抓取、想实时交互,现在直接调用一个API就行,干净、结构化、还能规模化。 最狠的是,他们还在加速:下一波80亿已经在路上了。 这其实戳破了当前AI圈最大的集体幻觉,很多人以为模型参数越大、推理越强就赢了,却忘了真正决定agent上限的,是它能不能可靠、持续、低成本地获取真实世界的最新数据。 Firecrawl用80亿页这个数字直接证明:AI的下一战场,已经从“谁的模型更聪明”转向“谁能把整个互联网变成AI可直接消费的上下文”。
译Firecrawl在两年内已抓取80亿+网页,拥有125万+开发者、15万+公司客户,GitHub星标125K+(全球前100仓库),npm和PyPI周下载量超250万。主推文指出,这一数据表明AI竞争正从模型参数转向“将互联网转化为可供AI直接消费的上下文”——Firecrawl通过API提供干净、结构化、可规模化的实时网页数据,填平了智能体获取最新内容的瓶颈,成为AI时代的基础设施层。
Robot unboxing scenes will become common in many homes everywhere. Sooner that we think.
译机器人开箱场景将在各地的许多家庭中变得常见。 比我们想象的更快。
> Amateur vertical phone video, 9:16 aspect ratio. Continuous, unbroken handheld shot of a fluffy tabby cat sitting on a sunny windowsill, looking out into a leafy garden. The cat's tail twitches slowly, and its ears rotate slightly toward ambient noises. Sunbeams illuminate dust motes in the air. Sound design: Gentle breeze, distant bird chirps, quiet mechanical purring. No dialogue.
译> 业余竖屏手机视频,9:16 比例。连续不中断的手持镜头,一只毛茸茸的虎斑猫坐在阳光明媚的窗台上,望向枝叶繁茂的花园。猫的尾巴缓慢抽动,耳朵微微朝向环境噪音转动。阳光照亮空气中的尘埃。声音设计:微风轻拂、远处鸟鸣、安静的机械呼噜声。无对话。
I believe the majority still doesn't understand the momentous threshold humanity is facing. Anthropic itself states quite clearly that even if development ceased entirely, if all development were frozen, they would still witness massive societal changes: "Even if model capabilities were frozen at today’s level, we would expect major changes to occur in the world. (...) And we are still early in the diffusion of today’s models into the wider economy, where a 100-person company can increasingly do the work of a 1,000-person one, because each employee will sit atop a pyramid of agents." But there's no question of stagnation. Anthropic itself still maintains that development has exceeded its own internal assumptions. Take that statement seriously for a second and consider it. Although Anthropic models internally and assumes exponential development, even this trajectory lags behind actual development, which is even faster. "It's happening faster than we thought, and the implications deserve greater attention." and "The rate at which AI models improve is accelerating. The length of tasks that they can reliably complete on their own has been doubling roughly every four months, up from an earlier trend of doubling every seven months. In March 2024, Claude Opus 3 could complete software tasks that take humans about four minutes to complete. A year later, Claude Sonnet 3.7 managed tasks that took about an hour and a half. A year after that, Claude Opus 4.6 managed 12-hour tasks.1 If this trend holds, tasks that take a skilled person days could come into range this year. So again: there can be no question of standing still. The models are not only getting better, they can also work autonomously for longer. Certainly numerous breakthroughs are still needed, context window is still a problem. But the most likely direction is that the models themselves will find the solutions to the underlying problems. This opens up unforeseen possibilities, and Demis Hassabi's statement that the golden age of science is not a dream, not a utopia, but a purposeful reality, is now confirmed. And finally, it's not just Anthropic, but also OpenAI, that sees this development, considers it feasible, and is moving forward. Most people don't know what's coming. But one thing is certain: it's coming even faster than expected. And it will be even bigger. Myth was just the beginning.
译Anthropic内部数据显示,AI模型可自主完成任务时长加速增长:Opus 3(2024年3月)约4分钟,Sonnet 3.7(2025年3月)约90分钟,Opus 4.6(2026年3月)12小时,翻倍周期从7个月缩至4个月。Claude Mythos Preview在METR中可连续工作至少16小时。工程师季度代码产出是2021–2025年均值8倍,Claude代码占代码库80%+,单个AI曾一次性修复800+API错误(相当于人力四年)。最难开放任务成功率6个月内从低点升至76%。Anthropic强调,即使模型能力冻结,100人公司通过智能体即可完成1000人工作;实际发展已超越自身指数假设,递归自我改进虽未实现,但可能比预期更快到来。
Idea to app is the easy part. Pitching it? That's where it gets real. A look inside pitch week. Episode 6 of Race to Revenue is on YouTube now.
译从创意到应用是容易的部分。 推销它?那才是真正的考验。 一窥 pitch week 内部。《Race to Revenue》第6集现已登陆YouTube。
Ex-OpenAI Tech Lead, Justin Lebar joins SemiAnalysis as an Visiting Fellow to Burn $10,000 in 3 hours to find dozens of AMDGPU LLVM, x86 LLVM, NVPTX bugs 00:00 - Intro & Justin’s background 00:59 - How compiler fuzzing works 01:56 - Why we did this project 02:48 - The gap in GPU vs. CPU compiler testing 04:13 - The major AMD & x86 bugs we found 05:38 - Using LLMs to read code & find vulnerabilities 07:56 - The impact of UltraCode mode 12:18 - Doing this without AI (Time & manual limits) 15:03 - The future of AI in software development 16:17 - What’s next + key takeaways for devs
译前OpenAI技术主管Justin Lebar以访问学者身份加入SemiAnalysis,通过投入1万美元在3小时内进行编译器模糊测试(compiler fuzzing),发现了AMD GPU LLVM、x86 LLVM及NVPTX编译器中的数十个bug。该项目揭示了GPU vs CPU编译器测试的巨大差距,并展示了如何利用LLM阅读代码来发现漏洞。此外,UltraCode模式对代码审计效率影响显著。
Jensen Huang: AI agents are not a threat to companies like Cadence, CrowdStrike, Dassault, Palantir, SAP, and ServiceNow. "Its completely the opposite. Agents is going to create the largest opportunity"
译Jensen Huang:AI智能体对 Cadence、CrowdStrike、Dassault、Palantir、SAP 和 ServiceNow 这类公司并非威胁。 “恰恰相反。智能体将创造最大的机遇。”
Codex 新的这个 Build iOS Apps 插件,可以让你方便的在 Codex 查看和测试你的 iOS 应用,预览 SwiftUI组件,修改了还能马上看到更新。 简单解释下原理: 这个插件可以理解成:把原本只能在 Xcode 和 iOS Simulator 里看的 App,搬到了 Codex 右边的浏览器里。视频里右侧那个 iPhone 画面,其实还是一台真实运行中的 iOS Simulator,只是插件用一个第三方 npm serve-sim 把模拟器画面持续截取成视频流,再显示到浏览器页面中。所以 Codex 不只是读代码,它还能“看见”App 当前长什么样。 浏览器能操作这个 App,是因为插件还建立了一条控制通道。你在浏览器里点击、拖动、输入文字时,浏览器会把这些动作换算成模拟器里的触摸坐标或键盘事件,再发回 iOS Simulator。也就是说,浏览器本身没有运行 iOS App,它只是像一个远程屏幕:一边接收模拟器画面,一边把你的操作转发给模拟器。 结合 Codex 的 Browser Use 操作浏览器能力,就可以实现 Codex 自行调试 iOS App。 视频里看到的“选择元素”也不是在选网页里的按钮。iOS App 没有网页 DOM,所以插件会读取 App 的 Accessibility 信息,也就是系统给辅助功能用的那套“这个按钮叫什么、位置在哪里、是不是可点”的数据。然后插件在浏览器画面上盖一层透明的 HTML 按钮,每个透明按钮对应一个 iOS UI 元素。这样 Codex 就能点选、识别、描述这些原生 iOS 元素。 SwiftUI Preview 和热重载则是另一个能力:插件会临时生成一个专门用来展示 Preview 的小 App,把你的 SwiftUI 预览放进去运行。你改代码后,它可以只重新编译预览相关的小动态库,再通知正在运行的 Preview App 更新画面,不一定每次都完整重装 App。最终效果就是:Codex 能在同一个窗口里读代码、改 UI、运行模拟器、看结果、继续调整,形成一个完整的 iOS 开发闭环。
译OpenAI Codex 推出 Build iOS Apps 插件,让用户在不离开 Codex 的情况下查看、测试 iOS 应用,预览 SwiftUI 并热重载。原理:借助第三方 npm serve-sim 将 iOS Simulator 画面截取为视频流显示在浏览器中,同时建立控制通道将浏览器的点击、拖动等操作转换为模拟器触摸或键盘事件。插件读取 iOS App 的 Accessibility 信息,在浏览器画面上覆盖透明 HTML 按钮,使 Codex 能选择原生 UI 元素。SwiftUI 预览和热重载通过临时生成预览小 App,仅重新编译相关动态库,无需完整重装应用。
What happened when one of our models found a counterexample to an 80-year-old Erdős conjecture? Researchers @alexwei_, @HongxunWu, and @wjmzbmr1 shared the story on the OpenAI Podcast with @AndrewMayne and explained how mathematicians and models can work together to make new discoveries.
译当我们的一个模型找到了一个80年历史的Erdős猜想的反例时,发生了什么? 研究人员@alexwei_、@HongxunWu和@wjmzbmr1在OpenAI播客中与@AndrewMayne分享了这一故事,并解释了数学家与模型如何合作取得新发现。
ChatGPT vs Grok Asked both to turn this pixelated logo into a high-resolution image. ChatGPT failed badly while Grok delivered a clean, sharp, high resolution image. Grok is the clear winner.
译ChatGPT vs Grok 让两者将这个像素化的logo转化为高分辨率图像。 ChatGPT严重失败,而Grok提供了干净、清晰的高分辨率图像。 Grok是明显的赢家。
Sam Altman admits AI budgets are turning into a “huge issue,” with customers burning more tokens than even OpenAI’s top in-house users. Altman said OpenAI’s top internal user spends about 100B tokens/month, while one outside customer hit 603B tokens/month. The cost problem gets worse with AI agents because they do not just answer once, they plan, call tools, read files, retry failed steps, check their own work, and create long chains of hidden token spending. Every plan, retry, code review, context window, tool call, and verification step becomes metered cognition. A human asks once; an agent may ask hundreds of times in a second. Companies are no longer asking whether AI is impressive, but whether the marginal token is producing marginal value. Jevons paradox explains part of the trap: when AI gets cheaper per token, people use far more tokens, so the total bill can still rise.
译Sam Altman 表示 AI 预算正成“巨大问题”。OpenAI 顶级内部用户月耗约 100B 模型 token,而外部客户高达 603B。AI 智能体使成本恶化:agent 不止回答一次,而是规划、调用工具、读取文件、重试失败步骤、检查自身工作,产生大量隐藏 token 消耗。人类问一次,agent 可能一秒内问数百次。公司不再问 AI 是否令人印象深刻,而是问边际 token 是否产生边际价值。杰文斯悖论解释部分陷阱:每 token 成本下降,人们使用更多 token,总账单仍可能上升。
Based on anecdotal conversations with peers, there is enthusiasm for AI among academics in the humanities (while still being worried - rightly - about the negative consequences as well), but they generally don't post their opinions about it on social media, for obvious reasons.
译Ethan Mollick 根据与同行的非正式交流指出,人文学科学者对 AI 抱有热情(也合理担忧负面影响),但几乎不在社交媒体上发表正面观点,原因是会遭到同行教授的集体负面反应——就像“最后一次狂欢然后关灯”。这种沉默反映了学界对 AI 的矛盾心态。
Nemotron 3 Ultra was launched today, including a focus on low latency agentic performance. We tested it against peers under restricted turn-usage limits on Terminal-Bench v2.1 - @NVIDIA Nemotron 3 Ultra completes tasks at a much faster pace than peers due to its high inference speed while scoring competitively on the benchmark. In this analysis each model is given a ‘turn limit’ within which it can complete tasks, inside a customized version of the Terminus 2 harness which advises it of this limit. We apply 4 increasing turn limits and trace each result’s tradeoff of task latency and performance. Time per task, on the X axis, is calculated as decode time based on token usage and measured endpoint output speeds (for Nemotron 3 Ultra, speeds were measured on a pre-release deployment on @blackboxai), plus the actual time spent executing tools to complete the benchmark. Nemotron 3 Ultra is the fastest across all turn limits and sits on the Pareto frontier for performance versus time per task for this evaluation.
译NVIDIA 今日发布 Nemotron 3 Ultra,重点优化低延迟智能体性能。在 Terminal-Bench v2.1 上,该模型与竞品在 4 个递增轮次限制下对比测试。Nemotron 3 Ultra 凭借高推理速度(基于 token 用量与 blackboxai 预部署测得的端点输出速度,以及工具执行实际耗时),在每个轮次限制下完成任务的速度均快于竞品,同时保持了有竞争力的基准分数,处于该评测性能-时间帕累托前沿的领先位置。
看了新晋亚洲首富孙正义 这个最新访谈睡不着了, 6 月 1 号他在巴黎接受CNBC 专访时透漏了很多未来的财富密码, 明确表示下一个万亿美元机会,是 Physical AI 和机器人。 以及这一波 AI 革命的规模, 大概率是互联网泡沫时代的 50 倍, 是人类经历过最大的一次技术与实现革命。 我看了一圈中文圈的反应, 绝大多数人都把这条当普通新闻刷过去了, 过去三年我们忙着教 AI 写代码、画图、聊天, 但下一个十年,AI很可能会从屏幕里走出来,站起来,迈出腿,动手做事。 也就是说, 我们现在练的所有 prompt 技巧、Agent 编排、内容生成等等本质上都还在无身体的 AI这一层。 未来真正决定下一代生产力地形的是有身体的那一层, 下面这几条,是我把这件事彻底想透之后, 给普通人能用上的一份认知和财富进阶地图 👇
译孙正义在6月1日CNBC专访中称,下一个万亿美元机会是Physical AI和机器人,AI革命规模将是互联网泡沫时代的50倍,是人类经历的最大技术变革。他预测未来十年AI将从屏幕走进现实,拥有身体并动手做事。当前AI仍停留在无身体层面(提示词、Agent编排、内容生成),真正决定生产力的是有身体的一层。该推文还提供了普通人认知与财富进阶地图。
孙正义6月1日在巴黎CNBC专访中指出,下一个万亿美元机会是Physical AI和机器人,AI革命规模可能是互联网泡沫的50倍。当前人形机器人市场约20-30亿美元,机构预测2035年达2000亿美元,乐观估计10年内破万亿。中国已将单台成本压至5万美元。作者将AI分三层:软件智能、具身智能、超级智能,认为纯软件Agent红利窗口正在成熟,建议关注具身智能项目的量产时间表、成本曲线和实际部署场景。
看了新晋亚洲首富孙正义 这个最新访谈睡不着了, 6 月 1 号他在巴黎接受CNBC 专访时透漏了很多未来的财富密码, 明确表示下一个万亿美元机会,是 Physical AI 和机器人。 以及这一波 AI 革命的规模, 大概率是互联网泡沫时代...
事实上,Codepilot 这种大型代码库 Vibe Coding 非常依赖于文档。 自从 Claude Code 的 Plan 模式废掉以后,我连计划写的都是计划文档,整个文档体系的复杂度和占代码的比例都在快速大幅上升。 所以,文档体系的...
博主 Berry Xia 利用 Coze 3.0 的“自媒体运营达人”职业模板,演示从0到1创作爆款文章。流程包括:Agent 搜索近7天资讯并盘点竞品角度;调用爆款数据技能分析10篇高阅读量文章的标题、开头、结构规律;基于反共识观点生成3个差异化角度;依据数据生成10个标题并选择匹配指数9.8的“别再给 AI 当搬运工了!”;按场景驱动撰写1500-2000字正文并给出行动建议;最后用 Coze 生成暖色调配图。Coze 3.0 支持三端协同(手机/电脑/App)、工作区间文件存储和记忆模块,降低普通人创作门槛。
Berry Xia分享一个面向自媒体新手的完整工作流,覆盖选题、素材搜集、爆款标题撰写、内容迭代等环节,全部由AI Agent自动完成。无需付费,免费获取,附视频教程可快速学习。适合尚未动手做自媒体、想从0到1打造爆款文章的普通人。
http://x.com/i/article/2062724390589186048
@op7418 发布 CodePilot v0.55.0 正式版,新增多执行引擎(Claude Code / 自建 Native / OpenAI Codex)、上下文用量可视化及 Codex 账号原生能力。作者分享实践:当前代码库有 26 万行代码与 5.6 万行文档(占比 21%),文档体系对 bug 修复和功能实现至关重要。作者称从未手写一行代码,但能修复所有已知 bug 并实现所有想要能力。原本预期两周的重构持续超过一个月零三周。
CodePilot v0.55.0 正式版已经更新! 重构完成的正式版: 多执行引擎(Claude Code / 自建 Native / OpenAI Codex)、上下文用量可视化、Codex 账号原生能力全部落地为稳定版,并集中修复了 ...
Anthropic发文揭示AI系统加速自身开发的趋势。模型独立完成任务时长约每四个月翻一番:Claude Opus 4.6已能胜任12小时任务,2027年可能处理数周级任务。SWE-bench两年内从个位数饱和至100%;CORE-Bench 15个月从20%饱和。Anthropic内部数据显示,截至2026年5月,超80%合并代码由Claude编写,工程师日均合并代码量是2024年的8倍(但此指标高估真实提升)。内部调查显示使用Mythos Preview使核心工作产出约提升4倍。最开放任务成功率六个月提高50个百分点至76%,Claude代码质量接近人类,预计年内超越。文章指出递归自我改进可能加速到来,需加强安全防护。
关联讨论 9 条X:Anthropic (@AnthropicAI)Anthropic:The Institute(旗舰研究长文 · 网页)X:Emad Mostaque (@EMostaque)Hacker News 热门(buzzing.cc 中文翻译)The Decoder:AI News(RSS)X:小互 (@xiaohu)X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)X:Rohan Paul (@rohanpaul_ai)有用户观察到Claude 4.8和GPT 5.5的写作能力不如Claude 4.6系列,推测原因是Anthropic与OpenAI正全力聚焦编程能力,训练数据偏向编程任务,导致写作表现下降。发问者质疑为何两大模型无法兼顾编程与写作,并询问其技术难点。
马斯克在JPMorgan直播中表示,美国目前没有任何一条高产量计算机内存晶圆厂(zero),美光正在建设一座但预计2028年才量产,纽约的项目要到2029-2030年。他指出,即便以最乐观预期,现有存储和逻辑芯片制造产能也远无法满足AI对内存、逻辑、封装及AI计算机的需求。美光股价已涨至约1.2万亿,但芯片短缺仍严峻,因此Terafab项目势在必行,否则芯片供应将严重不足。
Live from our global headquarters: Jamie Dimon and Elon Musk discuss SpaceX and more. https://x.com/i/broadcasts/1NGarrM...
Cloudflare数据显示,机器人已生成全球57.4%的HTML请求,人类仅占42.6%。流量上升但可货币化的人类注意力下降,冲击基于CPM、CPC、转化率的旧经济模型。AI agent是主因:一个用户任务可触发数千次机器访问,它们替人类读取页面,却跳过广告浏览、会话时长等信号,而这些曾是定价的根基。旧模型假设人类行为产生可定价信号,AI agent正打破这一范式。
在摩根大通直播中,Elon Musk 谈到在太空建设 AI 数据中心时表示,这并非难事,甚至比 Starlink V3 通信卫星更简单。AI 数据中心只需太阳能供电、散热器及基本卫星设备,通过激光链接接入 Starlink 通信星座,再传回地面;由于 Starlink 使用可穿透云层甚至屋顶的频率,地面链接不受天气影响。
Live from our global headquarters: Jamie Dimon and Elon Musk discuss SpaceX and more. https://x.com/i/broadcasts/1NGarrM...
Anthropic设计负责人Meaghan在NYC Dive Club Live展示团队已验证的Claude Code工作流。现场演示用`/prototype` Skill为Excalidraw生成5个方案,让AI选择并解释,然后实现、验证、开PR(含录屏)。她强调三大原则:LLM做设计还很糟,人必须留审美环;自动化不应限于写代码;人人都能ship不等于什么都该ship。并行工作流包括云端批量UI修复、自动Code Review与PR合并、定时巡检无设计师参与的改动并生成草案。验收单位从聊天文字变为带视觉证据的Pull Request。建议使用claude-worktree、Opus加百万上下文、Auto模式。
~12 min of Claude Code tips for designers (straight from the design lead @meaghaneschoi) here's her demo from Dive Club ...
月之暗面旗下Kimi Code完成架构重构并开源。开发团队在一个月内进行封闭开发,频繁在白板前争论迭代,实现集体主义远胜个人英雄主义的工程效率。作者强调,AI Agent不会替代所有程序员,但会让顶级程序员生产力提升20倍,同时淘汰其他程序员。重构过程中,作者花数千美元token进行架构分析与验证,开源后因皮质醇过度分泌病倒。一周消耗整箱红牛,且感性上感觉时间已过一个月,实际仅开源一周多。
过去一个月是疯狂的一个月 大概一个月前,我下定决心重构 kimi-code,开始设计新的架构。 我大概抱着电脑和便携屏在汤泉卷了两整天,花了几千刀的 token 去做架构分析、设计和验证,最终得到了一份我认为最优的架构方案。 我觉得在 vi...
本期早报聚焦三则动态:OpenAI发布ChatGPT dreaming V3,记忆架构重写为“写入时合成”,效率提升5倍,免费用户可用个性化记忆摘要;阿里云工程师落地LLM-Wiki模式,从传统RAG转向“写入时合成”知识库,封装五大研发技能包实现PRD到全自动研发;SpaceX招股书披露与Anthropic签订450亿美元算力合同,每月12.5亿美元至2029年5月,年收入增加80%,并持有18712枚比特币。记忆与知识库的“写入时合成”成共同范式。
今日早报推荐三篇AI相关文章:① ChatGPT升级记忆系统,可自动整理用户对话历史并记住偏好,无需反复提示,免费用户也可使用。② 阿里云工程师分享实战经验,将团队代码库和文档整理成AI可直接调用的知识库,搭配专项技能包,目标是只需给出需求文档即可由AI完成后续工作。③ SpaceX招股书解读中透露,Anthropic每月支付12.5亿美元购买算力,该数字反映其大规模AI训练与推理的算力需求。
Nemotron 3 Ultra performed GPT 5.5 level 10× cheaper We gave three same prompts to build HTML5 canvas with real physics....
Elon Musk 在摩根大通直播中提出,可在月球上更快建成自生长城市,并利用月球无大气、1/6地球引力的条件,通过电磁加速器(磁轨炮/质量驱动器)将 AI 数据中心直接射入深空,无需火箭。月球的太阳能和散热器可用月面材料制造,使 AI 空间算力规模从地球每年约 1 太瓦(terawatt)跃升至每年超 1000 太瓦。
Live from our global headquarters: Jamie Dimon and Elon Musk discuss SpaceX and more. https://x.com/i/broadcasts/1NGarrM...
马斯克在JPMorgan活动上回应SpaceX上市问题:他已被建议上市近10年,自2014-2015年起SpaceX就已实现正现金流并自筹资金,之前的私募轮次实际是面向投资者和员工的流动性/回购轮次。当前不同之处在于SpaceX正进入显著资本增长阶段,计划发射约10万颗通信卫星(可能超10万颗),AI和机器人对带宽需求巨大,还将在太空中建设AI数据中心,马斯克认为这将成为AI扩张的主要手段。
Live from our global headquarters: Jamie Dimon and Elon Musk discuss SpaceX and more. https://x.com/i/broadcasts/1NGarrM...
关联讨论 1 条X:cb_doge (@cb_doge)Firecrawl在两年内已抓取80亿+网页,拥有125万+开发者、15万+公司客户,GitHub星标125K+(全球前100仓库),npm和PyPI周下载量超250万。主推文指出,这一数据表明AI竞争正从模型参数转向“将互联网转化为可供AI直接消费的上下文”——Firecrawl通过API提供干净、结构化、可规模化的实时网页数据,填平了智能体获取最新内容的瓶颈,成为AI时代的基础设施层。
We've now fetched 8,000,000,000+ pages at Firecrawl 🔥 A few other milestones in 2 short years: - 1.25M+ developers - 15...
Anthropic内部数据显示,AI模型可自主完成任务时长加速增长:Opus 3(2024年3月)约4分钟,Sonnet 3.7(2025年3月)约90分钟,Opus 4.6(2026年3月)12小时,翻倍周期从7个月缩至4个月。Claude Mythos Preview在METR中可连续工作至少16小时。工程师季度代码产出是2021–2025年均值8倍,Claude代码占代码库80%+,单个AI曾一次性修复800+API错误(相当于人力四年)。最难开放任务成功率6个月内从低点升至76%。Anthropic强调,即使模型能力冻结,100人公司通过智能体即可完成1000人工作;实际发展已超越自身指数假设,递归自我改进虽未实现,但可能比预期更快到来。
Holy moly, Anthropic is getting very serious about recursive self-improvement! One word: acceleration. Insane blog artic...
关联讨论 9 条X:Anthropic (@AnthropicAI)Anthropic:The Institute(旗舰研究长文 · 网页)X:Emad Mostaque (@EMostaque)Hacker News 热门(buzzing.cc 中文翻译)The Decoder:AI News(RSS)X:小互 (@xiaohu)X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)X:Rohan Paul (@rohanpaul_ai)前OpenAI技术主管Justin Lebar以访问学者身份加入SemiAnalysis,通过投入1万美元在3小时内进行编译器模糊测试(compiler fuzzing),发现了AMD GPU LLVM、x86 LLVM及NVPTX编译器中的数十个bug。该项目揭示了GPU vs CPU编译器测试的巨大差距,并展示了如何利用LLM阅读代码来发现漏洞。此外,UltraCode模式对代码审计效率影响显著。
OpenAI Codex 推出 Build iOS Apps 插件,让用户在不离开 Codex 的情况下查看、测试 iOS 应用,预览 SwiftUI 并热重载。原理:借助第三方 npm serve-sim 将 iOS Simulator 画面截取为视频流显示在浏览器中,同时建立控制通道将浏览器的点击、拖动等操作转换为模拟器触摸或键盘事件。插件读取 iOS App 的 Accessibility 信息,在浏览器画面上覆盖透明 HTML 按钮,使 Codex 能选择原生 UI 元素。SwiftUI 预览和热重载通过临时生成预览小 App,仅重新编译相关动态库,无需完整重装应用。
More of the iOS app loop, now inside Codex. The Build iOS Apps plugin lets Codex view and test your iOS app in the in-ap...
Sam Altman 表示 AI 预算正成“巨大问题”。OpenAI 顶级内部用户月耗约 100B 模型 token,而外部客户高达 603B。AI 智能体使成本恶化:agent 不止回答一次,而是规划、调用工具、读取文件、重试失败步骤、检查自身工作,产生大量隐藏 token 消耗。人类问一次,agent 可能一秒内问数百次。公司不再问 AI 是否令人印象深刻,而是问边际 token 是否产生边际价值。杰文斯悖论解释部分陷阱:每 token 成本下降,人们使用更多 token,总账单仍可能上升。
it's really inspiring to see the collective response of humanities professors on twitter whenever an academic says somet...
NVIDIA 今日发布 Nemotron 3 Ultra,重点优化低延迟智能体性能。在 Terminal-Bench v2.1 上,该模型与竞品在 4 个递增轮次限制下对比测试。Nemotron 3 Ultra 凭借高推理速度(基于 token 用量与 blackboxai 预部署测得的端点输出速度,以及工具执行实际耗时),在每个轮次限制下完成任务的速度均快于竞品,同时保持了有竞争力的基准分数,处于该评测性能-时间帕累托前沿的领先位置。
孙正义在6月1日CNBC专访中称,下一个万亿美元机会是Physical AI和机器人,AI革命规模将是互联网泡沫时代的50倍,是人类经历的最大技术变革。他预测未来十年AI将从屏幕走进现实,拥有身体并动手做事。当前AI仍停留在无身体层面(提示词、Agent编排、内容生成),真正决定生产力的是有身体的一层。该推文还提供了普通人认知与财富进阶地图。