AIHOT

全部动态X · 4027 条

全部一手资讯 X 论文

小互@xiaohu · 6月2日61

AI 在医疗应用中不再只是“看片子找病灶”，而是能替医生提前模拟“这个治疗方案，三个月后病人会怎样”。可以模拟多种治疗方案，直接告诉医生哪个最好。真实世界里根本不允许你多试几次，而这，恰好是世界模型最值钱的地方，AI提供多种决策模拟，由人类来进行最终决策。这个方向极具推广价值，比如可以应用到农业气候市场判断、城市规划设计、低空经济的线路策略设计，甚至各种真实世界的预测上。 Future Living Lab @FutureLab2025 分享的这个视角非常有洞见，他们长期专注把世界模型技术落地到高 stakes 真实场景。想持续看到这类前沿思考，强烈推荐关注！你觉得世界模型下一个会颠覆哪个行业？👇

译世界模型（World Model）在医疗领域实现突破，从传统的静态病灶识别转向动态预测模拟。医学世界模型（MeWM）能基于患者当前CT影像，模拟数月疾病进展，并合成治疗后的肿瘤轨迹视觉表征。在肝癌TACE等临床应用中，其通过反事实推理量化不同方案对生存率的影响，将临床决策成功率（F1-score）提升13%。这一“先模拟再行动”的范式正从医疗拓展至农业气候、城市规划等更多高风险领域。

查看原推 ↗

Berryxia.AI@berryxia · 6月2日55

Don哥又来做赛博菩萨了，直接将价值万元的内容生成工程系统免费开源。强烈建议大家安装学习，我已经安排AGENT去安装了。

译Don哥（@dontbesilent）将其宣称价值万元的“内容生成工程系统”完全免费开源。主推文作者Berry Xia建议大家安装学习，并表示已安排“AGENT”（指AI智能体）执行安装任务。推文内容侧重于推荐和行动呼吁，但未提供该开源项目的具体名称、技术细节、参数规模或性能基准。

查看原推 ↗

AYi@AYi_AInotes · 6月2日66

同样站在 2009 年那个路口，有人只看见一块显卡，有人看见了往后二十年整个计算的样子。那年 Nvidia 市值 40 亿，是 Intel 的零头，所有人都笑黄仁勋不过是个卖游戏配件的。那时候 Nvidia 市值 40 亿，Intel 1000 亿，差了 25 倍。他说了句在场没人当回事的话：PC 的杀手应用是 Word 和 Excel，所以串行架构的 CPU 是王者，但未来电脑要处理的不是打字和算数，是图像、3D 虚拟世界、艺术表达。这些东西全是并行任务，CPU 搞不定。 17 年后，Nvidia 5 万亿，Intel 五千多亿，25 倍的劣势，变成了接近 10 倍的反超。但我看了两遍才发现，这条视频最狠的不是老黄预测对了 AI，他 2009 年根本没提 AI。他预测对的是另一件事：异构计算的必然性。 CPU 管串行，GPU 管并行，两个都要，但 GPU 的相关性在上升，这个判断后来成了现代计算的铁律——手机 SoC、AI PC、数据中心，全是这个逻辑。而且他在 2005-2006 年就把 CUDA 押上去了，一个显卡公司搞通用计算平台，投资人觉得他疯了。打个比方，就像在一片荒地上挖了口井，当年所有人都在笑，自来水不香吗你挖什么井，但十几年后城市盖起来了，才发现只有你这口井挖到了最深的蓄水层——所有房子的水管都只能接你这一口。 CUDA 就是这口井，黄仁勋挖了二十年。他没去追 Intel 的赛道，默默在在修自己的路，从图形到科学计算到深度学习到生成式 AI 到物理世界模拟——每一步迁移，这条路都在变宽，十七年后，所有的车都拐上了他修的这条路。远见从来不稀缺，酒桌上人人都有。稀缺的是认准之后，肯花十年时间，把一句没人信的判断，亲手浇筑成一条别人绕不过去的护城河。今天这个路口也站满了人，有人在盯更强的模型，有人在看下一个计算平台长在哪。我们最该盯的其实不是市值曲线，应该是创始人嘴里那个词，黄仁勋在访谈里反复说 relevance——他不纠结谁更大，只纠结自己做的事跟未来还相关吗。我觉得这句话比任何技术判断都值钱。 2009 年人人都说 Nvidia 就是个做显卡的，跟今天有人说某家 AI 公司就是个做 XX 的一模一样。但真正的 alpha，永远藏在对工作负载演进方向的预判里。

译NVIDIA发布RTX Spark芯片，这是一款3nm制程SoC，集成ARM CPU、Blackwell GPU与128GB统一内存，号称可本地运行120B大模型并满帧运行3A游戏。此举被视为NVIDIA从图形计算到AI时代持续押注并行计算与异构计算路线的成果，凭借积累二十年的CUDA生态，直接挑战Intel、AMD主导的传统PC架构，标志着PC行业竞争转向AI算力与软件生态。文章同时指出，该芯片的ARM版Windows兼容性、散热与最终定价等问题，是后续需要观察的现实挑战。

查看原推 ↗

宝玉@dotey · 6月2日67

baoyu-image-gen Skill 支持 Codex-cli 作为 Provider 画图也就是说你可以在 Claude Code、hermes agent 之类的 Agent 里面用它调用 Codex 出图，而不需要用 Codex，当然前提是安装了 codex cli 并且有订阅。感谢网友的 PRs： https://github.com/JimLiu/baoyu-skills/pull/158 https://github.com/JimLiu/baoyu-skills/pull/161 Skill 地址：https://github.com/JimLiu/baoyu-skills/tree/main/skills/baoyu-image-gen

查看原推 ↗

AYi@AYi_AInotes · 6月2日60

大家都知道我是实用主义AI玩家，昨天发了这篇skills保姆教程和一些变现思路之后，后台不少宝子私信问我 AI 到底怎么变现，想要付费学习，这个话题很大，先分享一些我的思考，说到AI变现，其实我有发现一个规律，就是盯着用哪个工具、怎么接单的，基本都还在拿时间换钱。真正闷声发财赚到的那拨人，做的是另一件事，把自己脑子里那套方法论，结晶成一个能被 AI 反复调用的 skill。差别在哪呢，你接一单干一单，是用自己的时间精力换钱，人一停，钱就停，但如果是做成一个skills，喂给你的龙虾，Hermes，Claude code，Codex等agent，它们替你干活，你出去玩它还在接活交活，边际成本几乎是零。我自己这半年就在干这事，把写作、选题、提示词、封面配图这些套路，一个个都做成了 skill，然后训练我的Agent，现在很多活不是我在干，大部分都交给我那几个agent 了。而且把 AI 变现这四个字去掉，你会发现，这是我们所有想要做商业变现的人迟早要面对的事，过去你卖的是时间，一小时换一份钱，往后你卖的，是一个不用你在场也能干活的分身。当然也得泼盆冷水分享点正能量价值观，钱没那么好赚的，别整割韭菜骗人那一套，能结晶成 skill 的前提，是你手里真有一套被验证过的方法论，没有真东西，封装出来的只是空壳，AI 一眼就拆穿，用户也不傻，骗人的代价也很大，这个底层逻辑大家一定要明白。所以我理解AI 时代最值钱的，可能不再是你会用多少工具，而在于你能不能把自己最拿手的那点本事，封装成一个别人离不开的 skill，这是我希望大家要好好思考的。

译作者指出，当前许多人仍停留在用AI工具接单的“时间换钱”模式。真正的高价值路径是将个人验证过的方法论（如写作、选题、提示词等）封装成可被AI智能体（如Claude Code、Codex等）反复调用的“技能（Skill）”。这能实现边际成本近乎为零的被动收益，其本质是将自身技能转化为一个“分身”。作者强调，封装的前提是拥有真实、被验证过的方法论，而非空壳，并认为AI时代的核心竞争力在于能否将自己的核心技能封装成他人离不开的Skill。

查看原推 ↗

数字生命卡兹克@Khazix0918 · 6月2日84

http://x.com/i/article/2061667400723156992 # 为了不花那120刀，我把电脑清理软件做成了开源skill。这两天干了一个我觉得还挺有意思的事，虽然很小，但是我也想写下来，因为感觉它可以非常非常直观的让大家感受到。 Ai时代，Agent对于传统应用的冲击。故事是这样的。前天我在推上刷到了一条帖子，X上有位老哥分享了一条prompt。就这么一句话。 do a FULL read only analysis on my Macbook to help me optimize storage。大概意思是他让Codex对他的MacBook做一次全面的只读存储分析。然后他发现可以清出500G的空间，Codex还找到了一个116G大的codex-tui.log文件。。。正好我当时这台MacBook Air赔了我快2年的时间，装了一堆乱七八糟的东西，我就想着，要不要我给我的电脑也试试查一下，看看有没有啥可以删掉的垃圾文件。于是我当场就把原Prompt丢给我的Codex试了一下，然后加了一句用中文回答。而Codex，给出了这样的结果。先不说其他的，不扫我都不知道，我发现电脑上竟然有快100个G的B站视频？？？我都懵了。而且还藏在一个相当深的Containers目录下面。我去B站客户端里翻了一下，发现是我为了坐飞机上的时候有东西看，下载了一堆以为会看的动漫、纪录片还有乱七八糟的各种视频。然后每次在飞机上都直接昏睡过去，几乎没有真的看过。。。然后，他们就默默的留在了哪里，我甚至都忘了，我还有B站客户端这回事，更忘了，这里面还有我的缓存视频。。。然后是Chrome、开发、Claude环境balbalabla。 Codex最后给了一个判断，按这个清单清，保守能腾出120G，激进一点能到140G以上。我不知道大家，反正我自己是个强迫症，是个洁癖。就是我就喜欢电脑干干净净的，垃圾能删就删。而且在之前，Mac系统清理垃圾，是一件特别恶心的事情，我还记的我17年刚上班的时候，当时为了清理Mac的垃圾，找到了一个软件，叫ClaeanMyMac。这玩意不是免费用的，正版一年近40刀，一次买断要120刀。当时刚毕业你让我买这个，我真的是掏不起，然后就满大街的搜破解版，然后功能又不全。可以说，到了今天，清理Mac的垃圾，都没有一个很好用的产品。 Windows生态也差不多，有多少装安全管家或者360，其实就是为了清垃圾的，可以举个手。。。但是现在，好像，Agent就能直接干了啊。本身你直接清理电脑垃圾也就是包装了一层UI，然后对我电脑底层进行扫描和操作，那我让Agent直接操作，岂不是更牛逼一点？说干就干。不过原版prompt其实有个问题，它只是一个比较专业一点的只读文档，然后给你列了一个占用清单，又给了一些不太清楚的清理建议。对没太熟悉系统的朋友，看完整份报告，其实还是会不太敢动手。哪些能放心清，哪些得自己看一眼再判断一下，哪些绝对千万别碰，这些判断它没有帮你直观清晰地列出来。而且他也没法帮你删东西。所以我想，要不然，圆一下我9年轻的梦，直接干脆自己搓一个skill，来解决清理电脑垃圾的需求？说干就干，大概烧了一些Token之后，这个清理垃圾.skill，就顺利面试了，而且，Mac和Windows都能用。同样，老规矩，也已经开源在我自己GitHub上的skills仓库了。 https://github.com/KKKKhazix/khazix-skills 我在我的MacBook Air上跑了一下，给大家看一下效果比如说一句帮我看看存储，它就可以自动触发了。它会先找你要权限，然后扫描你电脑上面的文件，然后直接在浏览器里打开一份可交互的HTML报告，帮助你可以化的了解，同时，你也可以直接在网页上点按钮清理。就这么简单，但是究极实用，而且效果甚至比收费的专业清理软件效果还要好。。。而且速度也不错，几分钟就跑完了。最终的网页是这样的。第一部分是磁盘总览。总容量多少，用了多少，还剩多少，可以通过一条彩色进度条方便直观看到。同时因为后续要给出清理命令，所以他会去扫描你电脑的系统环境。接着是占用排行Top 5。和上面prompt分析的结果一样，B站离线下载缓存96.7个G排第一，然后Google Chrome应用数据等等等等。每一项都有颜色标签、类型、完整路径和一句话说明。再往下是执行建议，帮你排好了清理的优先级。性价比最高的是去B站客户端清看完的离线视频。然后跑绿灯纯缓存命令，合计约27个G。这里虽然给了清理执行建议，但是你可能还不知道要怎么去清理。这就是随后的三色分级详情区用来做的事情，也是整个skill最核心的部分。 🟢 绿灯，可以放心让agent帮你清理。这类东西寄都全是纯缓存、临时文件、安装包残留，垃圾大户，不影响任何功能。每项都可以展开。展开之后路径、清理前要不要关进程、清理命令全列好了，每条命令旁边有复制按钮，你想去复制自己运行的，你也可以自己去运行着玩。但是我们也贴心的在下面也设计了两个操作按钮，移到废纸篓和直接删除。无论你点哪一个键，它都会有一个弹窗跟你进行二次确认。移到废纸篓是可逆的，删错了能捞回来。直接删除立即释放空间但不可恢复。你就自己选择就行。比如我这里点移到废纸篓，然后点确定。这几个安装包就会被移到我的废纸篓里面去了。然后这一项在网页上，也会实时更新，被标记为已清理。如果不想逐项清理的话，你也可以直接点击右上角，一键把这些绿灯文件移到废纸篓，或者是一键删除。 🟡 黄灯文件，是我们建议你自己看一眼再决定的。这类东西需要人去把关，比如B站缓存的视频、下载文件夹里的安装包、某个项目文件夹。 agent会告诉你它是什么、为什么建议你看一眼、删了有什么影响，最终你自己拿主意。黄灯项不会给你直接删除的按钮，只给在访达中打开让你自己去看，你确定了以后手动去删。有安全子路径的会额外给一个移到废纸篓，但也只是移到废纸篓，可逆的。比如这里没有用的B站视频，它会建议我去b站应用里面删视频。当然，你也可以快捷打开访达（就是Mac的文件夹），直接跳到那个地方，然后手动山东。也提供了一个移到废纸篓选项，这里的仅安全部分，它也会解释是经过核实过可安全清理的子目录。因为这个文件夹下面除了视频，还保留了我的登录派和设置，所以是不能完全删除的。点这个键，它会只删除视频，而保留我的B站登录态和设置，这也是我们的一些小小体验设计。 🔴 红灯里就是一些比较重要的文件。比如系统文件、正在使用的应用核心数据、sleepimage这些，agent会解释为什么不能动，然后跳过清理。如果你非要清理的话，那他也给你提供了一键在访达中访问的按钮，点一下就能找到这个应用了。最后是长期优化建议，这里面的一些建议，我觉得还是值得一看的。整个skill全程只读，扫描阶段禁止任何写操作。只有你在报告页面上主动点了删除之类按钮，浏览器弹出确认框，你再点一次确认，才会真正执行清理操作。我自己一直的原则是，对待AI，还是需要谨慎一点，稍微花点时间确认一下，虽然现在在代码层面，这种小东西幻觉率已经极低了，但还是防一手。给大家看看我清完之后的内存。直接清理掉了了快120个G。。。就像我前面说过的，这个skill它是不挑电脑环境，也不挑你的Agent工具。所以我也拿同事的Windows电脑的Codex试了一下。给大家放一下效果。欢迎大家试试，如果跑出来了什么有意思的发现，也欢迎来评论区分享，我很好奇大家的电脑里有没有像我一样藏了些奇奇怪怪的东西。也再次提醒一下大家，删东西一定要慎重慎重再慎重。当然我知道，肯定很多人也好奇，这种Agent+skill的方式来清垃圾，跟之前的专业清理软件比，效果到底怎么样。所以呢，为了方便对比，在用这个skill清理内存前，一开始我就专门在我的MacBook Air上同样拿CleanMyMac扫了一遍。跑了快半小时才出结果，扫出了15.8G的垃圾可清理。点进垃圾清理是这样的。左边把垃圾分成了几个大类，系统垃圾里面也给你分好了文件的种类。但是这些信息并不足够让我做决定。比如这个Google Chrome 3.8G的文件夹，他告诉我，这是用户缓存文件，属于系统垃圾，可以删。但是我其实并不知道这个文件里面到底是什么内容。这3.8个G里有多少是Service Worker离线缓存，扩展数据，或者IndexedDB，清完之后哪些网站要重新登录、哪些离线功能会失效。我全都不知道。那作为一个普通用户，我只能单凭他说的用户缓存文件，相信他，让他删了。而且他只能扫描到传统意义上的垃圾文件，扫不到我瞎下的b站视频，因为他不能像agent一样去读到每个文件的内容。相比起来，Agent给的信息比CleanMyMac细多了，也透明多了，每一项都有具体路径、具体大小、具体说明，告诉你这个文件夹是干嘛的、删了会怎样、建议你怎么操作。这个能力，现在一个skill就能做到了。而且做得更透明、更灵活、可以根据你的具体情况定制。在我的skill之上，进一步，你想让他找哪种想清理的文件都可以大白话跟他说，CleanMyMac做不到这种程度的个性化，因为它是一个写死了规则的软件，而Agent能理解你的各种奇奇怪怪的需求。我不是说CleanMyMac不好。但其实你可以发现，这类工具型软件，在Agent时代，确实正在遭受冲击。我之前写过一篇文章叫AI正在吞噬所有软件，里面有一个判断，软件正在从资产变成耗材。还有，软件的本质就是人和机器之间的翻译层，而Agent正在填平这道鸿沟。两个月，这个清垃圾的小skill，其实就可以验证了。我自己的电脑里，在很久很久以前，其实还装过很多工具类的软件。解压缩的、PDF编辑的、图片格式转换的、文件重命名的、重复文件查找的…… 这些软件的共同点是它们都在执行一个相对明确的、规则可定义的任务。而这恰恰是Agent最擅长的事。所以那些曾经靠一个明确功能养活团队的软件公司，它们面对的竞争对手已经不是另一家软件公司了，而是用户手里的一条prompt，是Agent的一个skill。这个skill今天能清垃圾，明天能做什么，那谁知道呢。反正我挺期待的。这个有趣的未来。

译作者受一条推文启发，使用Codex对自己的MacBook进行了只读存储分析，发现了B站缓存视频等大量可清理空间（激进方案超140G）。为替代收费软件CleanMyMac，作者制作并开源了一个跨平台（支持Mac/Windows）的AI清理skill。该skill会扫描文件并生成可交互的HTML报告，通过三色分级（绿灯可放心清理、黄灯需人工判断、红灯禁止动）直观展示，并提供安全执行按钮。实测清理后释放了近120G空间，相比CleanMyMac仅扫描出的15.8G，其信息更透明、建议更详细。

查看原推 ↗

Yuchen Jin@Yuchenj_UW · 6月2日12

Came home to a surprise gift box from Anthropic on my doorstep. What’s cooler than vibe-coding software? Vibe-coding hardware! I can probably vibe code this mini-computer into a remote control for my Claude Code session. Thanks @bcherny for sending it over!

译回家发现门口放着一个来自 Anthropic 的惊喜礼物盒。比 vibe-coding 软件更酷的是什么？Vibe-coding 硬件！我大概能把这台迷你电脑 vibe code 成 Claude Code 会话的遥控器。感谢 @bcherny 寄来！

查看原推 ↗

Tibo@thsottiaux · 6月2日27

You can just codex ... a farm https://chatgptpro.substack.com/p/hiroki-tomiyasu

译你只需用 Codex 就能……生成一个农场 https://chatgptpro.substack.com/p/hiroki-tomiyasu

查看原推 ↗

swyx@swyx · 6月2日59

title undersells it - this @workos talk is doing v well and is the first to seriously challenge @mattpocockuk in weeks. team is ab testing

译标题低估了它——这个WorkOS的演讲表现很好，是几周来第一个真正挑战@mattpocockuk的。团队正在进行A/B测试。

查看原推 ↗

AYi@AYi_AInotes · 6月2日63

这条不限学生，做项目的都能薅，可能是门槛最低的一个🤩 Microsoft for Startups Founders Hub：自助申请就有 $1000 起的 Azure 云额度（含 Azure OpenAI 服务），有点进展能一路爬到 $25k，顶档最高 $150k。最香的是—— 不需要 VC、不需要进孵化器，你手上有个在做的项目，就能自己去申请。还白送 GitHub Enterprise、Microsoft 365、LinkedIn Premium。入口：搜 Microsoft for Startups Founders Hub （$150k 顶档要 Series A+，但 $1k–$25k 这档真的好拿）

译Microsoft for Startups Founders Hub 提供最高 $150k 的 Azure 云额度（含 Azure OpenAI 服务）。自助申请可获 $1000 起，随项目进展可升至 $25k，顶档 $150k 需 Series A+。其最大优势是门槛极低，无需风投或孵化器背景，在进行中的项目即可申请，并赠送 GitHub Enterprise、Microsoft 365 等权益。该福利近期更新后，与面向学生的、总价值 $3500+ 的 GitHub 学生大礼包形成对比，后者为学生提供 GitHub Copilot Pro、JetBrains 全家桶等 50 多种工具的免费/折扣权益，同样零门槛。

查看原推 ↗

Berryxia.AI@berryxia · 6月2日49

有朋友问我这个翻译工具是什么？日常使用的翻译相关软件Memo和沉浸式翻译高频使用的。这里我使用的主要是 Memo 软件，它是一个免费开源的剪辑转录翻译一体软件，功能非常强大。目前我日常主要在两个场景中使用转录+剪辑+翻译工具： 1. Memo 软件 (a) 场景：主要用于处理下载到本地的视频。 (b) 流程：这软件可以下载了 Whisper 的本地大模型，下载完视频后先进行转录，不再烧Token。 (c) 翻译：虽然也可以用本地模型翻译，但速度和效果可能没有 API 快，所以我接入了 DeepSeek-V4 -Flash 来进行翻译，价格便宜又好用。 (d) 体验：Memo就可以完成烧录字幕，编辑，导出整个片子的剪辑其实都挺快的，但在 X 上发布时速度贼慢，搞了一整晚才上传完毕。 2. 沉浸式翻译 (a) 场景：主要用于网页、YouTube 视频以及一些图书的翻译。 (b) 优点：它能保持比较不错的格式，方便后面做分享。我觉得这两个工具都挺好的，自由度比较高。你可以接入自己订阅的 API 模型，自由切换，非常方便。此外，Memo的这个时间戳总结关键内容的功能还挺不错的。

译用户日常使用Memo和沉浸式翻译两款工具。Memo用于本地视频处理，先调用Whisper本地模型转录，再接入DeepSeek-V4-Flash进行翻译，最后在软件内完成字幕烧录与编辑导出。对于网页和在线视频，则使用沉浸式翻译，因其能较好保持原文格式。用户强调这两个工具自由度高，允许接入并自由切换不同的API模型。

查看原推 ↗

jason@jxnlco · 6月2日17

First time reading something that’s not the codex app or Slack

译第一次读到不是 Codex 应用或 Slack 的内容。

查看原推 ↗

Berryxia.AI@berryxia · 6月2日63

这种不要说磨了30遍，主要是真的非常费人且费Token。黄总这个研究也算是把这套Claude Workflow 底层核心的设计研究的七七八八了，对于自己想做一些项目中可以引入和学习。反正我不会，AI会就行了。反正我不学，AI学就行了。 😁

译该推文拆解了Claude Code的工作流。它是一个能后台运行、可监控的任务系统，包含三个核心角色：Claude负责拆解任务与规划，Runtime负责调度管理状态，每个AI智能体（agent）仅处理一个子任务，并通过并发池与队列推进。系统关键设计是“状态外置”，即中间结果由执行系统保存，主上下文只读取摘要，从而使其能扩展至大量智能体。推文认为这种智能规划、Runtime执行、状态独立、模型按需调度的模式，代表了一种新的工程编排方式，并可将其工作流转换为自有系统的可执行格式。

查看原推 ↗

Berryxia.AI@berryxia · 6月2日32

今晚8点，可以去蹲宝玉老师的直播。直接手把手教学了，这种书实用性直接拉满。

译图灵社区将于北京时间今晚20:00举办一场关于Agent Skills的公开课。分享者为@dotey，内容包括其制作Skill的实操经验与心得体会，并介绍其新书《图解Skill: AI提效实战指南》。主推文指出这场直播将直接进行教学，书籍的实用性很高。

查看原推 ↗

Berryxia.AI@berryxia · 6月2日65

有朋友问我这个翻译工具是什么。我用的视频翻译工具主要是 Memo 软件，它是一个免费开源的软件，功能非常强大。目前我日常主要在两个场景中使用转录+剪辑+翻译工具： 1. Memo 软件 (a) 场景：主要用于处理下载到本地的视频。 (b) 流程：这软件可以下载了 Whisper 的本地大模型，下载完视频后先进行转录，不再烧Token。 (c) 翻译：虽然也可以用本地模型翻译，但速度和效果可能没有 API 快，所以我接入了 DeepSeek-V4 -Flash 来进行翻译，价格便宜又好用。 (d) 体验：Memo就可以完成烧录字幕，编辑，导出整个片子的剪辑其实都挺快的，但在 X 上发布时速度贼慢，搞了一整晚才上传完毕。 2. 沉浸式翻译 (a) 场景：主要用于网页、YouTube 视频以及一些图书的翻译。 (b) 优点：它能保持比较不错的格式，方便后面做分享。我觉得这两个工具都挺好的，自由度比较高。你可以接入自己订阅的 API 模型，自由切换，非常方便。此外，Memo的这个时间戳总结关键内容的功能还挺不错的。

译推文分享作者日常使用的两个AI翻译工具及工作流。1. Memo软件（免费开源）：用于处理本地视频。流程为下载视频后，使用Whisper本地模型进行转录以节省成本，再接入DeepSeek-V4-Flash API进行翻译。该软件支持字幕烧录、编辑和导出，但在X平台上传速度慢。2. 沉浸式翻译：主要用于网页、YouTube视频及图书翻译，优点是格式保持较好。两者均支持接入用户自定义的API模型。

查看原推 ↗

meng shao@shao__meng · 6月2日54

$10K Cursor Credits 到期了，很想念它 😄 5月放开用 Cursor，差不多用了 $2K，大致整理了 Cursor 使用体验： · 100% 时间都在用 Agent Windows，传统 IDE 界面没打开过 · 多模型切换用的很少，有🪜时用 GPT-5.5 多，没🪜时用 Composer 2.5 多，Composer 2.5 Fast 模式确实块，而且它很喜欢输出 Diagram 流程图 · Context 使用明细确实方便 · Cursor 的 Agent 输出界面默认不是 Markdown，也不支持拷贝为 Markdown，这一点有点不方便，我基本都要指定它输出到 Markdown 文件中 · Agent 界面右侧的扩展窗口比较好用，Terminal、Browser、File 和 Canvas 都有各自用处最后的最后，还有一个小惊喜，5月份除了送 $10K Credits，还送了两个月 Ultra 订阅吗？

译用户邵猛在获得 Cursor 团队赠送的 $10K 额度及两个月 Ultra 订阅后，实际使用了约 $2 千美元。其使用体验显示，100% 的时间都在使用 Agent Windows 模式，很少进行多模型切换。模型选择上，有外网访问时偏好 GPT-5.5，否则常用 Composer 2.5，因其 Fast 模式速度快且喜欢输出 Diagram 流程图。优点在于 Context 使用明细清晰，但 Agent 输出界面默认非 Markdown 且不支持拷贝为 Markdown。此外，Agent 界面右侧的扩展窗口（Terminal、Browser、File、Canvas）被认为比较实用。

查看原推 ↗

SemiAnalysis@SemiAnalysis_ · 6月2日66

Your RL training efficiency is only as good as your sandbox infra. Check out what Modal does to keep your rollouts rolling!

译你的强化学习训练效率取决于沙盒基础设施。来看看 Modal 如何让你的 rollout 持续运行！

查看原推 ↗

Jeff Dean@JeffDean · 6月2日31

Thanks for a great @twominutepapers conversation, Károly!

译感谢与 @twominutepapers 的精彩对话，Károly！

查看原推 ↗

meng shao@shao__meng · 6月2日64

Lee Robinson 分享了四条「Agent 友好型代码库」原则：把信息放进代码、让 Agent 能自检、能查文档、能自动化巡检一、源码必须是真相，或有一条 Agent 能走通的路径内容要么在代码里，要么通过 MCP / CLI / Skill 让 Agent 能读到。 @leerob 用 Cursor 官网从 CMS 迁回 Markdown + 代码的案例说明——问题不是 CMS 本身，而是抽象层在 Agent 时代成本极高。官网迁回后的好处： · 统一用 Git · PR 链接即可分享 · 源码 + 编译/AI 翻译 · 对象存储 + 自研小工具 · 内容直接可见、可改实践含义：若保留 CMS / 数据库 / 配置中心，必须为 Agent 补一条可编程访问路径（MCP 读内容、CLI 导出、Skill 描述工作流），否则 Agent 只能猜，或依赖你口述。二、Agent 必须能验证自己的工作类型系统、快而好的测试、配置完善的 Linter。 Agent 会犯错；没有反馈闭环，错误只能等人眼发现。验证机制是 Agent 的感官系统： · 类型：编译期约束，减少「看起来对、跑起来错」 · 测试：可执行的规格说明；快 = Agent 能频繁试、频繁改 · Linter：风格与常见错误的自动守门员三点都指向同一目标——让机器能独立判断「改对了没有」。Lee 在 CMS 迁移里用 @ browser 截图对比本地与生产，也是同一思路：用可观测结果验证，而非凭感觉。实践含义：若测试慢、 flaky、或无类型，Agent 的迭代会停在「 plausible 但未经检验」；投资验证基础设施，等于投资 Agent 产能。三、精简有效的 AGENTS.md 每轮对话都带上；写该写的，别写模型已知的常识。 AGENTS.md 是人类给 Agent 的压缩上下文，不是百科全书。模型已具备通用知识（测试常在 tests/、用 npm test 等），重复只会占 token、稀释重点。更值得写的是： · 项目特有的架构决策、命名约定、禁区 · 「非显而易见」的入口（例如内容其实在某 CMS，需用某 CLI） · 提交/部署/分支策略等团队规则 Lee 还强调：用 Agent 在仓库里找东西，看能否按预期找到；若 Agent 总找不到 utils/helpers/misc.ts 这类路径，说明命名/结构需要为人和 Agent 共同 refactor。好 AGENTS.md 像入职第一天老员工口头交代的那几件事，不是 README 复读。定期让 Agent 做「找 X、改 Y」的探路，是检验文档是否有效的低成本方法。四、自动化：让代码库在后台自我改进自动 refactor 建议、安全扫描、可选的持续文档化——「睡着也在变好的代码库」。 Cursor 安全 Agent 博客给出了可落地的形态： · Agentic Security Review：PR 级安全审查，可阻断 CI · Vuln Hunter：扫存量代码漏洞 · Anybump：依赖漏洞自动打补丁 + 跑测试 + 开 PR · Invariant Sentinel：每日检查安全/合规不变量是否漂移共同架构：Webhook / PR 事件触发 → Cloud Agent + MCP 存状态、去重、统一输出 → Slack / PR 评论闭环。这不是替代人工 Code Review，而是在 PR 量放大 5x 时补 coverage 和 consistency。静态分析 + CODEOWNERS 仍有用，但挡不住规模；Agent 自动化适合重复、有规则、可验证的任务（安全、依赖、文档漂移）。实践含义：从一条自动化开始（例如 PR 安全评论），验证噪音/召回后再加阻断、再扩到存量扫描；和第三条一样，验证机制越成熟，自动化越敢放权。总结：四条原则的关系 1 可读的真相源 -> Agent 能读能改 -> 2 可验证 -> Agent 能自检 -> 3 AGENTS.md 补缺口 -> 4 自动化放大 -> 代码库持续变好 · 可读真相 — Agent 有材料可工作 · 可验证 — Agent 有标准判对错 · AGENTS.md — 补代码里写不下的上下文 · 自动化 — 把 1–3 固化成 24/7 流程 Lee 的 CMS 迁移（$260、344 次 Agent 请求、3 天完成）说明：在 Agent 时代，删复杂度、把信息拉回代码，ROI 可以量化。四条原则本质是同一策略——降低 Agent 的认知与验证成本，把 token 和人力花在产品价值上，而不是和抽象层搏斗。

译Lee Robinson 分享了四条构建适合AI智能体的代码库的原则：1. 源码应为真相或提供可读路径（如将内容从CMS迁移回代码）；2. 智能体需能通过类型系统、测试和Linter验证工作；3. 维护精简有效的AGENTS.md文件，提供项目特有上下文；4. 设置自动化流程（如安全扫描）持续改进。他以Cursor官网迁移为例，该过程耗时3天，消耗344次Agent请求，花费$260，证明降低抽象层成本能带来可量化的投资回报。

查看原推 ↗

meng shao@shao__meng · 6月2日78

Claude Code 核心开发者 @trq212 分享了一段高价值「人机结对编程中的 “理解验证” 工作流」通过这份工作流 Skill，让 Coding Agent 结束工作时，人类对问题、方案和影响都有可复述、可辩护的掌握，一起拆解看看。 https://gist.github.com/ThariqS/1389dcdff9eba4789887a2211370f06b 核心定位：AI 扮演「高效且睿智的教师」成功标准不只是「任务完成」，更要看人类是否真正理解整场会话，与常见 agent 模式的差异： · 每步增量教学，过关才进入下一阶段 · 先让用户复述，再补缺口 · 清单 + 测验 + 演示理解才算结束三条理解轴（清单应覆盖） 1. 问题域 · 是什么问题 · 为何会出现（根因、历史、分支路径） · 曾有哪些取舍路线 2. 方案域 · 做了什么、为何这样解 · 设计决策与 trade-off · 边界情况与失败模式 3. 语境域 · 改动在系统/业务里意味着什么 · 会影响谁、什么流程、什么风险反复追问 why → 更深层的 why，同时覆盖 what / how。强调：问题理解不到位，方案理解往往是假的。操作流程（可执行的节拍） 1. 做完一小步只推进一个可验收的小单元（例如：定位根因、选定方案、改一处逻辑），不要一口气跨多个阶段。 2. 先让用户复述在进入下一步之前，请用户用自己的话说明：这一步在解决什么、为什么这样做、还有什么不确定。这是诊断，不是考试前的泄题。 3. 按缺口补课根据复述找空洞：补动机、补业务逻辑、补边界与分支；可按需要切换抽象层级（例如 ELI5 / ELI14 /「像实习生那样讲」）。 4. 小范围验证用开放题或多选题检查是否真懂；若用选择题，打乱正确选项顺序，且在用户提交答案之前不公布对错。 5. 过关才前进同一阶段需在高层（为何要做）和低层（怎么做、边界在哪）都确认后，才进入下一阶段。 6. 同步更新清单在 running 的 Markdown 里勾选或补充：问题 / 方案 / 语境三个维度下，用户应掌握的具体条目。 7. 必要时绑到真实材料理解若依赖实现细节，贴相关代码片段，或一起用调试器走一遍，避免「听懂了但对着 diff 仍说不清」。 8. 收工条件会话结束前，清单上的每一项都需用户表现出已掌握（能复述、能答题、能解释 trade-off），而不是由 agent 单方面总结一句「你应该懂了」。设计意图（为啥在 Anthropic 内部被推崇） · 对抗「智能体黑箱」：长会话里人类容易变成审批按钮；增量确认把认知负荷摊到全程。 · 把 tacit knowledge 外显化：分支、否决方案、边缘 case 往往只存在于 agent 上下文里，清单强制沉淀。 · 可审计的学习：对团队负责人或后来的自己，「当时为什么这么改」有迹可循。 · 与产品风险对齐：懂 impact 才谈得上 responsible shipping，而不只是 merge。实操要点（落地时注意） · 清单是活文档：随会话演进增删项，不是一次性大纲。 · 测验要变式：避免背答案；多选题需轮换正确选项位置。 · 层级要交替：同一主题在动机 <-> 实现 <-> 边界之间切换，防止只会背概念或只会跟 diff。 · 会话可拉长：这是刻意的——深度理解优先于速度。

译Anthropic 核心开发者分享了一套用于 Claude Code 的「理解验证」工作流。该工作流将 AI 定位为“高效且睿智的教师”，成功标准不仅是完成任务，更是确保人类对问题、方案及影响有可复述、可辩护的掌握。它通过增量教学、用户复述、清单+测验等方式，围绕问题域、方案域和语境域三条轴线展开，具体包含8个可执行步骤，强调在进入下一阶段前需确认用户已真正理解。此工作流旨在对抗长会话中人类易沦为“审批按钮”的“智能体黑箱”问题，强制沉淀决策上下文，实现可审计的深度理解。

查看原推 ↗

OpenAI Developers@OpenAIDevs · 6月2日35

Customer call today. New product workflow tomorrow. Proaction is a 5-person team building fleet management software with Codex across sales demos, support follow-ups, marketing assets, and engineering work.

译今天与客户通话。明天开始新的产品工作流程。 Proaction是一个5人团队，他们使用Codex构建车队管理软件，涵盖销售演示、客户支持跟进、营销资产和工程工作。

查看原推 ↗

凡人小北@frxiaobei · 6月2日67

Codex 正在变成 Agent 的默认 Runtime。 codex 其实还同时有 typescript sdk。如果你要搭建一个 agent，技术栈可以是： typescript + codex + cc-switch

查看原推 ↗

meng shao@shao__meng · 6月2日60

吴恩达老师谈「AI FDE」和「AI Engineer」 AI 在创造新岗位，但长期岗位规模上，企业内部的 AI Engineer 会远大于厂商派驻的 Forward Deployed Engineer (FDE)；眼下最有价值的是能搭应用、会用 AI 编程工具的通才型 AI 工程师。回顾一下 AI FDE：驻场 + 深度集成 + 强交付 · 约 20 年前由 Palantir 开创：工程师进驻客户现场（如政府、隔离网环境）做深度交付 · OpenAI、Anthropic 等组建 AI FDE 团队，把工程师嵌入客户组织 · 把通用 LLM 改造成贴合业务的定制化智能体工作流（搭建、调优、落地） · 技术 + 沟通 + 有时还需商业判断：挖需求、排优先级、讲清技术、合理 push back 和「AI Engineer」的数量关系：吴老师的判断吴老师明确反对把 FDE 当成 AI 时代的主航道职业： 1. 企业更愿意养自己的兵可能接受少量外部 FDE，但更希望大量自有员工做 AI 项目——他自己的组织也是「招 FDE，但招远更多 AI Engineer」。 2. 厂商绑定 vs 选择权（optionality） · FDE 往往深度集成某一厂商产品，客户担心供应商锁定 · 在「一年后哪家 AI 服务最好还说不清」的阶段，保持技术/vendor 可选性比快速深度绑定更值钱 · 让 FDE 把流程绑死在一家厂商上，会显著削弱未来换栈空间结论：FDE 是重要但相对小众的交付形态；AI Engineer 才是更大、更稳的就业池。当下真正抢手的是什么人？吴老师观察到需求集中在 AI Engineer，尤其是能： · 用 LLM 能力做软件应用（prompt、智能体框架、evals 等） · 高效使用 AI Coding Agent（Claude Code、Codex、Antigravity CLI、OpenCode 等）这是「用 AI 组件写产品」的工程师，不一定非要驻场，也不一定代表某一家模型公司。职业演化：会像传统 Software Engineer 一样分化他认为 AI Engineer 会像几十年前的「软件工程师」一样从通才裂成专才，可能包括（他也在猜测）： · AI FDE（厂商侧或咨询侧驻场型） · LLMOps Engineer · Evals Engineer · AI Data Engineer · Harness Engineer（智能体/评测 harness） · 以及尚未命名的角色现阶段：通才型、技能全面的 AI Engineer 仍能创造很大价值——专业化是十年量级的趋势，不是今天的入场门槛。对「AI 砸就业」叙事的态度他用 FDE 复兴举例：AI 在创造新工种（FDE、AI Engineer 及未来专才），因此「工作末日 / jobocalypse」叙事过于简单。更准确的说法是：岗位结构在变，总量与类型会重组，而不是单向消灭。

译吴恩达对比了AI Forward Deployed Engineer (FDE)和AI Engineer两种岗位。他指出，FDE由厂商派驻客户现场进行深度集成，但企业更倾向于培养大量自有AI工程师。他判断，AI Engineer岗位数量将远多于FDE，因为客户担心供应商锁定，在AI技术快速演进时更需要保持技术选型灵活性。当下最有价值的是能使用Claude Code、Codex等AI编程工具构建应用的通才型AI工程师。未来该角色可能像传统软件工程师一样，分化出LLMOps、Evals等专才，但现阶段综合型人才价值依然很大。

查看原推 ↗

Rohan Paul@rohanpaul_ai · 6月2日75

🎯 Andrej Karpathy on how to learn.

译🎯 Andrej Karpathy 谈如何学习。

查看原推 ↗

ginobefun@hongming731 · 6月2日71

http://x.com/i/article/2061582822029283328 # BestBlogs 早报 · 06-02｜MiniMax M3、AI Coding 规范、视频 Agent 在线阅读和收听：https://www.bestblogs.dev/explore/brief/2026-06-02 ## 导语 AI 能力边界在这个夏天被连续刷新。今天的早报围绕三条主线展开：MiniMax M3 作为国内首个集前沿 Coding、1M 超长上下文与原生多模态于一体的开源模型正式亮相，24 小时自主完成 CUDA 算子优化的实测让 benchmark 数字有了具体重量；Chromium 3500 万行代码库的 AI Coding 规范体系，展示了工程团队如何把 AI 工具真正制度化；xAI 的 Ethan He 则给出一个更深的判断——视频模型的智能上限跟着 LLM 走，下一个前沿不是更好的视频，而是视频 Agent。速览部分覆盖了语音智能体工程化实践、AI Friendly 架构设计、英伟达 Agent 工厂全栈发布、RAG 工程化认知纠偏、Rippling 生产级多智能体落地，以及吴恩达对 AI 工程师角色演化的判断，还有 MiniMax 自身作为 AI Native 公司的组织实践分享。 ## 精讲一：MiniMax M3：前沿 Coding 能力、1M 上下文、原生多模态，一个模型全给你 MiniMax M3 于今日正式发布，是目前国内第一个同时具备前沿 Coding 能力、1M 超长上下文与原生多模态的开源模型。三项能力的意义在此之前，这三项能力是海外闭源前沿模型（如 GPT-5.5、Gemini 3.1 Pro、Claude Opus）的专属标配。M3 是国内首个将这三者同时开源的模型，也是目前全球唯一的开源实现。 Coding 能力方面，M3 在 SWE-Bench Pro 上得分 59.0%，超过 GPT-5.5 和 Gemini 3.1 Pro，接近 Opus 4.7；在面向自主 Agent 的端到端评测框架 Claw-Eval 上取得最高分。值得关注的不只是数字本身，而是 M3 背后训练方式的转变：团队构建了交互式用户模拟器框架，让模型在训练阶段就接触到需求澄清、方案讨论、多轮迭代等真实开发场景，而非单轮任务假设。 MSA：把长上下文真正变成可 Scale 的维度 1M 上下文并非只是参数设置——它需要底层注意力机制的彻底重构。M3 自研的 MSA（MiniMax Sparse Attention）是一种全新稀疏注意力架构，通过精确的 KV 分块和 KV outer gather Q 算子优化，在 100 万上下文下每 token 计算量仅为上代模型的 1/20，prefill 阶段加速 9 倍，decoding 阶段加速超过 15 倍。与全注意力相比，MSA 在多个对照实验中能力基本打平，却拥有硬件友好、易实现、真正可 scale 的特点。两个让人印象深刻的实测 CUDA 算子优化：给 M3 一份任务描述、一个 benchmark 脚本、一个不能直接运行的 Triton 骨架，没有任何参考实现，要求在 NVIDIA Hopper 架构 GPU 上优化 FP8 GEMM kernel。在约 24 小时的连续执行中，M3 完成了 147 次 benchmark 提交、1959 次工具调用，将 Hopper FP8 硬件峰值利用率从 7.6% 推进至 71.3%，实现 9.4× 加速。最优解出现在第 145 次提交——在多个性能平台期后模型仍未放弃，这种长程自主迭代能力是最直接的实证。让 M3 「训」模型：给 M3 四个仅完成预训练的 Base 模型，在 12 小时内自主完成数据合成、训练、评测、迭代全流程，目标是让这些模型在数学推理、工具调用、代码生成等任务上具备基本能力。任务开放度远高于 CUDA 优化——没有明确的反馈结构，M3 需要自主判断研究方向。最终结果显示，M3 在 PostTrainBench 的表现显著优于对比模型，验证了其在开放研究任务中的长程规划能力。原生多模态：从 Step 0 开始的混合训练 M3 从训练第一步就采用多模态混合训练，而非事后拼接。团队发现 Interleaved data（交错数据）对模型性能的提升远比通常认为的更关键，在数据管线重构后，训练数据 Token 规模已可提升至 100 万亿量级。在论文复现实测中，M3 通过多模态能力读懂论文图表、通过长上下文将论文+代码+实验日志一次性进窗口、通过编程+Agent 能力长线程完成复现——三项能力协同，体现了原生多模态路线的价值。为什么值得关注 M3 的意义不只是 benchmark 上的数字超越，而是三项能力的同时开源——这意味着研究者和开发者现在可以基于一个真正具备长上下文、强 Coding、原生多模态的开源基座来构建应用。在 API 成本、可定制性、数据隐私等方面，开源的 M3 为从业者提供了此前不存在的选择。延伸阅读：配合今天速览中的「MiniMax 的 AI Native 组织进化实践」，可以看到 M3 背后这家公司是如何从第一天就把 AI 作为组织运转基础来设计的。 ## 精讲二：深入解析 Chromium 的 AI Coding 开发体系 Chromium 的 AI Coding 开发体系这篇文章来自 QQ 浏览器团队，对 Chromium（3500 万行代码）的 agents/ 目录做了深度解析，呈现了目前见到的最完整的大型工程团队 AI Coding 规范实践。为什么 Chromium 的经验值得认真对待 3500 万行 C++ 代码库、全球数千名贡献者、同时支持 Gemini CLI、Claude Code、GitHub Copilot 三种 AI 工具——这个规模决定了 Chromium 团队不可能靠「提示词技巧」来管理 AI Coding。他们必须把 AI 工具系统化、制度化，构建可以跨工具复用、可以随项目规模扩展的基础设施。四层分层提示词体系 Chromium 没有使用单体提示词，而是设计了四层架构：第一层（common.minimal.md）是核心指令，定义构建规则、测试方式、编码规范（Stay on task，不修无关 TODO；注释只写「为什么」不写「做了什么」）和 JNI 识别规则；第二层（common.md）是 8 步标准编辑工作流，强制 AI 在写任何代码前先完整阅读相关文件并向开发者确认理解；第三层是平台模板（desktop/android/ios/rust），开发者按平台组合；第四层是一次性任务提示词。开发者在本地创建 GEMINI.md，通过 @ 引用组合不同层级，脚本递归展开后形成完整 system instruction 注入 AI——用户不可见，每次对话隐式生效。这种分层设计的核心价值在于：每一层关注点分离，底层约束稳定，上层可以灵活组合。新成员只需要遵循标准配置，无需理解整套体系就能获得符合项目规范的 AI 辅助。 18+ 个可复用技能系统 skills/ 目录下有超过 18 个按需激活的技能，涵盖代码审查、依赖分析、性能剖析、安全扫描、文档生成等场景。每个 skill 是独立的提示词模块，可以跨 AI 工具复用，开发者通过 /skill-name 命令按需激活。技能系统的意义在于把「最佳实践」从个人经验转化为可分发的工具——任何开发者都可以用 /cr:review 触发符合 Chromium 标准的代码审查流程，不依赖个人对 AI 提示词的了解程度。三层 Agentic 工作流编排 projects/ 目录记录了 AI 驱动的大型自动化项目，比如大规模代码迁移、自动化重构。这些项目通过三层编排：任务分解层（把大任务拆成可验证的子任务）、执行层（AI Agent 执行并提交 benchmark 反馈）、验证层（自动运行预提交检查，确保每步改动可追溯）。 AI 使用政策：制度化的责任边界 ai_policy.md 是整个体系的底层约束，核心规则清晰： - 自审义务：作者必须在发送 Review 前自行审查并理解所有代码；提交不理解的代码将被剥夺 Committer 权限，再犯封禁账号 - 原创声明：无论是否使用 AI，作者必须声明代码为自己的原创作品 - 人类回复人类：AI Agent 创建的 CL 或 Bug 收到人类反馈后，必须由人类操作者亲自回复这套政策的核心判断是：AI 是辅助工具，不是责任主体。一旦「AI 写的，我没仔细看」成为推卸责任的理由，代码库的信任基础就会崩塌。Chromium 选择在制度层面封堵这个口子。 eval 评估体系与 knowledge base 除了提示词和技能系统，Chromium 还建立了评估体系（eval/ 目录下有 15+ 个测试场景）和知识库（knowledge_base.md，供 AI 引用 Chromium 项目规范和历史决策）。评估体系的存在意味着提示词的迭代是可量化的——修改 common.md 的某一步骤时，可以通过 eval 用例验证改动是否导致 AI 行为退化。这种「提示词也要有测试」的思路，是成熟工程团队 AI Coding 规范化的重要标志。对工程团队的实践启示 Chromium 的体系提供了一个可以按规模裁剪的参考模板：小团队可以从 common.minimal.md 和 ai_policy.md 开始，建立最基础的责任边界和工作流规范；中大型团队可以逐步引入技能系统和平台模板；只有规模达到需要大规模自动化的团队，才需要考虑 projects/ 层的编排体系。关键在于，Chromium 的每一层设计背后都有明确的「为什么」——不是为了用 AI 而用 AI，而是为了解决具体的工程问题（减少 AI 幻觉、保证代码可追溯、让最佳实践可分发）。这个「为什么」比具体的实现细节更有参考价值。对于正在推进团队 AI Coding 规范化的负责人，这篇文章是目前最值得精读的外部参考之一。 ## 精讲三：为什么视频智能体模型是下一个前沿——Ethan He，xAI Grok Imagine 负责人这篇 Latent Space 访谈的核心是 xAI Grok Imagine 负责人 Ethan He 的一个反直觉判断：视频模型的智能主要来自 LLM，而非视频训练数据本身。反直觉的核心论点通常的直觉是：要让视频生成更好，就需要更多、更好的视频数据，以及更好的视频专用架构。Ethan He 的判断与此相反——视频模型的能力上限，实际上跟着底层 LLM 走。当 LLM 的推理、规划、语义理解能力提升时，视频生成质量会随之提升；反之，单纯增加视频数据的边际收益是递减的。这个判断的实践意义：视频生成领域的下一个突破点，不在于更好的扩散模型或更大的视频数据集，而在于更强的语言模型基座。从单次输出到视频 Agent Ethan He 把视频生成的演进类比 AI Coding 的演进路径：Coding 从「一次性输出代码」进化到了能规划、编辑、测试、调试、提 PR 的 Agent 系统，背后的关键不只是模型能力提升，而是编排系统的进化。视频生成正走向同样的路径——下一个 Sora 不会是「更好的视频模型」，而是「视频 Agent」：一个能规划、生成、编辑、批评、迭代，跨越完整创作任务的系统。 Grok Imagine 的 Agent 模式（Beta）已经在验证这条路径：用户输入创作意图，系统规划 → 生成 → 编辑 → 迭代，在同一个无限画布上自动完成。这与传统的「输入 prompt → 输出视频」范式有本质区别——用户在描述目标，而非描述过程。构建前沿视频系统的工程现实访谈中 Ethan He 分享了一些实际的工程经验，值得关注：迭代速度是最关键的变量，超过几乎所有其他因素。xAI 团队在三个月内从零到一构建出 Grok Imagine 首个多模态视频模型，核心是极快的实验周期。许多最重要的改进来自修复数据和训练流水线中的小 bug，而非架构创新。视频数据集的存储和移动成本是隐性的重大瓶颈。与文本数据不同，大规模视频数据集的 I/O 成本往往超过计算成本，这影响了迭代速度和实验设计。 VAE（变分自编码器）质量对最终视频质量的影响被严重低估。大多数关于视频生成的讨论集中在扩散模型架构，但 VAE 压缩引入的信息损失会贯穿整个生成过程，是难以在后期弥补的底层约束。音视频对齐是目前最难的工程问题之一。人对音画同步的敏感度远高于对视频质量的敏感度——轻微的音画不同步会立即破坏沉浸感，而视觉质量的小幅下降用户往往感知不到。更远的视野：生成式 UI 与世界模型 Ethan He 的判断不止于视频 Agent。他认为生成式 UI 最终可能替代 HTML/CSS——当 AI 能够实时生成符合语义的界面，而非渲染预定义的组件，应用的交互范式将发生根本性改变。世界模型的真正价值需要三个要素同时具备：实时性（低延迟响应）、交互性（能够响应用户行为并持续更新状态）、长时域（在长达数小时或数天的任务周期内保持一致性）。目前的视频生成模型在这三点上都有明显缺口，但这也定义了未来几年值得投入的方向。构建视频系统的数据与基础设施挑战访谈中 Ethan He 特别强调了两个常被忽视的工程约束。其一是视频数据集的存储和移动成本——与文本数据集不同，大规模视频数据的 I/O 成本往往超过计算成本本身，这直接影响实验迭代速度。其二是 VAE（变分自编码器）的质量对最终视频质量的影响被严重低估。大多数讨论聚焦于扩散模型架构，但 VAE 压缩引入的信息损失会贯穿整个生成过程，是难以在后期弥补的底层约束。了解这些工程现实，有助于更准确地判断视频 AI 创业公司的技术路线和壁垒。与今天其他文章的关联 Ethan He 关于「Coding AI Agent 路径」的类比，与精讲二中 Chromium 的三层 Agentic 工作流编排形成呼应——一个是理论判断，一个是已经在 3500 万行代码库上运行的实践。两者合起来，勾勒出 Agent 系统从 Coding 扩展到视频创作的共同演进逻辑。同时，精讲一中 MiniMax M3 原生多模态的发布，也印证了 Ethan He 「视频能力跟着语言模型走」的核心判断——当底层语言模型的能力跃升，多模态和视频生成的上限也随之抬升。 ## 速览工程化语音智能体：低延迟、高质量与规模化生产实践（AI Engineer） Together AI 语音 AI 团队负责人 Rishabh Bhargava 系统讲解了生产级语音智能体的工程挑战。核心约束是亚秒级延迟预算——人类对话响应约 300ms，超过 500ms 就会感知到停顿，超过 1-2 秒用户参与度直接下降。实现低延迟需要 STT-LLM-TTS 级联流水线、基础设施共址、guardrails 等多项措施协同。文章还覆盖了向原生 speech-to-speech 系统的迁移路径，以及千路并发流时的规模化挑战。对正在构建语音交互产品的工程师极具参考价值。面向 LLM 的架构设计：什么是真正的 AI Friendly 架构？（大淘宝技术）来自淘宝营销业务的万字实战总结，系统阐述传统工程架构向 AI Friendly 架构演进的三范式：确定性→概率性（将输出收敛至安全区间）、结构化→语义化（基于意图而非格式响应）、静态→动态（从规则转向规划）。结合淘宝秒杀业务中 AI 审核与答疑系统的实战经验——AI 审核准确率 95.7%，AI 答疑系统问题解决准确率超 98%，效率提升 80% 以上。文章对 Multi-Agent 系统、Context Engineering、AI Friendly API 设计和 AI 可观测体系均有具体实现讲解，是目前国内最详尽的 AI 架构演进实战资料之一。黄仁勋的「Agent 工厂」里，装了什么新故事？（腾讯科技）英伟达在 COMPUTEX 2026 上宣布 Vera Rubin 平台正式量产，Vera CPU 开始全球交付。相比三个月前强调「算力全家桶」，这次黄仁勋把重点转向 Agent 工作负载：Vera Rubin 在同等规模数据中心内运行 Agent 任务的效率是上代 Grace Blackwell 的 10 倍；DSX 成为 AI 工厂的运营操作系统；Cosmos 3 重构物理 AI 感知框架；联合宇树发布 H2 Plus 人形机器人参考设计。英伟达正在从「卖算力」转向「卖完整的 Agent 基础设施」，这一战略转向值得持续跟踪。 RAG 不是机器学习，ML 工具包解决的是错误的问题（Towards Data Science）一篇观点鲜明的认知纠偏文章。作者举了一个典型案例：一个团队花了六个月跑 Optuna 超参数搜索、加自定义 reranker、微调 embedding 模型，生产准确率始终不动——最终发现问题在 parser。RAG 系统的本质是搜索和工程问题，不是机器学习问题。把超参数优化、训练/测试评估等 ML 工具引入 RAG，会选错指标、雇错人、掩盖真正的失败模式（解析错误、分块问题、检索召回率低）。这个判断对正在构建企业知识库的团队有直接警示意义。 Rippling 如何在 6 个月内借助 Deep Agents 和 LangSmith 构建生产级 AI（LangChain Blog） Rippling 是覆盖 HR、IT、薪酬、财务、全球运营的工作力管理平台，数据模型跨数千张表、数十万字段，概念在不同领域间还会重名。他们用 LangChain Deep Agents 和 LangSmith 在 6 个月内构建了生产级多智能体 AI 系统：一个 supervisor agent 协调 read、RAG、action 三类专业子 agent，通过 traces、分层 eval 和半自动自愈循环来保证质量。这个案例展示了「大型本体上的跨域推理」这一典型企业 AI 难题的实际解法，对构建复杂 B2B AI 系统的团队有直接参考价值。 AI 现场部署工程师的崛起与 AI 工程角色的未来（Andrew Ng）吴恩达分析了一个正在复兴的角色：AI 现场部署工程师（Field Deployment Engineer），深入客户组织内部为其定制 AI 解决方案（如 Agent 工作流）。这个角色在 Palantir 二十年前就有，因为定制化 LLM 的复杂性而再度走热。吴恩达的判断是：FDE 虽有价值，但通用 AI 工程师的岗位数量将远超前者，因为公司更倾向于让自有员工构建和维护 AI 系统（供应商绑定是风险）。他预测 AI 工程师角色最终会像软件工程一样分化出 LLMOps、评估工程师等专业方向，但目前通用型需求依然旺盛。从 Token 无上限到全员 Agent：MiniMax 的 AI Native 组织进化实践（量子位） MiniMax ToB 中国区商业化负责人胡维琦在 2026 中国 AIGC 产业峰会的演讲整理。核心观点：AI Native 公司首先要在内部实现闭环，不要吝啬 Token 补贴，让员工自己用 Agent 搭建自动化工作流，这个使用过程会反哺模型研发。几个具体实践：从「人类最不愿意干的高价值场景」切入推进阻力最小；AI 的广泛使用会让组织更加扁平，Token 消耗量正在成为衡量效率的新指标；未来 2-3 年 AI 将深度改变商业模式甚至组织构成。配合精讲一的 M3 发布来看，可以理解 MiniMax 的「用 M3 训 M3」实验背后的组织逻辑。 ## 补充阅读今日候选池中还有以下内容值得关注，按兴趣选读： - 打破「人月神话」，Agent 重塑风控场景产运研职能：快手风控技术负责人在 QCon 的演讲实录，系统讲解如何通过 Agent 和 AI 原生转型重塑产品、运营、研发三大职能的角色与协作模式。风控场景是 AI 落地难度较高的领域，实战参考价值高。适合风控、安全和大型平台工程师阅读。 - 扣子 3.0 正式上线：新一代 AI 团队，从扣子开始：扣子 3.0 通过项目空间、多端协同和技能商店，将 Agent 从单点工具升级为可协作的 AI 团队。值得观察产品形态的演进方向——从单 Agent 工具到 Agent 团队协作平台，这是当前市场的主流趋势之一。适合关注 Agent 产品形态演进的产品经理和开发者。 - 一个理想的组织，是 AI Agent 在组织人：ColaOS 创始人橘子的深度访谈，探讨 AI Agent 如何从产品、组织到商业模式重写创业逻辑。「理想组织是 Agent 在组织人」这个前瞻观点值得创业者和管理者深思。对 AI 时代组织设计感兴趣的读者推荐精读。 - 智能体引擎优化（AEO）：当 AI 成为你文档的头号读者：系统阐述 AEO（Agent Engine Optimization）这一新兴学科，为开发者提供让文档对 AI 编程智能体可发现、可解析且 token 高效的分层实操框架。如果你在维护开源项目或 SDK 文档，这篇文章有直接实用价值，值得收藏备查。 - 材料版 AlphaFold 来了！40 个工业任务全方位 SOTA，AI4S 迎来行业大突破：深度原理发布材料基座模型 MPA，借鉴 LLM 三阶段训练方法并引入物理对齐机制，在 40 个真实工业任务上取得 SOTA。AI for Science 领域的进展值得持续关注，对材料科学、化学、生物等领域的从业者有直接参考意义。 - 别光给 Agent 加 Tool 了，它根本选不明白！复旦×通义提出全新 CUA 训练范式：复旦与通义联合提出 ToolCUA 训练范式，通过分阶段训练解决 Computer Use Agent 在 GUI 与工具混合动作空间中的路径选择难题，在 OSWorld-MCP 上以 8B 模型超越 Claude-4-Sonnet。关注 Computer Use Agent 和 GUI 自动化的工程师推荐阅读。 ## 今日阅读路径如果你只有 30 分钟，优先读这三篇：第一篇：MiniMax M3 发布文章（链接）了解国内首个同时开源三项前沿能力的模型。重点看 CUDA 算子优化和「让 M3 训模型」两个实测案例，比 benchmark 数字更能说明 M3 的实际能力边界。预计阅读时间 15 分钟。第二篇：Chromium AI Coding 体系解析（链接）即使你不用 Chromium，这篇文章提供了一个大型工程团队如何制度化 AI Coding 的完整参考。四层提示词体系和 AI 使用政策两节最值得精读。预计阅读时间 10 分钟。第三篇：视频 Agent 前沿访谈（链接） Ethan He 关于「视频智能主要来自 LLM」的核心论点，以及视频 Agent vs 视频模型的演进类比，是理解下一阶段视频 AI 方向的重要参考。可以只读前三分之一。预计阅读时间 10 分钟。如果你有更多时间，速览部分的「AI Friendly 架构」和「RAG 不是机器学习」两篇是工程实践质量最高的文章，适合做系统性阅读。

译本期早报聚焦三个主题。核心是 MiniMax 发布其开源模型 M3，这是国内首个同时具备前沿 Coding 能力、1M 超长上下文和原生多模态的模型。M3 在 SWE-Bench Pro 上得分 59.0%，其自研 MSA 稀疏注意力架构显著降低了长上下文计算开销。实测中，M3 可在 24 小时内自主完成 CUDA 算子优化。此外，早报还简述了 Chromium 项目对 AI Coding 的规范化实践，以及 xAI 工程师关于视频 Agent 发展前景的观点。

查看原推 ↗

SemiAnalysis@SemiAnalysis_ · 6月2日61

AWS margins jumping 10 points while Azure and Cloud fall flat. The Tokenomics Team deep dives into selling tokens vs renting GPU's, Anthropics $65 Billion Raise in Series H, and stablized token margins. New Episode Out Now: https://youtu.be/3zGmZfZnChs

译AWS利润率跃升10个百分点，而Azure和Cloud表现平淡。Tokenomics团队深入探讨了出售token与出租GPU的对比，Anthropic的650亿美元H轮融资，以及稳定的token利润率。新一期节目现已上线：https://youtu.be/3zGmZfZnChs

查看原推 ↗

Rohan Paul@rohanpaul_ai · 6月2日76

Sam Altman's new interview: AI should not be designed to pursue goals that are disconnected from human needs. People must remain at the center of AI development. “I have no interest in building a super-smart AI that accomplishes some non-human goals. People should react. People should say, ‘Hey, this is what I want, and this is what I do not want.’ I do not think the issue is that we have failed to explain the benefits. We say, ‘AI is going to cure a bunch of diseases,’ and people say, ‘Okay, that is great, but that is not really my question. My question is: What is my role in the future? What is my economic future? What is my agency? How do I know that my kids and my family will still be able to have fulfilling, creative expression, struggle, drive the world forward, grow, and do this thing together in a way that has worked for a long time?’ When people in AI say, ‘Sure, there are going to be no jobs,’ or ‘50% of jobs are going to go away,’ or ‘90% of jobs are going to go away,’ and ‘AI is going to be smarter than you at everything,’ and ‘We will give you some basic income, but you are not really going to have a role,’ that is horrible. And by the way, if an AI company says, ‘Maybe we are going to destroy all the jobs, and we will be the most valuable company in the world,’ people should look at you like, ‘Yeah, that is a terrible message.’ I do not think the problem is that we have not articulated the upsides. I think people actually believe us. They hear, ‘AI may cure your cancer,’ and they think, ‘That sounds great.’ I think we, as an industry, have failed to explain how people stay in control of determining the future at every step, and how people can still have a meaningful life in all the ways we care about.” ---- From "CNBC Television" YouTube channel, (link in comment)

译Sam Altman在采访中表示，AI不应被设计为追求脱离人类需求的目标，人类必须始终处于AI发展的中心。他批判了行业内“AI将摧毁大量工作”等言论，认为人们担忧的并非AI带来的好处，而是自身在未来的角色、经济前景与自主权。他指出，AI行业的失败在于未能清晰解释人类如何在每一步保持对未来的控制权，以及如何在AI时代继续拥有充实、有意义的生活。

查看原推 ↗

Peter Steinberger 🦞@steipete · 6月2日63

I told codex to use http://sag.sh whenever I'm distracted and it needs my help to be unblocked, and ever once it a while I hear it talking to me, and it's the coolest thing ever. (e.g. for releases, that needs npm and is 1Password-gated)

译我告诉 Codex，当我分心且它需要我的帮助来解除阻塞时，使用 http://sag.sh。偶尔我会听到它在跟我说话，这是有史以来最酷的事情。（例如，对于需要 npm 且受 1Password 门控的发布任务）

查看原推 ↗

Tibo@thsottiaux · 6月2日17

Should we rename Codex to ChadGPT?

译我们应该把 Codex 改名为 ChadGPT 吗？

查看原推 ↗

宝玉@dotey · 6月2日61

Cursor 在为用户增加使用额度。最近我重度使用了 Cursor 的 Agent，效果相当不错。我常用的 GUI Agent 里面，Codex App > Cursor > Claude Desktop。几个亮点： 1. 它的 multitask 模式可以开启多个后台任务并行，速度很不错。 2. 它可以灵活选择各种模型，不像 Codex 和 Claude Code 只能选择自家模型，composer 2.5 在普通任务上的能力和速度都还可以 3. Plan 模式比较详细，列有详细的 Steps，配合 multitask 模式通常效果很稳定不足之处：还不支持 /goal、手机版还没有类似于 Codex 的 Chrome use + Computer use 的调试功能，只有内置浏览器的调试

译Cursor 宣布提升所有团队用户使用额度，并推出 Premium 团队席位。用户反馈其 Agent 模式效果好，支持多任务并行、灵活选择各类模型，且 Plan 模式步骤详细。对比中，用户认为其表现优于 Claude Desktop，略低于 Codex App。当前不足包括不支持 /goal 与手机版，且调试功能仅限内置浏览器。

查看原推 ↗

宝玉@dotey · 6月2日58

It would be great if AI agents like Codex and Cursor could expose an API to web views. This would allow a webpage opened in the right pane to send prompts (including text and images) directly back to the agent. For instance, if I build a webpage similar to Claude Design, I could add an in-page input box. When a user enters a prompt and clicks "send", the webpage would call an API like "window.codex.sendPrompt(text, attachments)" to push that content straight into the chat interface on the left. This would enable much deeper interaction between the agent and the webpage, unlocking a lot more possibilities. cc @thsottiaux @jxnlco @Dimillian

译推文建议，Codex、Cursor等AI智能体应提供API接口，允许右侧面板的网页视图直接向智能体发送包含文本和附件的提示词。例如，用户可构建类似Claude Design的网页，通过调用"window.codex.sendPrompt(text, attachments)"等API，将输入内容直接推送到左侧聊天界面。此举旨在实现智能体与网页间更深层的交互，从而解锁更多可能性。

查看原推 ↗

宝玉@dotey · 6月2日59

Cursor 在为用户增加使用额度。最近我重度使用了 Cursor 的 Agent，效果相当不错。我常用的 GUI Agent 里面，Codex App > Cursor > Claude Desktop。几个亮点： 1. 它的 multitask 模式可以开启多个后台任务并行，速度很不错。 2. 它可以灵活选择各种模型，不像 Codex 和 Claude Code 只能选择自家模型，composer 2.5 在普通任务上的能力和速度都还可以 3. Plan 模式比较详细，理由详细的 Steps，配合 multitask 模式通常效果很稳定不足之处：还不支持 /goal、手机版还没有类似于 Codex 的 Chrome use + Computer use 的调试功能，只有内置浏览器的调试

译Cursor 宣布为所有 Teams 用户提升使用额度，并受其 Ultra 计划启发，将推出一个提供 5 倍用量、价格 3 倍的 Premium 团队席位。有用户分享了重度使用其 Agent 的体验，认为效果不错，亮点包括：可开启多任务并行的 multitask 模式、能灵活选择各种模型（如 composer 2.5），以及步骤详细的 Plan 模式配合使用效果稳定。目前不足之处是不支持 /goal、手机版，以及缺乏类似 Codex 的 Chrome use 和 Computer use 调试功能，仅有内置浏览器调试。

查看原推 ↗

Lee Robinson@leerob · 6月2日71

Some tips to help agents understand your codebase: 1. The source code either needs to be the source of truth, or have something legible as a path to the source. For example, if marketing site content is actually stored in a CMS, you need to either delete the CMS and move that content into code, or make the CMS legible through and MCP, CLI, or skill: https://leerob.com/agents 2. Agents need to be able to verify their work. This includes but is not limited to: using a typed language, having high-quality and fast tests, having a well-configured linter: https://x.com/leerob/status/2026369424450523348 3. You need to have a concise and effective AGENTS.md file, which is included in every message to your agent. Models are quite good now, so some things you can omit as the models know them. You don’t need to say the tests live inside /tests for example. It’s worth asking the models to find things in your codebase and making sure they’re named what the models might expect, otherwise consider refactoring: https://cursor.com/learn/customizing-agents 4. Set up automations which give you suggestions for refactoring code, catching security issues which may have slipped through code review, and optionally continuous documentation of the codebase. You can effectively create a self-driving codebase which gets better while you sleep: https://cursor.com/blog/security-agents

译文章分享了四条让AI智能体有效理解代码库的实用建议。1. 确保源代码是唯一真实来源，或通过MCP、CLI等方式让外部内容对智能体可读。2. 智能体需具备自我验证能力，这依赖于使用类型语言、高质量测试和配置良好的linter。3. 编写简洁有效的AGENTS.md文件，并融入符合模型预期的直观命名，可借助Cursor等工具自定义智能体。4. 配置自动化流程，用于代码重构建议、安全问题检查和持续文档生成，以实现一个能自我改进的“自动驾驶”代码库。

查看原推 ↗

AYi@AYi_AInotes · 6月2日65

苹果、Intel、AMD、高通，今晚大概率睡不好了。统治了 PC 整整 30年的 Wintel 王朝，今天被一个卖显卡的，连桌子一起掀了。 NVIDIA 的 RTX Spark，一块 3nm 的 SoC，把 ARM CPU、Blackwell GPU、128GB 统一内存焊进同一颗芯片，塞进 14mm 的超薄本，本地跑 120B 大模型， 1440p 满帧跑 3A，拔了电源帧数硬是一格没掉。但真正让那四家睡不着的，还不只是这些参数。过去三十年的 PC，像一群车厂在比谁的排量大，所有人盯着 CPU 跑分， Intel Inside 就是品质保证，竞争全在同一套规则里打。 NVIDIA 今天开进来一辆电动车，直接说规则换了，以后比的是 AI 算力和谁的软件生态更深，而它那张生态网，叫 CUDA，已经铺了二十年。这一下，每一家被点到的，都得正面回应： Intel 和 AMD 还能追性能、追制程，追不上的是那二十年攒下的开发者。苹果 2020 年就用 M 系列证明了 ARM 加统一内存能有多强，可它把 CUDA 拦在门外， NVIDIA 干脆绕开，在 Windows 这边复刻了一遍，还多带了苹果永远不肯给的东西，完整 GPU 生态、3A 游戏、CUDA 全栈。高通的 Snapdragon X 先跑了一年 Windows on ARM，没有 GPU 生态撑腰，整个故事还只讲了一半，没想到今天这个位置被人抢了当然，发布会上说的，和真正用起来之间，向来隔着一段距离。 ARM 版 Windows 的兼容层跑老软件掉多少、满载久了降不降频、这套东西最后卖什么价，老黄一个都没交代。但方向似乎已经钉死了，过去你买电脑，Intel Inside 是贴在机身上的那张品质标签，但是往后这张标签，得换人贴了。 NVIDIA 今天卖的不只是一颗芯片，还有下一个三十年 PC 行业的入场券。

译NVIDIA发布RTX Spark，一款3nm制程的SoC，整合了ARM CPU、Blackwell GPU及128GB统一内存。它被应用于超薄笔记本，可本地运行120B大模型，并在1440p分辨率下满帧运行3A游戏，拔电后性能不降。此举被视为PC行业竞争规则的转变，从比拼CPU性能转向比拼AI算力与CUDA软件生态，标志着NVIDIA对Wintel王朝的挑战。该方案绕开了苹果对CUDA的限制，并抢先在Windows平台复刻了ARM架构加完整GPU生态的路径，旨在争夺未来三十年的PC行业主导权。

查看原推 ↗

fofr@fofrAI · 6月2日33

Revisiting an old gem with Omni

译用 Omni 重访一个旧作。

查看原推 ↗

Google AI Developers@googleaidevs · 6月2日68

From clutter to clarity. Watch parallel subagents in @Antigravity sort and rename hundreds of marketing assets, eliminating manual file management.

译从杂乱到清晰。观看 @Antigravity 中的并行子智能体对数百个营销资产进行分类和重命名，消除手动文件管理。

查看原推 ↗

Rohan Paul@rohanpaul_ai · 6月2日68

"Every 10 seconds, global token demand is around 31.7 billion in 2026. By 2030 its 1.27 trillion, a 40x increase." ~ Qualcomm CEO Cristiano Amon: --- The token explosion is not mainly about smarter answers; it is about AI moving from human-paced interaction to Agent-paced activity. Once agents become persistent, the economy of AI stops will be the background infrastructure. Every useful action has a hidden bill: context must be carried, memory must be updated, sensors may need to be interpreted, and mistakes must be caught before they become expensive. ---- From "Reuters" YouTube channel, (link in comment)

译高通CEO Cristiano Amon预测，全球token需求到2026年每10秒将达317亿，到2030年将增至1.27万亿，实现40倍增长。他指出，这一增长主要源于AI正从人类节奏的交互转向智能体驱动的活动。智能体AI将消耗远超聊天机器人的token，因其执行自主任务时需调用工具、读取输出、协调系统并更新记忆，形成隐藏的微决策链。因此，软件使用模式可能从按点击或席位计量，转变为按其消耗的机器推理token量计量。

查看原推 ↗

Yuchen Jin@Yuchenj_UW · 6月2日50

OpenAI slept on coding, so Anthropic stole the crown. Anthropic didn’t secure enough GPUs/TPUs to turn that lead into a monopoly. Now Codex has caught up. Gemini will catch up too. It’s only a matter of time. AI coding is becoming a three-body problem.

译OpenAI 在编程领域睡着了，于是 Anthropic 抢走了王冠。 Anthropic 没有获得足够的 GPU/TPU 来将这一领先优势转化为垄断。现在 Codex 已经追上来了。 Gemini 也会追上来。这只是时间问题。 AI 编程正在成为一个三体问题。

查看原推 ↗

Ethan Mollick@emollick · 6月2日64

I find debates over whether companies find AI useful to be odd at this point I talk to leadership teams at lots of big firms, and it is pretty universal that they are getting obvious and real value. The challenges now are going from individual uses to firm-level & how to scale.

译我发现现在争论企业是否觉得AI有用很奇怪我与许多大公司的领导团队交流过，他们普遍获得了明显且真实的价值。现在的挑战是如何从个人应用扩展到公司层面，以及如何规模化。

查看原推 ↗

Artificial Analysis@ArtificialAnlys · 6月2日61

Overview of our recently launched AA-WER Streaming benchmark, measuring streaming Speech to Text models on accuracy and latency for voice agent use cases Streaming Speech to Text (STT) powers real-time transcription in voice agents and live captioning, where models must balance accuracy against speed. Fast transcripts keep responses feeling natural and free up the response-time budget for reasoning and tool calls. Accuracy matters too, since errors can compound downstream. Streaming STT models transcribe audio as it is fed in, sharing outputs continuously, unlike offline (batch) models that process the entire file at once and are typically slower. Models from Cartesia, ElevenLabs, and Deepgram sit on the accuracy-latency Pareto frontier. Cartesia Ink-2 leads on final transcript accuracy at 3.59% WER (210ms), closely followed by ElevenLabs Scribe v2 Realtime at 3.64% WER (140ms). Deepgram Flux is fastest at ~20ms on final transcript latency (7.36% WER). In this video, Kiriill Butler, Member of Technical Staff at Artificial Analysis, walks through the benchmark and key results.

译Artificial Analysis 团队推出 AA-WER Streaming 基准，用于评估流式语音转文本模型在语音智能体场景中的表现，主要考察准确性与延迟。流式模型需要在这两者间取得平衡。测评结果显示，Cartesia Ink-2 在最终转录准确性上领先，词错率为 3.59%，延迟为 210ms；ElevenLabs Scribe v2 Realtime 以 3.64% 词错率和 140ms 延迟紧随其后；Deepgram Flux 延迟最低（约 20ms），但词错率为 7.36%。这三家模型处于准确性-延迟帕累托前沿。

查看原推 ↗

6月2日

18:35

小互@xiaohu

61

世界模型进医疗：AI模拟未来辅助临床决策

世界模型（World Model）在医疗领域实现突破，从传统的静态病灶识别转向动态预测模拟。医学世界模型（MeWM）能基于患者当前CT影像，模拟数月疾病进展，并合成治疗后的肿瘤轨迹视觉表征。在肝癌TACE等临床应用中，其通过反事实推理量化不同方案对生存率的影响，将临床决策成功率（F1-score）提升13%。这一“先模拟再行动”的范式正从医疗拓展至农业气候、城市规划等更多高风险领域。

FutureLivingLab: While showbiz bickers over AI video continuity glitches and educators remain stuck debating AI-generated PPTs, World Mod...

多模态现象/趋势

17:47

Berryxia.AI@berryxia

55

Don哥（@dontbesilent）将其宣称价值万元的"内容生成工程系统"完全免费开源。主推文作者Berry Xia建议大家安装学习，并表示已安排"AGENT"（指AI智能体）执行安装任务。推文内容侧重于推荐和行动呼吁，但未提供该开源项目的具体名称、技术细节、参数规模或性能基准。

dontbesilent: http://x.com/i/article/2061721924875825152

智能体开源/仓库

16:09

AYi@AYi_AInotes

66

NVIDIA发布RTX Spark芯片，挑战传统PC架构

NVIDIA发布RTX Spark芯片，这是一款3nm制程SoC，集成ARM CPU、Blackwell GPU与128GB统一内存，号称可本地运行120B大模型并满帧运行3A游戏。此举被视为NVIDIA从图形计算到AI时代持续押注并行计算与异构计算路线的成果，凭借积累二十年的CUDA生态，直接挑战Intel、AMD主导的传统PC架构，标志着PC行业竞争转向AI算力与软件生态。文章同时指出，该芯片的ARM版Windows兼容性、散热与最终定价等问题，是后续需要观察的现实挑战。

AYi: 苹果、Intel、AMD、高通, 今晚大概率睡不好了。统治了 PC 整整 30年的 Wintel 王朝,今天被一个卖显卡的,连桌子一起掀了。 NVIDIA 的 RTX Spark,一块 3nm 的 SoC, 把 ARM CPU、Black...

大佬观点端侧

14:32

宝玉@dotey

67

baoyu-image-gen Skill 支持 Codex-cli 作为 Provider 画图也就是说你可以在 Claude Code、hermes agent 之类的 Agent 里面用它调用 Codex 出图，而不需要用 Codex，当然前提是安装了 codex cli 并且有订阅。感谢网友的 PRs： https：//github.com/JimLiu/baoyu-skills/pull/158 https：//github.com/JimLiu/baoyu-skills/pull/161 Skill 地址：https：//github.com/JimLiu/baoyu-skills/tree/main/skills/baoyu-image-gen

GitHubMCP/工具图像生成开源/仓库

13:08

AYi@AYi_AInotes

60

AI变现的核心：从接单到封装技能（Skill）

作者指出，当前许多人仍停留在用AI工具接单的“时间换钱”模式。真正的高价值路径是将个人验证过的方法论（如写作、选题、提示词等）封装成可被AI智能体（如Claude Code、Codex等）反复调用的“技能（Skill）”。这能实现边际成本近乎为零的被动收益，其本质是将自身技能转化为一个“分身”。作者强调，封装的前提是拥有真实、被验证过的方法论，而非空壳，并认为AI时代的核心竞争力在于能否将自己的核心技能封装成他人离不开的Skill。

AYi: http://x.com/i/article/2061406941541240838

智能体大佬观点

12:50

数字生命卡兹克@Khazix0918

精选84

为了不花那120刀，我把电脑清理软件做成了开源skill

作者受一条推文启发，使用Codex对自己的MacBook进行了只读存储分析，发现了B站缓存视频等大量可清理空间（激进方案超140G）。为替代收费软件CleanMyMac，作者制作并开源了一个跨平台（支持Mac/Windows）的AI清理skill。该skill会扫描文件并生成可交互的HTML报告，通过三色分级（绿灯可放心清理、黄灯需人工判断、红灯禁止动）直观展示，并提供安全执行按钮。实测清理后释放了近120G空间，相比CleanMyMac仅扫描出的15.8G，其信息更透明、建议更详细。

智能体GitHubMCP/工具开源/仓库

推荐理由：不花120刀就把Mac清理干净，卡兹克这个开源skill比CleanMyMac更透明、更懂你的乱七八糟。Agent让你直接说人话清垃圾，传统软件那层UI真的多余。

12:13

Yuchen Jin@Yuchenj_UW

12

回家发现门口放着一个来自 Anthropic 的惊喜礼物盒。比 vibe-coding 软件更酷的是什么？Vibe-coding 硬件！我大概能把这台迷你电脑 vibe code 成 Claude Code 会话的遥控器。感谢 @bcherny 寄来！

Anthropic其他

12:03

Tibo@thsottiaux

27

你只需用 Codex 就能……生成一个农场 https：//chatgptpro.substack.com/p/hiroki-tomiyasu

OpenAI教程/实践编码

12:00

swyx@swyx

59

标题低估了它--这个WorkOS的演讲表现很好，是几周来第一个真正挑战@mattpocockuk的。团队正在进行A/B测试。

Nick Nisi: My talk from AIE Europe is up! Come learn the lessons I learned while shipping real production AI systems. https://www.y...

教程/实践部署/工程

11:53

AYi@AYi_AInotes

63

门槛最低的云服务福利：Microsoft for Startups Founders Hub 深度解析

Microsoft for Startups Founders Hub 提供最高 $150k 的 Azure 云额度（含 Azure OpenAI 服务）。自助申请可获 $1000 起，随项目进展可升至 $25k，顶档 $150k 需 Series A+。其最大优势是门槛极低，无需风投或孵化器背景，在进行中的项目即可申请，并赠送 GitHub Enterprise、Microsoft 365 等权益。该福利近期更新后，与面向学生的、总价值 $3500+ 的 GitHub 学生大礼包形成对比，后者为学生提供 GitHub Copilot Pro、JetBrains 全家桶等 50 多种工具的免费/折扣权益，同样零门槛。

AYi: Damn,这绝对是学生党这辈子能薅到的最狠的羊毛,没有之一😭 GitHub学生大礼包2026年全面升级总价值直接干到$3500+!! 而且真的是零门槛, 只要你是学生,基本都能过。这可不是什么几块钱的优惠券啊宝子们, 这是GitHub...

GitHubMicrosoft教程/实践部署/工程

11:47

Berryxia.AI@berryxia

49

有朋友问我这个翻译工具是什么？

用户日常使用Memo和沉浸式翻译两款工具。Memo用于本地视频处理，先调用Whisper本地模型转录，再接入DeepSeek-V4-Flash进行翻译，最后在软件内完成字幕烧录与编辑导出。对于网页和在线视频，则使用沉浸式翻译，因其能较好保持原文格式。用户强调这两个工具自由度高，允许接入并自由切换不同的API模型。

Berryxia.AI: 特么终于搞完了,太费劲了! 整整花了1晚上才把它翻译中文、剪辑、上传完毕。富人也有富人的烦恼,只是我们的烦恼不一样罢了! 这两天刷屏的Ivanka Trump (特朗普的长女千金)的长播客采访。整个播客中有些观点不能说多么锐利,但是也从...

开源生态教程/实践

11:37

jason@jxnlco

17

第一次读到不是 Codex 应用或 Slack 的内容。

大佬观点

10:47

Berryxia.AI@berryxia

63

Claude Code 工作流拆解

该推文拆解了Claude Code的工作流。它是一个能后台运行、可监控的任务系统，包含三个核心角色：Claude负责拆解任务与规划，Runtime负责调度管理状态，每个AI智能体（agent）仅处理一个子任务，并通过并发池与队列推进。系统关键设计是“状态外置”，即中间结果由执行系统保存，主上下文只读取摘要，从而使其能扩展至大量智能体。推文认为这种智能规划、Runtime执行、状态独立、模型按需调度的模式，代表了一种新的工程编排方式，并可将其工作流转换为自有系统的可执行格式。

huangserva: 肝了几天,来回打磨了快 30 遍, 一次性把最新的 Claude Code 的 Workflow 给你完全拆解清楚有人说它的伟大程度,不亚于 MCP 和 Skill。第一眼我是不信的,直到拆开看它内部怎么跑: 这不是"问一句答一句"的对...

智能体AnthropicMCP/工具教程/实践

10:47

Berryxia.AI@berryxia

32

图灵社区将于北京时间今晚20：00举办一场关于Agent Skills的公开课。分享者为@dotey，内容包括其制作Skill的实操经验与心得体会，并介绍其新书《图解Skill： AI提效实战指南》。主推文指出这场直播将直接进行教学，书籍的实用性很高。

宝玉: 北京时间今晚 20:00 在图灵社区直播间有一场 Agent Skills 的公开课,分享我做 Skill 的实操经验和心得体会,以及聊聊我的新书《图解Skill: Al 提效实战指南》,有需要 Al 提效的朋友可以预约一下,咱们晚八点见。

智能体教程/实践

10:47

Berryxia.AI@berryxia

65

Memo软件与沉浸式翻译工具使用体验分享

推文分享作者日常使用的两个AI翻译工具及工作流。1. Memo软件（免费开源）：用于处理本地视频。流程为下载视频后，使用Whisper本地模型进行转录以节省成本，再接入DeepSeek-V4-Flash API进行翻译。该软件支持字幕烧录、编辑和导出，但在X平台上传速度慢。2. 沉浸式翻译：主要用于网页、YouTube视频及图书翻译，优点是格式保持较好。两者均支持接入用户自定义的API模型。

Berryxia.AI: 特么终于搞完了,太费劲了! 整整花了1晚上才把它翻译中文、剪辑、上传完毕。富人也有富人的烦恼,只是我们的烦恼不一样罢了! 这两天刷屏的Ivanka Trump (特朗普的长女千金)的长播客采访。整个播客中有些观点不能说多么锐利,但是也从...

DeepSeek多模态开源/仓库教程/实践

09:35

meng shao@shao__meng

54

用户邵猛的 $10K Cursor 额度使用体验回顾

用户邵猛在获得 Cursor 团队赠送的 $10K 额度及两个月 Ultra 订阅后，实际使用了约 $2 千美元。其使用体验显示，100% 的时间都在使用 Agent Windows 模式，很少进行多模型切换。模型选择上，有外网访问时偏好 GPT-5.5，否则常用 Composer 2.5，因其 Fast 模式速度快且喜欢输出 Diagram 流程图。优点在于 Context 使用明细清晰，但 Agent 输出界面默认非 Markdown 且不支持拷贝为 Markdown。此外，Agent 界面右侧的扩展窗口（Terminal、Browser、File、Canvas）被认为比较实用。

meng shao: 收到 @cursor_ai 团队成员私信,随后 $10K 到手,非常感谢! 5月份是 Cursor Token 自由的一个月 😃 把 Cursor 新功能用起来,多多给团队提反馈,自己也试试在 Token 自由的情况下,看看能做出什么有趣...

智能体教程/实践编码

09:18

SemiAnalysis@SemiAnalysis_

66

你的强化学习训练效率取决于沙盒基础设施。来看看 Modal 如何让你的 rollout 持续运行！

Modal: Reinforcement learning has exploded on Modal, and we've been cooking. Here's a review of lessons learned helping teams t...

开源/仓库部署/工程

09:17

Jeff Dean@JeffDean

31

感谢与 @twominutepapers 的精彩对话，Károly！

Two Minute Papers: It was really fun to chat with the legendary @JeffDean. I asked him about things that only he may know the answer to. 🙂...

Google其他

09:05

meng shao@shao__meng

64

Lee Robinson 分享四条「Agent 友好型代码库」原则

Lee Robinson 分享了四条构建适合AI智能体的代码库的原则：1. 源码应为真相或提供可读路径（如将内容从CMS迁移回代码）；2. 智能体需能通过类型系统、测试和Linter验证工作；3. 维护精简有效的AGENTS.md文件，提供项目特有上下文；4. 设置自动化流程（如安全扫描）持续改进。他以Cursor官网迁移为例，该过程耗时3天，消耗344次Agent请求，花费$260，证明降低抽象层成本能带来可量化的投资回报。

Lee Robinson: Some tips to help agents understand your codebase: 1. The source code either needs to be the source of truth, or have so...

智能体教程/实践编码

09:05

meng shao@shao__meng

精选78

Anthropic 开发者分享 Claude Code「理解验证」工作流

Anthropic 核心开发者分享了一套用于 Claude Code 的「理解验证」工作流。该工作流将 AI 定位为“高效且睿智的教师”，成功标准不仅是完成任务，更是确保人类对问题、方案及影响有可复述、可辩护的掌握。它通过增量教学、用户复述、清单+测验等方式，围绕问题域、方案域和语境域三条轴线展开，具体包含8个可执行步骤，强调在进入下一阶段前需确认用户已真正理解。此工作流旨在对抗长会话中人类易沦为“审批按钮”的“智能体黑箱”问题，强制沉淀决策上下文，实现可审计的深度理解。

Thariq: been asking others at Anthropic how they stay in the loop with Claude and fully understand the work being done this is o...

智能体Anthropic教程/实践编码

关联讨论 3 条

推荐理由：Anthropic内部的「理解验证」工作流，把结对编程的认知摊到全程，用清单和测验逼你真正懂。做AI辅助开发又不想当审批按钮的，可以直接套用。

08:48

OpenAI Developers@OpenAIDevs

35

今天与客户通话。明天开始新的产品工作流程。 Proaction是一个5人团队，他们使用Codex构建车队管理软件，涵盖销售演示、客户支持跟进、营销资产和工程工作。

OpenAI教程/实践编码

08:47

凡人小北@frxiaobei

67

Codex 正在变成 Agent 的默认 Runtime。 codex 其实还同时有 typescript sdk。如果你要搭建一个 agent，技术栈可以是： typescript + codex + cc-switch

Vaibhav (VB) Srivastav: We just released the Codex Python SDK 🔥 You can now embed Codex directly into your Python apps and workflows! > Start t...

智能体OpenAI开源/仓库

08:35

meng shao@shao__meng

60

吴恩达老师谈「AI FDE」和「AI Engineer」

吴恩达对比了AI Forward Deployed Engineer (FDE)和AI Engineer两种岗位。他指出，FDE由厂商派驻客户现场进行深度集成，但企业更倾向于培养大量自有AI工程师。他判断，AI Engineer岗位数量将远多于FDE，因为客户担心供应商锁定，在AI技术快速演进时更需要保持技术选型灵活性。当下最有价值的是能使用Claude Code、Codex等AI编程工具构建应用的通才型AI工程师。未来该角色可能像传统软件工程师一样，分化出LLMOps、Evals等专才，但现阶段综合型人才价值依然很大。

Andrew Ng: One of the new, buzzy jobs in Silicon Valley is the AI Forward Deployed Engineer (FDE), an engineer who is embedded with...

AnthropicOpenAI大佬观点

08:12

Rohan Paul@rohanpaul_ai

精选75

🎯 Andrej Karpathy 谈如何学习。

教程/实践编码

推荐理由：Karpathy的学习方法贴，虽然只是一张图，但可能是你今年最该抄的作业，直接改掉低效学习模式。

07:54

ginobefun@hongming731

71

BestBlogs 早报：MiniMax M3 开源模型发布，集成前沿能力

本期早报聚焦三个主题。核心是 MiniMax 发布其开源模型 M3，这是国内首个同时具备前沿 Coding 能力、1M 超长上下文和原生多模态的模型。M3 在 SWE-Bench Pro 上得分 59.0%，其自研 MSA 稀疏注意力架构显著降低了长上下文计算开销。实测中，M3 可在 24 小时内自主完成 CUDA 算子优化。此外，早报还简述了 Chromium 项目对 AI Coding 的规范化实践，以及 xAI 工程师关于视频 Agent 发展前景的观点。

智能体xAI模型发布现象/趋势

07:44

SemiAnalysis@SemiAnalysis_

61

AWS利润率跃升10个百分点，而Azure和Cloud表现平淡。Tokenomics团队深入探讨了出售token与出租GPU的对比，Anthropic的650亿美元H轮融资，以及稳定的token利润率。新一期节目现已上线：https：//youtu.be/3zGmZfZnChs

Anthropic大佬观点行业动态

07:10

Rohan Paul@rohanpaul_ai

精选76

Sam Altman强调AI发展应以人为本

Sam Altman在采访中表示，AI不应被设计为追求脱离人类需求的目标，人类必须始终处于AI发展的中心。他批判了行业内“AI将摧毁大量工作”等言论，认为人们担忧的并非AI带来的好处，而是自身在未来的角色、经济前景与自主权。他指出，AI行业的失败在于未能清晰解释人类如何在每一步保持对未来的控制权，以及如何在AI时代继续拥有充实、有意义的生活。

OpenAI大佬观点安全/对齐

推荐理由：Sam Altman罕见正面回应“AI夺走工作”的恐惧，明确说人类必须始终有否决权，这是OpenAI领导层少有的、直接谈及普通人经济未来的表态。

06:44

Peter Steinberger 🦞@steipete

63

我告诉 Codex，当我分心且它需要我的帮助来解除阻塞时，使用 http：//sag.sh。偶尔我会听到它在跟我说话，这是有史以来最酷的事情。（例如，对于需要 npm 且受 1Password 门控的发布任务）

MCP/工具教程/实践编码

06:33

Tibo@thsottiaux

17

我们应该把 Codex 改名为 ChadGPT 吗？

OpenAI其他

06:30

宝玉@dotey

61

Cursor 为团队用户提升使用额度

Cursor 宣布提升所有团队用户使用额度，并推出 Premium 团队席位。用户反馈其 Agent 模式效果好，支持多任务并行、灵活选择各类模型，且 Plan 模式步骤详细。对比中，用户认为其表现优于 Claude Desktop，略低于 Codex App。当前不足包括不支持 /goal 与手机版，且调试功能仅限内置浏览器。

Cursor: We're increasing usage limits for every Teams user. Inspired by the success of our Ultra plan, we're also introducing a ...

智能体编码评测/基准

06:00

宝玉@dotey

58

Codex、Cursor等AI智能体开放API与网页深度交互

推文建议，Codex、Cursor等AI智能体应提供API接口，允许右侧面板的网页视图直接向智能体发送包含文本和附件的提示词。例如，用户可构建类似Claude Design的网页，通过调用"window.codex.sendPrompt(text, attachments)"等API，将输入内容直接推送到左侧聊天界面。此举旨在实现智能体与网页间更深层的交互，从而解锁更多可能性。

智能体MCP/工具大佬观点

06:00

宝玉@dotey

59

Cursor 在为用户增加使用额度。

Cursor 宣布为所有 Teams 用户提升使用额度，并受其 Ultra 计划启发，将推出一个提供 5 倍用量、价格 3 倍的 Premium 团队席位。有用户分享了重度使用其 Agent 的体验，认为效果不错，亮点包括：可开启多任务并行的 multitask 模式、能灵活选择各种模型（如 composer 2.5），以及步骤详细的 Plan 模式配合使用效果稳定。目前不足之处是不支持 /goal、手机版，以及缺乏类似 Codex 的 Chrome use 和 Computer use 调试功能，仅有内置浏览器调试。

Cursor: We're increasing usage limits for every Teams user. Inspired by the success of our Ultra plan, we're also introducing a ...

智能体编码评测/基准

05:17

Lee Robinson@leerob

71

帮助AI智能体理解代码库的四点建议

文章分享了四条让AI智能体有效理解代码库的实用建议。1. 确保源代码是唯一真实来源，或通过MCP、CLI等方式让外部内容对智能体可读。2. 智能体需具备自我验证能力，这依赖于使用类型语言、高质量测试和配置良好的linter。3. 编写简洁有效的AGENTS.md文件，并融入符合模型预期的直观命名，可借助Cursor等工具自定义智能体。4. 配置自动化流程，用于代码重构建议、安全问题检查和持续文档生成，以实现一个能自我改进的“自动驾驶”代码库。

智能体MCP/工具教程/实践编码

03:49

AYi@AYi_AInotes

65

NVIDIA RTX Spark发布，3nm SoC整合ARM CPU、Blackwell GPU及128GB统一内存

NVIDIA发布RTX Spark，一款3nm制程的SoC，整合了ARM CPU、Blackwell GPU及128GB统一内存。它被应用于超薄笔记本，可本地运行120B大模型，并在1440p分辨率下满帧运行3A游戏，拔电后性能不降。此举被视为PC行业竞争规则的转变，从比拼CPU性能转向比拼AI算力与CUDA软件生态，标志着NVIDIA对Wintel王朝的挑战。该方案绕开了苹果对CUDA的限制，并抢先在Windows平台复刻了ARM架构加完整GPU生态的路径，旨在争夺未来三十年的PC行业主导权。

推理现象/趋势端侧

03:40

fofr@fofrAI

33

用 Omni 重访一个旧作。

fofr: NO WAY DID IT JUST DO THAT https://replicate.com/wavespeedai/wan-2.1-t2v-480p

多模态教程/实践

02:41

Google AI Developers@googleaidevs

精选68

从杂乱到清晰。观看 @Antigravity 中的并行子智能体对数百个营销资产进行分类和重命名，消除手动文件管理。

智能体Google教程/实践

推荐理由：Google 官方演示的并行子代理整理文件，是 AI agent 在办公自动化里最实用的展示之一，做内容管理和营销的可以看看。

02:40

Rohan Paul@rohanpaul_ai

68

高通CEO预测：智能体时代全球AI token需求将爆炸式增长

高通CEO Cristiano Amon预测，全球token需求到2026年每10秒将达317亿，到2030年将增至1.27万亿，实现40倍增长。他指出，这一增长主要源于AI正从人类节奏的交互转向智能体驱动的活动。智能体AI将消耗远超聊天机器人的token，因其执行自主任务时需调用工具、读取输出、协调系统并更新记忆，形成隐藏的微决策链。因此，软件使用模式可能从按点击或席位计量，转变为按其消耗的机器推理token量计量。

Rohan Paul: New video of Qualcomm CEO Cristiano Amon: AI will require "gazillions" of tokens. Because, Agentic AI will consume drama...

智能体MCP/工具大佬观点

02:09

Yuchen Jin@Yuchenj_UW

50

OpenAI 在编程领域睡着了，于是 Anthropic 抢走了王冠。 Anthropic 没有获得足够的 GPU/TPU 来将这一领先优势转化为垄断。现在 Codex 已经追上来了。 Gemini 也会追上来。这只是时间问题。 AI 编程正在成为一个三体问题。

AnthropicOpenAI大佬观点编码

02:05

Ethan Mollick@emollick

64

我发现现在争论企业是否觉得AI有用很奇怪我与许多大公司的领导团队交流过，他们普遍获得了明显且真实的价值。现在的挑战是如何从个人应用扩展到公司层面，以及如何规模化。

大佬观点现象/趋势

01:11

Artificial Analysis@ArtificialAnlys

61

AA-WER Streaming 基准测试发布

Artificial Analysis 团队推出 AA-WER Streaming 基准，用于评估流式语音转文本模型在语音智能体场景中的表现，主要考察准确性与延迟。流式模型需要在这两者间取得平衡。测评结果显示，Cartesia Ink-2 在最终转录准确性上领先，词错率为 3.59%，延迟为 210ms；ElevenLabs Scribe v2 Realtime 以 3.64% 词错率和 140ms 延迟紧随其后；Deepgram Flux 延迟最低（约 20ms），但词错率为 7.36%。这三家模型处于准确性-延迟帕累托前沿。

评测/基准语音