你们现在千万别选计算机专业,现在程序员都在大量失业,AI一出来,程序员全裁员饿死了。 现在AI太厉害了,不仅SaaS死了,传统软件更是被AI打得满地找牙。 我一个朋友的startup里,一堆员工抱怨windows太耗电,他们公司全员AI n...
人肉总结: 选计算机专业!
译一条推文围绕“是否该选计算机专业”展开:引用称AI导致程序员大量失业,劝别选;主推文则坚持选。引用虚构一家startup全员AI native,CTO带中文系硕士用AI半个月写操作系统并自建微信、飞书、Office,卖数千万,导致腾讯、字节VP上门求停,飞书总裁承认6000员工五年成果被AI三个月颠覆。
一时间没看懂是腾讯云的广告,还是 Skillhub 的推广。。 国内面向开发者的平台,文档一个比一个难找,经常是绕来绕去找不到,搜索基本没用,助手基本废话,最后还得跑去找售前要链接 😂 如果能趁着这波全民龙虾化之后的 Skills 化,能把文档稍微规整一下,也是功德无量了。
译主推文批评国内面向开发者的平台文档结构混乱、搜索功能几近无效、智能助手输出空洞,用户常常只能找售前要链接。作者将这一现状与“全民龙虾化之后的Skills化”趋势关联,期待平台能借此机会规范文档体验。
Lots of little vectors at OpenAI all pointing in the same direction. Excited to see it all add up and come together over the coming weeks.
译OpenAI 有很多小向量都指向同一个方向。 期待看到它们在未来几周内汇聚融合。
最近 Codex GPT-5.5 给我的感觉是干活不如 Claude Opus 4.8,当然可能是因为我在开发 Mac 应用,Opus 更擅长一些
译宝玉 (@dotey) 表示,Codex GPT-5.5 在干活上不如 Claude Opus 4.8,尤其在开发 Mac 应用时 Opus 更擅长。@jesselaunz 也反馈 Codex 突然“降智”,原本预期 2 天的目标仅 20 分钟就交付,用户给出了评分以来最低的 5/10 分。
上次推荐的 Zara Zhang 的开源项目 feishu-claude-code-bridge ,可以把飞书和你本机的 Claude Code 连接起来,解决了用飞书保存所有消息历史,以及随时将飞书的信息转发给Claude的问题,相当使用的一个功能。 现在有个问题是再过几天到 6 月 15 日,Claude 订阅计划对 claude -p 和 Agent SDK 的使用将独立计费,不走订阅额度。 好在 Zara Zhang 这几天刚把项目升级了,也能支持飞书连接 Codex 了,只要你本机装了 codex cli,登录了 ChatGPT 账号或者配置了 API,就能使用,不用担心 claude -p 收费的问题了。另外还带来一个好处,就是 Codex 是有调用 GPT Image 2 画图能力的,所以你现在可以从飞书指挥 Codex 画图,画完的图片直接就到飞书,插入文档。 比如我的一个常用指令如下: > 请帮我抓取并翻译 {url} > 然后根据翻译的内容画一张中文手绘教育风信息图 > 最后把文章和图片一起创建一份飞书文档 连接步骤和之前介绍的连接 Claude Code 方法一致,只是运行的命令行变成了: > lark-channel-bridge run --profile codex 具体可以看项目的说明说,中英文版都有,写的很详细: https://github.com/zarazhangrui/lark-coding-agent-bridge/blob/main/README.zh.md
译Zara Zhang 的开源项目 feishu-claude-code-bridge 现已升级,新增支持连接本机 Codex CLI。由于 6 月 15 日起 Claude 订阅计划对 claude -p 和 Agent SDK 独立计费,不走订阅额度,用户可改用 Codex 避免此限制。Codex 支持调用 GPT Image 2 画图,可在飞书内指挥它抓取网页、翻译并生成中文手绘教育风信息图,直接创建飞书文档。连接命令改为 `lark-channel-bridge run --profile codex`。项目 README 提供中英文说明。
又发现一个 Codex 好用的点! 我发这个视频,抖音说我违规,我实在不知道哪句话违规了。 然后就让 Codex 直接根据我的视频和我的字幕,帮我视频剪一个不违规的版本,牛逼,果然过审了。
Leaving aside the question of consciousness, the Ted Chiang piece has a reasonable point about moral atrophy if you let AI make choices. But it is also interesting in light of the fact that repeated randomized trials find AI is apparently a good ethicist. https://x.com/emollick/status/1717198389006176519?s=20
译Ethan Mollick 引用一篇论文:四名牧师、一名拉比、十三名学者和 50 名 MBA 被要求比较《纽约时报》伦理专栏作家与 GPT-4 提出的伦理方案,结果基本持平(tie)。主推文指出,尽管 Ted Chiang 关于让 AI 做选择会导致道德萎缩的观点有一定道理,但重复随机试验发现 AI 似乎是优秀的伦理学家。
Vertical power delivery, flexible moving-pin interposers, and direct-impingement water cooling. Cerebras had to rewrite the mechanical engineering playbook just to keep a single wafer from cracking itself apart.
译垂直功率传输、柔性移动引脚中介层和直接冲击水冷。Cerebras 不得不重写机械工程手册,仅仅是为了防止单个晶圆自裂。
Deciding that under no circumstances AI could never be conscious removes a whole bunch of thorny problems that might impact the AI industry if some form of AI consciousness might be possible at some point.
译决定在任何情况下AI都不可能拥有意识,这消除了大量棘手问题——如果某种形式的AI意识在某个时候是可能的,这些问题可能会影响AI行业。
you guys know where this is going right
译引用推文高度评价 Reve 2.0 发布文案。Reve 2.0 的核心理念:可控图像生成与编辑的关键不是更密集的提示词,而是以代码形式呈现的高度详细、可操作的中间表示。指出当前图像生成模型通过渐进退化惩罚迭代,而创造力本质上不是一次性工作流。引用 Alan Kay "做软件应自造硬件" 类比,Reve 认为真正严肃的创意工具公司应训练自己的模型。
AI Agent 对比 PC 和移动端不是完全取代的关系。 手机出来没有完全取代PC,但很多事情你可以随时随地处理了;AI Agent 也不会完全取代手机和PC,但很多时候你不需要打开很多App了,直接给 Agent下指令就够了。
译AI Agent 不会完全取代手机和 PC,但用户无需打开多个 App,直接给 Agent 下指令即可。通用 Agent 将成未来操作系统,App 有三种结局:消亡、转为 CLI/MCP、保留为 GUI 插件。SaaS 应尽快推出 CLI 与 Skill 以适配 Agent。
The backlash from communities against data centers is reaching immense proportions. Residents of Monterey Park, California, voted overwhelmingly (about 86% in favor) to permanently ban datacenters, making it the first US city to enact such a ban through a ballot initiative rather than a council-passed moratorium. The vote reflects broader national backlash against AI datacenters - a recent Gallup poll found 7 in 10 Americans oppose construction in their local areas -with at least a dozen states now weighing moratoriums. Two thoughts on this: 1) It explains why Satya Nadella spent a relatively large amount of time at Microsoft Build addressing the prejudices and concerns surrounding data centers. The backlash is truly becoming a major problem. 2) Besides the understandable concerns (electricity costs, water consumption, real estate prices) that can actually be addressed, I often read that it's recurring resentment, prejudice against AI. I can't fully assess what's behind it. Presumably, it's a mixture of fear (of what's to come, what isn't understood) as well as the fear of losing one's own dominance as a human being (hubris; In his 1917 essay "A Difficulty in Psychoanalysis," Sigmund Freud coined the term "three great 'affronts to humanity'." These describe scientific findings that profoundly shook the human self-image and knocked humanity from its pedestal of supposed uniqueness and absolute control. AI is presumably bringing us the fourth). These concerns will increase, and so will the backlash. I'm worried that it will reach dramatic proportions. Data centers are needed; they are essential. To quote Demis Hassabis, AI will bring us in the golden age of science. For this, the expansion of data centers is necessary. Source: The Guardian
译加州蒙特利公园市以约86%赞成票通过永久禁止数据中心的法案,成为首个通过投票禁令而非市议会临时叫停的美国城市。这反映全国性反AI数据中心浪潮:盖洛普民调显示70%美国人反对本地建设,至少十几个州正考虑暂停。微软纳德拉在Build大会花较大篇幅回应相关偏见与担忧。背后除了电力、水耗、房价等可解决忧虑,还混合了对AI的恐惧及人类优越感受损(弗洛伊德所谓“对人类自恋的第四次打击”)。作者担心抵制会愈演愈烈,但数据中心对AI带来的科学黄金时代不可或缺。
Microsoft:我们发了好多新模型、我们 Copilot 更 NB 了,好像我们又又又进入 AI 领域了?
译推文调侃微软发布大量新模型并声称Copilot性能增强,然而给人的感觉像是“又又又进入AI领域”,暗示其在AI竞争中存在感不足。引用推文描述了其他AI公司现状:OpenAI出问题后重置,Anthropic封禁账号,Google发布新模型却无人关注。整体呈现AI巨头间的混乱与关注度差异。
Great little video on modern on-policy distillation in post-training recipes. Wish I had this when writing the section on distillation for my book. And where I've been bearish on a lot of the academic work for self-distillation, it seems impactful at the frontier.
译Nathan Lambert 评论该视频正是其写书所需,认为前沿自蒸馏工作影响显著。Dwarkesh Patel 记录 Sasha Rush 的即兴讲解:当模型在 rollout 中出错(例如调用不存在的工具),无需针对整条轨迹的最终奖励学习(信号噪声大),而是让另一个模型阅读轨迹定位错误位置,在错误处上方插入 hint tokens,再让原模型运行一次前向传播,利用 hint 使模型对错误 token 分配更低概率,然后训练原模型匹配这些新概率。整个过程无需重新生成 rollout(无额外解码开销)。
Grok Imagine 1.5 video quality is seriously impressive. 🔥
译Grok Imagine 1.5 视频质量确实令人印象深刻。🔥
I actually read this & it is super weird, it appears to be an argument that prior machine learning systems (not generative AI) did not generate savings due to data issues so that will lead to a lack of investment into current AI systems Also it cites the mostly fake “MIT study”
译我确实读了这篇文章,它非常奇怪,似乎是在论证先前的机器学习系统(非生成式AI)因数据问题并未带来成本节约,因此将导致对当前AI系统的投资不足。此外,它还引用了那个基本是伪造的“MIT研究”。
跟朋友聊天,他提到去年千问统计的年度Top10提示词,主题如下: 1. 股票 2. 八字 3. 情感咨询 4. 朋友圈文案 5. 景点推荐 6. 双色球号码 7. 失眠 8. 解答这道题 9. 离婚财产分割 10. 人生的意义 总之,感觉用 AI 做 2C 出路很少。 1. 搞钱/省钱/变聪明:直接产生经济回报或能力提升。炒股,折扣购物,副业流水线。 消耗token获得产出物,产出物带来金钱。 2. 懒人向/省时间:刷医院挂号、买火车票、把微信群里老婆交代的10件事自动加进日历和购物车。 愿意付的钱少,因为个人时间不值钱。 3. 情感/养成向,情绪价值:数字分身,宠物,玄学等。 消耗token带来情绪满足
译千问统计年度Top10提示词:股票、八字、情感咨询、朋友圈文案、景点推荐、双色球号码、失眠、解答这道题、离婚财产分割、人生的意义。作者认为AI 2C出路有限,三类:直接赚钱、懒人省时(付费意愿低)、情感情绪价值,整体空间狭窄。
刚刚看到李飞飞最新的发的文章,虽然没有了语言墙,但是还是喜欢自己翻译看一下完整的内容。👇🏻 “世界不是由词语构成的”:Fei-Fei Li 论世界模型的三种形态与空间智能! (译) > “The world is everything that is the case.” --路德维希·维特根斯坦 一、世界不是由词语构成的。 语言模型在文本、概念和推理上表现出色,但物理世界运行在空间、时间、物理和几何之上。Fei-Fei Li(李飞飞)及其 World Labs 团队认为,空间智能(spatial intelligence) 是 AI 的下一个前沿,而世界模型(world models) 是通往这一目标的关键路径。 然而,“世界模型”这个词如今已被严重滥用。 计算机视觉、机器人、强化学习、生成式 AI 等不同社区对它的理解大相径庭。 李飞飞基于经典的 POMDP(部分可观测马尔可夫决策过程)/智能体-环境循环,给出了一个清晰的分类法。 世界模型的三种核心功能 1. Renderer(渲染器) 输出观察(observations),主要是像素,服务于人眼。 优化目标是视觉保真度和 plausibility(合理性)。 典型代表:文生视频模型、Google 的 Genie、World Labs 的 RTFM。 局限:画面可以非常完美,但在物理交互或细致检验下容易崩坏——“好看但不结实”。 2. Simulator(模拟器) 输出状态(state)——对世界进行几何和物理上准确的表征。 必须严格遵守物理、碰撞、动力学和材料特性。 既服务于人类(设计、建筑、影视),也服务于机器(训练 RL 智能体、机器人、自动驾驶)。 李飞飞认为这是最关键的一环。它是从渲染和规划中都可以派生出来的结构主干。 当前最大挑战:3D/物理数据极度稀缺、sim-to-real 差距、多物理场 scaling 困难。 3. Planner(规划器) 根据观察和目标输出动作(actions)。 它闭合了感知-行动循环,包括视觉-语言-动作模型以及新兴的“世界动作模型”。 目前大多仍局限于受限的实验室环境。 核心观点 模拟器是最重要、却最不被炒作的那一个。 渲染器已经商业成熟(视频生成赛道)。 规划器正获得大量关注和资金(机器人公司); 而模拟器连接两者,是实现可靠真实世界应用的关键。 最激动人心的进展在于边界的模糊: 同一套底层知识(几何 + 物理 + 动力学)应该同时支持渲染、模拟和规划。 World Labs 的 Marble 项目就是典型例子,它能从多模态提示生成可探索的 3D 环境,同时输出高斯溅射(用于视觉)和碰撞网格(用于物理)。 长期愿景是一个统一的世界模型,一个基础模型能够流畅地在照片级写实的渲染、精确物理模拟、动作规划三种模式之间切换。 结语 语言让机器学会了“谈论”世界。 而世界模型,才是机器真正理解、想象、推理并在其中行动的方式。 这是一篇信息密度极高的文章,既有技术哲学深度,也清晰地表明了 World Labs 的战略方向。
译李飞飞基于POMDP框架将世界模型分为三种功能:Renderer(渲染器,输出像素)、Simulator(模拟器,输出几何/物理状态)、Planner(规划器,输出动作)。渲染器已商业成熟(如文生视频),规划器受资本追捧,模拟器最关键但数据稀缺。World Labs的Marble项目可从多模态提示生成可探索3D环境,同时输出高斯溅射和碰撞网格。长期目标是统一模型,在渲染、模拟与规划间流畅切换。
These are so fun!
译这些太有趣了! 我们当前最喜欢的 Gemini Omni 趋势:使用真实世界镜头创造意想不到的转折。试试自己做一个!🧵
工程、产品、设计正在融合成一种「Builder」角色? 不要听投资人、卖课博主们随口造概念、卖焦虑!现实工程中,绝非如此!Cursor 团队 @leerob 帮咱们客观梳理。 「角色合并」被说得太简单了! 即便公司里有一千个 Member of Technical Staff(MTS) 头衔,组织里仍需要有人把 产品 或 设计 当作自己的 Main Thing™——深度、优先级、问责都集中在一件事上。 MTS 本身未必错,但在他看来,它常被用来包装一种被稀释的「人人都是 builder」话术:头衔变模糊了,责任并没有消失。 AI 降低了写代码门槛,没有降低系统复杂度 代码生成变容易,不等于能安全、可持续地交付软件。若非工程师大量产出低质量代码(AI Slop),又缺少强工程师去约束架构、债务和边界,痛苦会后置:维护、事故、协作成本会爆发。 隐含判断:Builder 叙事容易低估「驯服复杂度」这件事,而这仍是工程的核心价值之一。 硅谷叙事存在「用创业公司过度拟合全行业」 初创公司有时是行业变化的领先指标,这点他承认。但把「小团队里一个人干多件事」推广到所有组织,会失真。 他用 摩根大通 反问:大型、强监管、流程重的公司里,PM 是否真能兼工程与设计?他的预期是:极难,甚至不现实——不是因为人不够聪明,而是因为岗位结构、合规、风险、分工与政治成本不同。 真正难颠覆的是「人的那一面」,不是工具那一面 岗位边界不只因技术栈而存在,更因组织记忆、权力与激励而固化。比如内部政治、15 年无人文档化、靠个人维系、知识垄断与岗位安全捆绑等。AI 很难一夜抹平这些。 专业化不会消失,AI 对知识工作的冲击会很慢 他明确反对「专家/专队会过时」的想象。协作里,有一个真正懂某一域的人或团队,仍然高效、安心。 对知识工作的 AI 颠覆,他判断会 以十年计,因为瓶颈主要在 社会学与组织学(信任、分工、权力、流程、问责),而不只是 智力或技能 本身。
译邵猛引用leerob推文,反对“工程、产品、设计融合成Builder角色”的观点。即便团队有大量MTS头衔,仍需要有人将产品/设计作为主业,责任不会因头衔模糊而消失。AI降低了代码生成门槛,但未降低系统复杂度——非工程师输出低质量代码(AI Slop)且缺乏强工程师约束架构,将导致后续维护成本爆发。初创一人多角色模式不适合摩根大通等大型受监管组织。真正难颠覆的是内部政治、15年无人文档化的关键系统、知识垄断等“人的一面”。专业化不会消失,与真正专家协作依然高效。AI对知识工作的颠覆将以十年计,瓶颈在于社会学与组织学。
codex has changed how we do data analysts in the past few months If you wanna learn how we did it, check out this blog post. https://blog.bytebytego.com/p/how-openai-built-its-data-agent
译Codex 在过去几个月改变了我们做数据分析师的方式。 如果你想了解我们是如何做到的,请查看这篇博客文章。 https://blog.bytebytego.com/p/how-openai-built-its-data-agent
端侧模型的能力还是在被放大! Gemma 4 12B和Google AI Edge彻底打通,现在直接在笔记本上就能跑100% on-device的Agentic workflow。 Mac用户最爽:AI Edge Gallery直接生成代码,AI Edge Eloquent支持语音输入然后实时编辑文本,两者都是全新上线。 底层用LiteRT-LM把Gemma 4 12B本地Serve起来,整个过程零网络、零延迟、数据全在自己机器里。 以前我们总觉得12B模型本地跑agentic任务还差得远,结果Google这次把模型、推理引擎、开发工具链一次性打包好,让普通开发者在笔记本上就能把AI当成真正私有的、可连续执行的本地队友。 这其实把行业当前最主流的路径直接反转了。 大家都在卷云端更大模型、更低延迟,现在Google却用12B本地模型告诉你:真正的生产力跃迁,是把agentic能力彻底下沉到设备端,让AI成为你操作系统的一部分。
译谷歌将 Gemma 4 12B 与 Google AI Edge 深度整合,开发者可在笔记本上运行 100% on-device 的 Agentic workflow。Mac 用户新增两款工具:AI Edge Gallery 直接生成代码,AI Edge Eloquent 支持语音输入并实时编辑文本。底层通过 LiteRT-LM 本地 serve 模型,实现零网络、零延迟、数据完全留在设备端。Google 将模型、推理引擎和开发工具链打包,让开发者拥有私有的、可连续执行的本地 AI 队友。
我擦@! 我发现现在Apple的MLX框架和模型都可以Day0发布了? 这看来是同步进行操作的,MLX框架以及和模型厂商直接第一时间进行了对接啊! 强烈建议Mac的同学直接上MLX框架的模型,速度一般至少10-20%还是有的。
我今天刷到OpenAI官方消息,直接把“通用模型就能通吃一切”这个主流认知又打了个反转。 他们把GPT-Rosalind正式升级了。 这不是简单迭代,把一个专门为生命科学研究打造的企业级模型系列。 底层直接把GPT-5.5最强的Agentic Coding和工具调用能力,和生命科学领域的深度智能融合到一起。 以前药企做药物发现、分子分析、实验设计、湿实验流程,经常卡在“AI只能给idea,真实实验还得人一步步验证”这个断层上。 现在Rosalind把agentic能力直接嵌入到这些流程里:它能自主生成假设、调用工具做模拟、设计实验方案、甚至追踪整个工作流的可重复性。 更狠的是,它是专门定制的,不是在通用模型上加个生命科学prompt,而是从头针对药物发现、蛋白设计、实验优化这些真实场景做了专项强化。 企业级规模意味着它能处理海量实验数据、跨团队协作、合规审计这些以前只有顶尖实验室才玩得起的复杂链路。 这其实戳破了当前AI行业最大的集体幻觉:大家还在卷单一通用模型的参数和基准分,OpenAI却在用行动告诉我们,真正能改变产业的,是把agentic智能下沉到垂直领域,让AI从“聊天助手”变成“科研基础设施”。 Rosalind这个名字也选得有深意,向Rosalind Franklin致敬,那位被低估却奠定DNA结构基础的科学家。 现在AI终于开始在生命科学里扮演真正能落地的伙伴角色,而不是停留在纸面演示。
译OpenAI 为专为生命科学研究打造的企业级模型系列 GPT-Rosalind 增加新能力,融合 GPT-5.5 的 Agentic Coding 与工具调用能力。Rosalind 可自主生成假设、调用工具模拟、设计实验方案并追踪工作流可重复性,面向药物发现、分子分析、实验设计及湿实验流程。该模型非通用模型加生命科学提示,而是从头针对药物发现、蛋白设计等场景专项强化,支持企业级海量数据处理、跨团队协作与合规审计。命名致敬 DNA 结构科学家 Rosalind Franklin。
http://x.com/i/article/2062309781994704896 # BestBlogs 早报 · 06-04|微软 AI 平台战略、Kimi Work、超级个体团队 在线阅读和收听:https://www.bestblogs.dev/explore/brief/2026-06-04 ## 导语 今天是 2026 年 6 月 4 日,欢迎收听 BestBlogs 早报 EP77。 今日早报围绕三个各有侧重却指向同一命题的主题展开:微软 CEO 纳德拉在 Build 大会上罕见深度开麦,把「Frontier Intelligence Platform」战略逐层讲透,是企业 AI 转型少见的一手信源;月之暗面 Kimi Work Beta 正式落地桌面端,92% 代码由 AI 自主完成,Vibe Working 时代的序幕正式拉开;腾讯研究院历时一年的 3 万字报告,以量化公式拆解超级个体如何聚合成高效组织。三篇内容方向各异,共同指向同一个问题:人与 AI 协作的边界,正在以肉眼可见的速度重新划定。 ## 精讲一:⚡️萨提亚·纳德拉:Microsoft Build 上的 No Priors x Latent Space 特别跨界对话 Latent.Space · 评分 93 · 阅读全文 背景:一次罕见的深度访谈 微软 CEO 萨提亚·纳德拉在 Build 2026 大会上参加了 No Priors 与 Latent Space 联合直播访谈——这种跨越两档顶级 AI 播客的对话本身就是一件值得记录的事。纳德拉以「平台」思维成名,每次公开发言都会带出几个高密度的战略判断,而这次访谈尤为难得,因为他将平台转型战略、AI ROI 争议和工程师职能重塑三条主线同时打开,难得一见地把微软的内部逻辑讲得足够具体。 三项核心判断 一、「Frontier Intelligence Platform」:生态系统而非单一模型 纳德拉明确指出,微软正转型为「Frontier Intelligence Platform」,其核心命题源于比尔·盖茨时代就奠定的平台哲学:一个真正的平台,应当能让用户从中创造出远超平台本身所能捕获的价值。落到 2026 年的具体实现上,这意味着每家企业——无论是 AI 原生公司还是传统大企业——都应能以「第一等参与者」的身份接入微软生态:在 OpenClaw 和 Scout 这样的多模型框架上构建自己的 Agent,依托 Work IQ 暴露出的企业上下文层调取组织知识,并把私有评测集(private eval)和运行轨迹数据作为一种新型的「Token IP」积累起来。 这套逻辑的背后是一个重要判断:未来企业 AI 竞争壁垒,来自于自己积累的私有评测集和真实轨迹数据,而不是员工人数或采购了哪家模型供应商的服务。纳德拉用一个具体案例佐证:Azure 网络团队通过 Agent 系统 Miles,将 500 余名光纤运维人员的知识系统性地自动化——这不是「AI 辅助人工」,而是将人类专业知识转化为可持续运行的 Agent 系统。 二、AI ROI 的双重对话:裁员焦虑与 SaaS 终结 访谈触及了当前企业 AI 落地中最敏感的两条线:一方面,企业内部正在进行有关「Tokenmaxxing」与裁员的艰难对话——如何在效率提升中平衡员工关系;另一方面,「SaaS 终结」的判断开始被严肃讨论,因为 Build vs. Buy 的方程式已经发生根本性改变。 在纳德拉的框架里,这两个议题都指向同一件事:当 AI 可以将大量脑力工作自动化时,传统 SaaS 的差异化优势(功能差异化)正在被侵蚀,企业自建 Agent 系统的边际成本已经低到不可忽视。他对这个话题的态度是坦然而非防御的——毕竟微软本身就是全球最大的 SaaS 供应商之一,能以这种开放态度讨论 SaaS 终结,本身就说明他对微软在下一轮竞争格局中的位置有足够的信心。 三、「让不可能成为可能」:AI 的社会价值 Kevin Scott 在访谈中提出了一个更宏观的框架:AI 最大的价值不在于效率提升 30% 还是 50%,而在于让以前根本不可能发生的事变成可能——特别是教育和社会影响力领域。这个视角为整个访谈奠定了一个高于商业竞争的叙事基调。 纳德拉的「平台哲学」与当前 AI 格局的关系 值得特别注意的是纳德拉谈及「Token IP」的那段——他认为,企业真正的竞争壁垒不在于采购了哪家模型,而在于积累了多少私有评测集和真实运行轨迹数据。这与 Salesforce 的「数据护城河」论,与 Snowflake 的「数据共享」生态有异曲同工之处,但落到 AI 时代有了新的含义:谁的内部数据飞轮转得快,谁的 Agent 系统就能越来越准、越来越贵。 微软的这套战略,把自己从单纯的工具供应商升级为「基础设施 + 生态平台」的双重角色——这是 Windows 时代的老路,但放在 AI 时代重走,有了截然不同的竞争纵深。 为什么值得深读 这篇访谈是目前质量最高的企业 AI 战略一手信源之一。纳德拉不是在讲 PPT 要点,而是在回应真实的尖锐问题——比如「微软自己最大的 SaaS 收入来自 Office 365,那 SaaS 终结论出来了你怎么看?」这类刁钻问题,他给出的答案既坦诚又有战略纵深。如果你在做企业 AI 转型决策,或者正在思考未来 SaaS 产品的护城河在哪里,这篇值得逐字阅读。原文是英文,访谈笔录格式,篇幅较长,建议先读 Latent Space 的编者按摘要,再选感兴趣的段落精读。 ## 精讲二:Kimi Work Beta 版邀你体验:你的工作,分我一半 月之暗面 Kimi · 评分 92 · 阅读全文 背景:从 Coding Agent 到 Working Agent 在 AI 工具的普及史上,「会写代码的 Agent」先于「会干活的 Agent」成熟——这并不令人意外,因为代码的正确性可以被自动验证,而知识工作的交付物往往边界模糊。Kimi Code 在工程场景中经过大量真实用户检验,已经建立起足够的信任基线;现在,月之暗面把这套 Agent 能力从终端(TUI)迁移到了普通知识工作者熟悉的桌面 GUI,并将用例从「写代码」扩展到了「做工作」。 这就是 Kimi Work Beta 的起点:不是凭空发明,而是用已验证的 Agent 能力换一个受众群体。 核心能力拆解 架构层面:三源合一 Kimi Work 的内核是三层叠加的能力:底层是 Kimi Code 提供的本地 Agent 基础能力(安装和使用技能、运行定时任务);中间层是在线版 Kimi Agent 的专业 Skill(建站、PPT、金融数据库、科研数据库、法律数据库);顶层是 Kimi WebBridge——一个可以像真人一样操作浏览器的方案。这三层能力叠加,理论上覆盖了大多数知识工作者日常任务的全谱系。 规模层面:最高 300 个子 Agent 复杂任务的真正瓶颈不是 AI 能不能干,而是单个 Agent 的上下文窗口和注意力有限。Kimi Work 的解法是 Agent 集群:系统可根据任务复杂度自动创建最多 300 个子 Agent 并行协作,底层模型 Kimi K2.6 支持 13 小时连续编码和 4000 余次自主工具调用。这不只是参数上的数字游戏——在办公场景案例中,Kimi Work 能读取本地文件夹里的产品方案、调用浏览器登录订阅数据库、分析 2400 余条用户评论,最终生成 128 页报告并一键转化为 PPT,整个流程无需人工接管。 「以己为证」:AI 完成了 92% 的代码 Kimi Work 本身的开发过程是最好的演示。月之暗面工程团队使用 Kimi Code 等 Coding Agent 工具,在一周内完成了 Beta 版的 Mac 和 Windows 双端客户端。开发累计产出超过 5 万行有效代码,其中 92% 由 AI 自主生成。这是一个强信号:不是「AI 辅助人类写代码」,而是「人类监督 AI 完成代码」,角色主次已经发生了反转。 三个典型场景 月之暗面在发布文章中给出了三个不同领域的具体场景示范,值得逐一了解: - 金融场景:调研巴菲特近 10 年持仓 → 总结投资策略 → 生成并安装专用 Skill → 接入专业金融数据源分析个人持仓,整个链路全自动。 - 科研场景:清洗本地仿真数据集 → 总结特征规律 → 绘制学术图表 → 辅助完成论文,适合数据分析背景薄弱的研究者。 - 办公场景:读取本地文件 → 浏览器登录订阅数据库 → 深度调研 → 生成 128 页市场分析报告 → 一键转为 PPT,全程无需脱离一个入口。 挑战与未知 当然,Beta 版就是 Beta 版。Kimi Work 当前公开测试的重点,是在任务拆解、多 Agent 并行、工具调用、浏览器操作、本地文件处理和长交付物生成等方面验证能力边界——官方的表述是「以一天 N 版的速度迭代」,这既是坦诚,也是提醒:执行稳定性、交付质量和使用体验还在持续优化中。 真正值得追问的问题是:对于不写代码的知识工作者,「任务拆解」和「结果验证」的门槛究竟有多低?Agent 执行 300 个子任务的过程,用户需要多少监督?这些问题的答案,将决定 Kimi Work 是成为下一个 Notion(所有知识工作者都用),还是更像 Cursor(技术人员的高端武器)。Beta 测试期正是回答这些问题的关键窗口。 为什么值得关注 从 Vibe Coding 到 Vibe Working,这一步跨越的不只是功能边界,而是 AI 工具潜在用户的数量级。全球程序员大约有 3000 万人,而知识工作者的数量在十亿级以上。如果 Kimi Work 能验证「非程序员知识工作者也能流畅使用 Agent 工作流」,那这是一个量级完全不同的市场入口。与此同时,92% 代码由 AI 完成这一数据,也让 Kimi Work 的发布本身成为一个值得研究的元案例:一款 AI 产品,正在用它自己的核心能力完成自身的构建。 ## 精讲三:超级个体时代|腾讯研究院 3 万字报告 腾讯研究院 · 评分 93 · 阅读全文 背景:一份基于田野调研的量化报告 腾讯研究院 AI 原生小组历时一年,通过内外部调研写成这份 3 万字报告——区别于大多数咨询报告从顶层框架往下推演,这份报告从底层涌现出发:关注的不是「组织应该怎么变」,而是「组织正在怎么生长」。这个出发点决定了报告的气质更接近人类学田野记录,而非管理学方法论手册。 斯坦福 HAI《2026 人工智能指数报告》数据显示,全球 88% 的组织已在至少一项业务中采用 AI,但仅有 1% 的公司自认达到了「AI 成熟」状态——能把 AI 深度嵌入核心业务并产生系统性价值的企业,百中无一。这个 1% 与 88% 之间的巨大鸿沟,是整份报告想要破解的谜题。 核心公式:组织竞争力的量化方程 报告的分析框架浓缩为一个公式: 组织竞争力 = 人才密度 × AI 杠杆 / 组织摩擦 这不是修辞,而是一个有操作意义的分析工具。三个变量分别对应三个可独立改进的方向: - 人才密度:单位团队中具备独立闭环能力的人占比——不是最聪明的人,而是能自主从「想法」走到「交付」的人。 - AI 杠杆:AI 实际嵌入工作流的深度和覆盖面——不是「买了多少工具」,而是工具真正进入了多少核心业务流程。 - 组织摩擦:一个想法从产生到变成可交付成果之间经过的等待、审批、对齐和信息衰减总量。 三者关系是乘除而非加减:分子翻倍但分母不动,净效果打折;分母减半的效果等价于分子翻倍。这意味着减少组织摩擦(分母)的价值,与提升人才密度或 AI 杠杆同等重要,甚至往往回报更高——但这正是大多数 AI 转型项目忽视的部分。 超级个体:四个结构性特征 报告给出了超级个体的精确定义:借助 AI,一个人能够达到过去需要一个小团队才能达到的产出规模和影响半径。拆开来看,有四个结构性特征缺一不可: 1. AI First 的工作动线:AI 是工作的默认起点,而非遇到困难时的工具。「我先让 AI 跑,然后在 AI 的产出上做判断」——这个顺序上的差异,决定了 AI 杠杆能放大到什么程度。 1. 能力边界的量级跃迁:产出从提升百分之几十变为提升十倍甚至数十倍;同时,单人可以独立跑通过去需要产品、设计、研发、运营多角色接力的整条链路。 1. 主动性极强:天然的边界探索者,持续寻找 AI 能力的极限,不等待组织安排。 1. 影响力溢出:这是判定超级个体的关键阈值——高效个体只让自己变快,超级个体让团队变快。变革的种子是当同事「看到」你一晚上做出了他们一个月的产出时自然种下的。 三种超级团队形态 个体觉醒之后,下一步是团队涌现。报告梳理了三种超级团队形态:节点辐射(一个超级个体带动周围人改变工作方式)、网络协作(多个超级个体之间形成横向协作网,绕过层级)、AI 中枢(以共享的 AI 系统作为团队协作的核心基础设施)。三种形态并非互斥,成熟的 AI 原生团队往往同时具备多种特征。 数据支撑:超级个体并非传说 报告援引的量化证据值得记录:AI 可将任务时间减少约 80%;Cursor 约 60 人在约 3 亿美元 ARR 阶段,人效远超传统同规模 SaaS 公司。麦肯锡 2026 年调查显示,AI 已成为头部企业的战略性优势,而非运营工具。 与今日其他内容的联系 这份报告与今日另外两篇精讲形成了一个完整的叙事弧线:纳德拉描述的是平台层如何为超级个体提供工具;Kimi Work 展示的是工具层如何降低知识工作者的操作门槛;而腾讯研究院的报告,则试图回答当这些工具和平台都就位之后,组织层面会发生什么。三篇合读,会对「AI 时代的工作重构」有更立体的理解。 报告的更深层主张:AI 转型与 AI 原生是同一命题 报告有一个颇具洞见的统一命题,值得单独提炼:外界常常把「AI 转型」(存量大公司自我改造)和「AI 原生」(白纸起步的新创团队)视为两个截然不同的命题,认为传统企业想真正推进 AI 变革,最好的方式是另起炉灶、重组 AI 原生团队。 但报告给出了一个反论:两者其实遵循同一底层逻辑—— - AI 转型 = 存量组织内部,超级个体逐步涌现,能力溢出带动团队进化 - AI 原生 = 超级个体从第一天就按新方式聚合 两者的核心命题是同一个:超级个体如何聚合为超级团队。区别只在路径和约束不同,而非要解决的根本问题不同。这个视角对大公司中的 AI 推动者有很强的实操意义:你不必说服管理层「我们要重新造一个 AI 原生团队」,而是可以问「这家公司有没有在培育超级个体,有没有为超级团队的生长创造土壤」——这是一个更容易对话、也更有行动抓手的切入点。 阅读建议 全文 3 万字,建议分两阶段阅读:先读摘要、核心公式和超级个体四特征部分(约 30 分钟),获得核心分析框架;再按照兴趣选择章节深读——「三种超级团队形态」和「组织启示」两章最具实操价值。完整 PDF 可在腾讯研究院公众号后台回复「超级个体 2026」获取精致排版版本。 ## 速览 今日另有 7 篇精选文章,快速了解行业动态: 1. 重新思考研发基础设施:当 Agent 成为第一公民 阿里巴巴研发基础设施负责人晓斌以周报自动化为切入点,提出核心框架:Agent 只是把「意图→代码」循环从月/周级压缩至分钟级,软件本质未变。文章以配置推送、身份鉴权等内部案例拆解 Infra 与 Agent 的摩擦点,提炼出四层设计原则(可理解、可操作、可感知、可追溯)。核心结论一针见血:「Agent 自主程度是 Infra 安全能力的函数」,而非模型智能。构建 Agent 系统的工程团队必读。 阅读全文 → 2. 将 Gemma 4 12B 带到你的笔记本电脑:利用 Google AI Edge 解锁本地智能体工作流 Google DeepMind 最新开源模型 Gemma 4 12B 与 Google AI Edge 技术栈集成,使得在普通笔记本电脑上运行完全本地的智能体工作流成为可能。新增 macOS 版本的 Google AI Edge Gallery 和 Eloquent 语音听写应用,LiteRT-LM 现可通过 CLI 的 serve 命令直接提供兼容 OpenAI API 的本地端点,适合希望在本地部署 Agent 工具链的开发者。 阅读全文 → 3. 一文读懂微软 Build 2026 开发者大会:"Agent 优先"时代到来,一口气发七款自研模型 微软 Build 2026 大会发布七款自研 MAI 模型(包括旗舰推理模型 MAI-Thinking-1、编程模型 MAI-Code-1-Flash、文生图模型 MAI-Image-2.5、转录模型 MAI-Transcribe-1.5 等)、Scout 智能体、MXC 系统级安全沙箱及 Project Solara 等产品,宣告「Agent 优先」战略全面落地。七款模型均从零训练、零蒸馏,将通过 Azure Foundry 及 Open Router 等平台向开发者开放。 阅读全文 → 4. OpenAI 和 Anthropic 共同看好的 FDE:AI 时代的新岗位出现,旧分工松动|对谈 Rolling AI 对话 Rolling AI 两位合伙人,深度剖析 FDE(Field Deployment Engineer,现场部署工程师)这一新岗位如何将 AI 从「能用」推进到「上岗」。FDE 角色横跨销售工程、解决方案架构和产品实施,是把 AI 产品真正嵌入客户业务流程的关键角色。访谈还通过「AI 副店长」等实际案例,拆解 Agent 如何重构企业组织与商业价值。关注 AI 应用落地的读者不要错过。 阅读全文 → 5. Alphabet 超额认购股权融资约 850 亿美元,其中伯克希尔·哈撒韦投资 100 亿美元 Sundar Pichai 在推文中宣布,Alphabet 此次股权融资获得超额认购,总额约 850 亿美元,伯克希尔·哈撒韦出资 100 亿美元。资金将用于 AI 基础设施投资。巴菲特旗下基金押注 Alphabet AI 基础设施,是本周资本市场对 AI 算力需求表态最明确的信号之一。 阅读全文 → 6. OpenAI 如何构建其数据智能体 OpenAI 数据平台团队为管理 1.5 EB、9 万个数据集、服务 4000 内部用户的数据平台,构建了一个他们自己形容为「相当朴素」的数据 Agent:单个 LLM + 六层上下文组装 + 缓存层 + 校验步骤。核心洞察:在强大数据基础设施支撑下,简单架构就足够可靠。同样是这套 Codex 驱动的能力,让他们在两个月内完成了 9 万张表、60 PB 数据的跨云迁移。 阅读全文 → 7. Cisco CX 如何从聊天机器人走向 AI 原生企业智能体队友 Cisco CX 首席架构师 Carlos 在 Interrupt 26 大会上,讲述了 Cisco 如何把最初的续约聊天机器人,演进为基于 LangGraph 的 AI 原生智能体队友,服务覆盖 18000-20000 人的大型 CX 组织、管理数十亿美元的年度续约业务。重点分享了架构演进决策、组织推广策略和关键经验教训,是企业级 AI 落地的高质量实践案例。 📷阅读全文 → ## 补充阅读 以下 6 篇内容延伸今日主题,按各自亮点简评: 「悲观者正确,乐观者成功」,和好友亚婷聊聊 AI 行业的种种 资深投资人庄明浩从 VC 底层逻辑出发,深度拆解 AI 浪潮下的创业范式、模型竞争终局及人类职业价值的终极拷问。「悲观者正确,乐观者成功」这一命题在 AI 时代有了新的涵义。适合想从投资人视角理解 AI 行业走势的读者。 阅读全文 → S9E3 鲁豫对话蔡皋 | 我本布衣,种花种草种春天 鲁豫与绘本画家蔡皋探讨在时代局限与个人困境中,如何凭借对艺术与生活的热爱,践行「我喜欢,我选择」的强大主体性,最终活出如岩石中开花般的倔强生命。今日 AI 话题密集,这一篇是难得的「离线」选项,适合需要换换频道的读者在一天结束时听。 阅读全文 → Harmonic 如何基于 Deep Agents 重建 Scout,并通过 LangSmith 实现 4 倍留存提升 Harmonic 使用 LangChain 的 Deep Agents 和 LangSmith 重建了 Scout AI 智能体,将产品迭代周期从数月压缩到数天,第 1 周到第 4 周留存率提升 4 倍、平均会话时长提升 10 倍。对正在构建或重构 AI 产品的团队来说,这是一个兼具架构细节和产品指标的好案例。 阅读全文 → 在 Codex 中构建和分享应用程序 OpenAI 在 Codex 中推出 Sites 新功能,用户可通过自然语言提示即时构建并部署 Web 应用,支持细粒度访问控制。对于关注「从提示词到上线应用」这一极简部署范式的开发者,这是值得一看的功能演示。 阅读全文 → 我花了一个月评估不同的 OCR 引擎 作者对 14 个 OCR 引擎在 93 份难度各异文档上进行了实际基准测试,结论是「OCR 是一个路由问题,没有单一最佳引擎」——Mistral OCR、LlamaParse 和 Claude Sonnet 在综合表现上超过传统引擎,成本也更具竞争力。做文档处理产品或数据管道的工程师必读。 阅读全文 → 超越聊天机器人的直接偏好优化 DharmaOCR 团队展示:在监督微调(SFT)之后应用直接偏好优化(DPO),使用模型自身的退化输出作为拒绝配对,能在所有测试的模型家族中持续减少结构化 OCR 任务中的文本退化问题,平均降低 59.4%,最优降低 87.6%。适合关注 LLM 微调和生产部署质量的工程师。 阅读全文 → ## 今日阅读路径 如果你的时间有限,以下是今日三条最高价值阅读路径: 路径一(30 分钟):企业 AI 战略决策者 先读精讲三(腾讯研究院报告)获得分析框架,再读精讲一(纳德拉访谈)了解平台层战略,最后速览「微软 Build 2026 综述」补充产品细节。三篇合读,形成「组织理论 → 平台工具 → 产品落地」的完整视角。 路径二(15 分钟):AI 产品与工具用户 直接从精讲二(Kimi Work Beta)入手,了解知识工作 Agent 的最新产品形态,再看速览中的「FDE 岗位剖析」,思考 AI 工具如何真正在企业内落地。如果时间还有富余,补充阅读「Harmonic Scout 重建案例」看产品指标。 路径三(10 分钟):工程师与技术决策者 优先阅读速览中的「阿里 Agent Infra 四层原则」和「OpenAI 数据 Agent 架构」,两篇都是把 Agent 工程化落地讲得最具体的一手资料。再看补充阅读里的「OCR 引擎基准测试」,实用性极强。 以上就是 BestBlogs 今天早报的全部内容。感谢阅读,明天见。
译微软CEO纳德拉在Build 2026阐述「Frontier Intelligence Platform」战略,主张企业AI竞争壁垒来自私有评测集与运行轨迹数据,而非模型采购;Azure网络团队通过Agent系统Miles自动化500余名运维人员知识。月之暗面发布Kimi Work Beta桌面端,基于Kimi K2.6模型,支持最高300个子Agent并行、13小时编码、4000余次工具调用,能自主完成金融调研、科研数据分析和128页报告生成;开发中92%代码由AI生成。腾讯研究院3万字报告量化超级个体与组织效率的关系。三篇内容指向人机协作边界重塑。
#BestBlogs 早报 06-04 三个重点: ① 微软 CEO 纳德拉在 Build 大会深度开麦,把「Frontier Intelligence Platform」战略和私有评测集作为企业 AI 核心 IP 讲得极透,值得一读; ② 月之暗面 Kimi Work Beta 上线,92% 代码由 AI 完成,桌面端 Working Agent 正式来了; ③ 腾讯研究院 3 万字报告拆解超级个体如何聚合——核心公式:组织竞争力 = 人才密度 × AI 杠杆 / 组织摩擦。
译微软CEO纳德拉在Build大会阐释Frontier Intelligence Platform战略,强调私有评测集为企业AI核心IP;月之暗面Kimi Work Beta上线,92%代码由AI生成,桌面端Working Agent正式推出;腾讯研究院发布3万字报告,提出组织竞争力公式:人才密度×AI杠杆/组织摩擦。
请教:Claude Code (Desktop)总是弹窗要确认权限,有没有办法避免总是要 Allow,很烦人,已经启用了 Bypass Permissions
You don’t have to be a developer. You can just build stuff. @shanselman on his first walk through the Microsoft Research Lab at #MSBuild.
译你不必是开发者。你也可以构建东西。@shanselman 在 #MSBuild 上第一次参观微软研究院实验室。
Microsoft Build. My personal review. For me, this was the first time I had the chance to attend Microsoft Build, at Microsoft's invitation. To be honest, I didn't really know what to expect, but I was especially looking forward to the keynote. And it wasn't just the keynote: I also visited GitHub HQ, saw the event hall, sat in on numerous sessions, and even met Satya Nadella in person. Holy moly. It truly exceeded all my expectations. 2026 is turning out to be a crazy year for me. It started with NVIDIA GTC in San Jose in March, followed shortly after by a trip to China - Guangzhou and Beijing - then Google I/O in California, and now Microsoft Build, also in California. What a wild ride! I met incredible people and had fascinating conversations late into the evening about LLMs, chips, energy, geopolitical challenges, financial markets, and so much more. What impressed me most was the pioneering spirit, the optimistic atmosphere, the enthusiasm for being at the forefront of this tech-revolution. Optimism mixed with passion and a love of building, that's what I take away from all these trips. Microsoft was no exception. I got a behind-the-scenes look, heard exclusive GitHub sessions, experienced a personal demo of the flagship Surface Laptop Ultra, met researchers, and much more. My honest take on Microsoft Build: Microsoft is taking feedback seriously and is trying to set things in motion and drive change on every front. Seven new AI models - clearly not aiming for the absolute top end, but positioned in the mid-range, roughly at Sonnet level, and affordable; a new laptop with a new chip meant to rival the MacBook Pros, which, frankly, at first glance even seems capable of pulling it off; bold experiments like Project Solaris and the agentic handheld (yes, I've read all the Rabbit comparisons :D); a revamped Copilot app; the rollout of agentic features into enterprise editions with a new quantum chip; and plenty more. It certainly wasn't boring. Time will tell what succeeds, but I'd argue Microsoft is on the right track.
译Kim受邀首次参加微软Build,参观GitHub HQ、参与多场会议并见到Satya Nadella,认为远超预期。微软发布7个新AI模型(定位中端、约Sonnet级别、价格亲民),新Surface Laptop Ultra配新芯片对标MacBook Pro,展示Project Solaris和智能体手持设备等实验项目,推出改版Copilot应用,企业版新增智能体功能及新量子芯片。作者认为微软正认真听取反馈,在各个方向推动变革。
Lawyers, too, are cooked "When law professors were handed a stack of anonymized answers to student contract questions and asked to pick the better one, they picked AI 75% of the time"
译律师们,也完了 "当法学教授收到一堆匿名的学生合同法问题答案并让选出更好的那个,他们75%的时候选了AI"
PAPER: We used state-of-the-art LLMs to prove AI still can't do X THE STATE-OF-THE-ART LLMS:
译论文:我们使用最先进的大语言模型来证明AI仍无法做到X 最先进的大语言模型:
How do we automate business analytics with Claude? New blog post covering our best practices for skills, data foundations, and evaluations when building agents to perform data analysis: https://claude.com/blog/how-anthropic-enables-self-service-data-analytics-with-claude
译我们如何用 Claude 自动化商业分析? 新博客文章,涵盖构建数据智能体时在技能、数据基础和评估方面的最佳实践: https://claude.com/blog/how-anthropic-enables-self-service-data-analytics-with-claude
Drones enforcing traffic rules in Shenzen
译深圳无人机正在执行交通规则。
The five stages of Claude, @JeremieEO is currently at Stage 1... ACCEPTANCE.
译Claude的五阶段,@JeremieEO目前处于第一阶段... 接受。
Im confused. And excited at the same time. I got the feeling OpenAI is preparing for some big releases. Superapp? 5.6? Let it come!
译我很困惑,同时也感到兴奋。我感觉到OpenAI正在准备一些重大发布。 超级应用?5.6?让它来吧!
This story was so implausible that the only way it even (kind of) made sense if it is some sort of internal accounting placeholder at a cloud provider using their own compute. And even then it seems unbelievable for a wide number of reasons.
译@binarybits 称,不相信有公司一个月意外花费5亿美元在Claude上,这个数字大得不合理。主推文表示这故事难以置信,唯一可能解释是云提供商内部会计占位符,即便如此也仍有诸多疑点。
http://x.com/i/article/2062244283940544512 # A Functional Taxonomy of World Models > “The world is everything that is the case.” — Ludwig Wittgenstein, Tractatus Logico-Philosophicus, 1921 ## The world is not made of words. In an earlier essay, we argued that spatial intelligence is AI’s next frontier and that world models are the path to it. Here, the World Labs team and I want to go one level deeper: of the many things now being built and called ‘world models,’ which functional pieces actually compose that capacity — and what is each one for? Language models have given machines an extraordinary command of concepts, vocabulary, and reasoning, but the physical world, virtual or real, runs on a different substrate. Where language models learn the statistical structure of text, world models learn the statistical structure of space and time: how light falls on a surface, how a garden looks from an angle no camera has captured, how objects respond to force and follow the laws of physics. That makes “world model” one of the most important and most overloaded terms in AI today. Computer vision, robotics, reinforcement learning, and generative AI each claim to be building world models, and each means something quite different. A video model that produces gorgeous but physically impossible flames, a language model improvising a playable game, and a physics engine that faithfully simulates combustion all go by the same name. The ancient Greeks could never agree on what the world was made of, whether fire, water, or indivisible atoms, because “world” was never a single thing. It was always a stand-in for whatever totality a given thinker needed to reason about. AI has inherited the same problem, at exactly the moment when the field needs precision. ## The loop beneath the taxonomy Cutting through that confusion starts with a diagram older than any of the technology in question. Reinforcement learning textbooks, including the canonical Sutton and Barto, have used a version of the same picture for decades to describe how an agent interacts with a world. The formal name for this picture is the partially observable Markov decision process, or POMDP, and the original definition of the term “world model” belongs to that tradition. An agent, which can be a person, a robot, or a software system, takes actions. Those actions affect the state of the world. The agent never sees the state directly. What reaches the agent are observations: the photons that fall on a retina, the readings from a sensor, and the pixels in a video frame. New observations inform new actions, and the loop continues. The word “state” needs unpacking, because the meaning shifts from field to field. This is not the chemist’s state, the difference between solid, liquid, and gas. This is the physicist’s and roboticist’s state: a complete description of what is happening in the world at a given moment, including every object, every position, every velocity, every property. State is the underlying reality of the world; complete in principle, but never directly visible to any agent inside it. Observations are an agent’s partial view of that reality. Actions are what the agent does in response. This loop — agent to action to state to observation and back — is the structure that gave the modern term “world model” its technical meaning. The phrase itself is older, traced to Kenneth Craik’s 1943 proposal that minds reason by running “small-scale models” of reality, and carried into neural networks by the late 1980s and early 1990s. And the loop also explains what people mean by the term today. The different things now being called world models are in fact different projections of this same loop. Each one outputs a different piece of it. ## Three functions of a world model The first kind of world model is a renderer. A renderer outputs observations in the form of pixels meant for human eyes, and the quality that matters most is visual fidelity. A video model that turns a text prompt into a cinematic drone shot is a renderer. So is an interactive system like Google’s Genie 3, or World Labs’ own RTFM, where the model generates frames in real time conditioned on user input. The model carries no explicit understanding of three-dimensional structure. It produces what a viewer would see, not what is. The buildings in the drone shot may look flawless from above, but try to drive through the city below and they fall apart. The second kind is a simulator. A simulator outputs state: a geometrically, physically or dynamically faithful representation of the world that humans and computer programs can both compute on and interact with. Where the renderer’s contract is purely visual, the simulator’s contract is structural, demanding geometry that holds up under inspection, physics that respects Newton’s laws, and dynamics that behave the way the world needs to behave given the laws of physics. A simulator serves two consumers at once. Human professionals such as architects, designers, filmmakers, and game developers need accuracy beyond visual plausibility. Computer programs such as reinforcement learning agents, robot controllers, and autonomous vehicles use simulators as training grounds where they can interact with the world at scale, testing scenarios that would be dangerous, expensive, or impossible to run in reality. The third kind is a planner. A planner outputs actions. Given an observation and a goal, a planner answers the question of what the agent should do next. This is, in many ways, the inverse of the renderer. Where a renderer takes actions as input and produces observations, a planner takes observations as input and produces actions, closing the perception-action loop. Vision-Language-Action models, model-based systems, and the new wave of World Action Models are all attempts at planners: systems that can decide what a robot should do in an unstructured world. These three categories describe most of what is actually shipping today, and the distinction between them is useful in practice. The categories are not, however, fundamentally separate. The same underlying knowledge of how the world works—geometry, physics, dynamics—sits beneath all of them. A model that can render a cup from any angle ought, in principle, to be able to simulate what happens when the cup is pushed and plan a hand to pick the cup up. Increasingly, the most interesting research deliberately blurs the boundaries between the three. ## Why simulation is the linchpin Of the three categories, the simulator gets the least public attention, and is the most consequential of the three. This essay addresses this asymmetry. The renderer is by far the most commercially mature. A number of image- or text-to-video products are expanding in the consumer or enterprise markets rapidly. Google’s Nano Banana model has put renderer-quality image generation in the hands of potentially hundreds of millions of users. The technology is real, and the markets are real. Yet renderers optimize for visual plausibility rather than physical accuracy, and that ceiling matters. Their outputs are beautiful, but they cannot be trusted to design a building or train a robot. The planner is the most intriguing and the most nascent, closely connected to the rapidly evolving field of robotic learning. The field has produced robotic demos in the last two years that look impressive in videos, but candor is required about what those demos actually show. Almost all have been confined to heavily constrained laboratory setups, with narrow object sets and short task horizons. None have been validated at the complexity, variability, or duration that real-world deployment demands. The gap between a compelling demo reel and a robot that reliably works in a kitchen, a warehouse, or an operating room remains vast. The commercial bets are nonetheless substantial. A wave of well-funded entrants is racing to ship general-purpose planning systems, while the largest infrastructure players are positioning planning atop broader simulation stacks. A robot that can plan is a robot that can work, and the entire industry is racing to be the one that gets there first. Simulation is the bridge between the two. If language is an abstraction of the world and pixels are a projection of it, then geometry, physics, and dynamics are the world itself. A simulator must work at that level: the structural backbone from which both visual appearance (for renderers) and action consequences (for planners) can be derived. A model that masters simulation can project its understanding into pixels for human consumption, and into action predictions for embodied agents. A model that masters only rendering, or only planning, cannot do either. The commercial surface area is enormous. NVIDIA’s Omniverse alone targets what the company estimates as more than a trillion dollars of addressable market in factories, warehouses, supply chains, and digital twins. Robotics training, autonomous vehicle testing, architectural visualization, engineering, and drug discovery all depend on something simulation-shaped. The hardest open problems in the field live there too. Three-dimensional data with explicit geometry, material properties, and physical annotations is orders of magnitude scarcer than the internet video that renderers train on. The sim-to-real gap, which is the difference between how things behave in simulation and how they behave in reality, persists. Generative simulators introduce a new risk on top of that: AI-generated geometry can look correct while containing self-intersections or wrong scale that produce nonsensical physics. Multi-physics simulation at scale, where rigid bodies, deformable objects, fluids, and cloth all interact, remains orders of magnitude more expensive than single-domain simulation. At World Labs, Marble is our first move into this territory. It takes multimodal prompts (text, image, video, or spatial sketch) and generates explorable 3D environments, outputting Gaussian splats for visual exploration alongside collision meshes a physics engine can operate on. But Marble is only the first chapter of a much longer arc being written across the field as the lines between rendering, simulation, and planning begin to collapse. ## Where the boundaries are collapsing and what comes next But more is to come. The most important pattern in the field right now is that the three categories are starting to blend into one another. The shared insight is that the knowledge required to render a world, simulate it, and act in it is largely the same. Continuing the earlier example, a model that truly understands how a cup sits on a table (its geometry, material properties, response to force, etc.) should be able to render that cup from any angle, simulate what happens when the cup is pushed, and plan for a hand to pick the cup up. The three categories are three projections of a single underlying understanding. For example: a small but growing number of recent work from various robotics labs have demonstrated that—at least conceptually—a pretrained video renderer can be used as the backbone for joint world-and-action prediction, suggesting a bridge between the renderer and the planner by letting one model imagine what will happen and what to do. World Labs’ Marble already outputs Gaussian splats and collision meshes from a single model, dissolving the boundary between the renderer and the simulator. Every level is moving from passive output to interactive system, with renderers becoming action-conditioned, simulators generating worlds that are more controllable and editable, and planners deliberating rather than just reacting. The logical endpoint is a unified world model: one foundation model that can render photorealistic views, produce physically accurate structure, and plan action sequences, switching between output modalities depending on what the downstream consumer needs. We will still face a number of daunting challenges. The data picture is uneven, with renderers awash in internet video while simulators and planners face acute shortages of 3D assets and robot demonstrations. Optimizing for visual beauty can sacrifice the precision a robot or a high-fidelity simulation needs. Reconciling these tensions inside a single architecture is the defining open problem in world model research today, and this is what World Labs sets out to do as we continue to evolve Marble. The direction, however, is clear. The same bet the field has been making since the late 1980s — that a sufficiently rich model of the world is all that any agent needs to see worlds, build them, and act in them — is the bet now driving an entire generation of research. What gives that “big bet” weight is the convergence already underway: three threads, each already driving and shaping multi-billion-dollar industries on its own, that began as separate research programs are starting to behave like one. Taken together, as the boundaries between them collapse, they will reshape something larger: the relationship between machine intelligence and the physical world it inhabits - the long arc of spatial intelligence. Language gave machines a way to talk about that world. World models are how machines will finally come to understand, imagine, reason and interact with it.
译World Labs团队与李飞飞发文,梳理“世界模型”这一被滥用的术语。对比语言模型学习文本统计,世界模型学习空间与时间统计(如光照、物理规律)。基于部分可观马尔可夫决策过程(POMDP)框架,智能体通过动作影响世界状态,观测是部分视图。当前被称为“世界模型”的不同系统本质上是同一循环的不同投影:第一类为渲染器,输出给人眼看的像素,以视觉保真度为核心。文章着重于概念分层,未给出具体模型名、参数或基准分数。
你们现在千万别选计算机专业,现在程序员都在大量失业,AI一出来,程序员全裁员饿死了。 现在AI太厉害了,不仅SaaS死了,传统软件更是被AI打得满地找牙。 我一个朋友的startup里,一堆员工抱怨windows太耗电,他们公司全员AI n...
主推文批评国内面向开发者的平台文档结构混乱、搜索功能几近无效、智能助手输出空洞,用户常常只能找售前要链接。作者将这一现状与“全民龙虾化之后的Skills化”趋势关联,期待平台能借此机会规范文档体验。
codex突然大降智,原计划跑2天的goal刚才20分钟给我交付了 拿去评分,给了AI评分以来最低的5/10分
Zara Zhang 的开源项目 feishu-claude-code-bridge 现已升级,新增支持连接本机 Codex CLI。由于 6 月 15 日起 Claude 订阅计划对 claude -p 和 Agent SDK 独立计费,不走订阅额度,用户可改用 Codex 避免此限制。Codex 支持调用 GPT Image 2 画图,可在飞书内指挥它抓取网页、翻译并生成中文手绘教育风信息图,直接创建飞书文档。连接命令改为 `lark-channel-bridge run --profile codex`。项目 README 提供中英文说明。
如果你同时用飞书和 Claude Code 的话,Zara Zhang这个开源项目 feishu-claude-code-bridge 值得一试,它可以让你在飞书里面直接连接 Claude Code,从飞书指挥 Claude Code,反过...
Sounds like a joke setup, but it is an interesting paper: Four pastors, a rabbi, thirteen academics, and 50 MBAs were as...
wow this @reve 2.0 launch copy is supurb. "it is now clear that the key to both controllable image generation and editin...
AI Agent 不会完全取代手机和 PC,但用户无需打开多个 App,直接给 Agent 下指令即可。通用 Agent 将成未来操作系统,App 有三种结局:消亡、转为 CLI/MCP、保留为 GUI 插件。SaaS 应尽快推出 CLI 与 Skill 以适配 Agent。
通用 Agent 就是未来的操作系统了,就像现在我们操作电脑需要借助操作系统,以后我们跟 AI 通信会通过 Agent OS。 App 会有几种结局: - 消亡:Agent 自己就有能力,不需要独立的 App - 变成 CLI 或者 MCP...
加州蒙特利公园市以约86%赞成票通过永久禁止数据中心的法案,成为首个通过投票禁令而非市议会临时叫停的美国城市。这反映全国性反AI数据中心浪潮:盖洛普民调显示70%美国人反对本地建设,至少十几个州正考虑暂停。微软纳德拉在Build大会花较大篇幅回应相关偏见与担忧。背后除了电力、水耗、房价等可解决忧虑,还混合了对AI的恐惧及人类优越感受损(弗洛伊德所谓“对人类自恋的第四次打击”)。作者担心抵制会愈演愈烈,但数据中心对AI带来的科学黄金时代不可或缺。
OpenAI:我们出问题了,我们重置了 Anthropic:你的账号被 ban 了 Google:我们发新模型啦,好像没人理我们
Recently met @srush_nlp and he started giving me an impromptu lecture on how targeted on-policy self-distillation works....
First it was MIT and McKinsey. Now Bain finds that returns to corporate AI investments are disappointing.
千问统计年度Top10提示词:股票、八字、情感咨询、朋友圈文案、景点推荐、双色球号码、失眠、解答这道题、离婚财产分割、人生的意义。作者认为AI 2C出路有限,三类:直接赚钱、懒人省时(付费意愿低)、情感情绪价值,整体空间狭窄。
李飞飞基于POMDP框架将世界模型分为三种功能:Renderer(渲染器,输出像素)、Simulator(模拟器,输出几何/物理状态)、Planner(规划器,输出动作)。渲染器已商业成熟(如文生视频),规划器受资本追捧,模拟器最关键但数据稀缺。World Labs的Marble项目可从多模态提示生成可探索3D环境,同时输出高斯溅射和碰撞网格。长期目标是统一模型,在渲染、模拟与规划间流畅切换。
http://x.com/i/article/2062244283940544512
Our current favorite Gemini Omni trend: creating a surprising twist using real world footage. Try creating your own! 🧵
邵猛引用leerob推文,反对“工程、产品、设计融合成Builder角色”的观点。即便团队有大量MTS头衔,仍需要有人将产品/设计作为主业,责任不会因头衔模糊而消失。AI降低了代码生成门槛,但未降低系统复杂度——非工程师输出低质量代码(AI Slop)且缺乏强工程师约束架构,将导致后续维护成本爆发。初创一人多角色模式不适合摩根大通等大型受监管组织。真正难颠覆的是内部政治、15年无人文档化的关键系统、知识垄断等“人的一面”。专业化不会消失,与真正专家协作依然高效。AI对知识工作的颠覆将以十年计,瓶颈在于社会学与组织学。
"Engineering, product, and design are all merging into a 'builder' role" Yeah... I'm not so sure. This feels like an ove...
谷歌将 Gemma 4 12B 与 Google AI Edge 深度整合,开发者可在笔记本上运行 100% on-device 的 Agentic workflow。Mac 用户新增两款工具:AI Edge Gallery 直接生成代码,AI Edge Eloquent 支持语音输入并实时编辑文本。底层通过 LiteRT-LM 本地 serve 模型,实现零网络、零延迟、数据完全留在设备端。Google 将模型、推理引擎和开发工具链打包,让开发者拥有私有的、可连续执行的本地 AI 队友。
Unlock local, agentic workflows with Gemma 4 12B and Google AI Edge, directly on your laptop. Experience 100% on-device ...
我擦! 我发现现在Apple的MLX框架和模型都可以Day0发布了? 这看来是同步进行操作的,MLX框架以及和模型厂商直接第一时间进行了对接啊! 强烈建议Mac的同学直接上MLX框架的模型,速度一般至少10-20%还是有的。
If you're waiting Gemma 4 12b through @ollama, its here: gemma4:12b gemma4:12b-it-q4_K_M gemma4:12b-it-q8_0 gemma4:12b-i...
OpenAI 为专为生命科学研究打造的企业级模型系列 GPT-Rosalind 增加新能力,融合 GPT-5.5 的 Agentic Coding 与工具调用能力。Rosalind 可自主生成假设、调用工具模拟、设计实验方案并追踪工作流可重复性,面向药物发现、分子分析、实验设计及湿实验流程。该模型非通用模型加生命科学提示,而是从头针对药物发现、蛋白设计等场景专项强化,支持企业级海量数据处理、跨团队协作与合规审计。命名致敬 DNA 结构科学家 Rosalind Franklin。
We're bringing new capabilities to GPT-Rosalind, a model series purpose-built for life sciences research at enterprise s...
微软CEO纳德拉在Build 2026阐述「Frontier Intelligence Platform」战略,主张企业AI竞争壁垒来自私有评测集与运行轨迹数据,而非模型采购;Azure网络团队通过Agent系统Miles自动化500余名运维人员知识。月之暗面发布Kimi Work Beta桌面端,基于Kimi K2.6模型,支持最高300个子Agent并行、13小时编码、4000余次工具调用,能自主完成金融调研、科研数据分析和128页报告生成;开发中92%代码由AI生成。腾讯研究院3万字报告量化超级个体与组织效率的关系。三篇内容指向人机协作边界重塑。
微软CEO纳德拉在Build大会阐释Frontier Intelligence Platform战略,强调私有评测集为企业AI核心IP;月之暗面Kimi Work Beta上线,92%代码由AI生成,桌面端Working Agent正式推出;腾讯研究院发布3万字报告,提出组织竞争力公式:人才密度×AI杠杆/组织摩擦。
Kim受邀首次参加微软Build,参观GitHub HQ、参与多场会议并见到Satya Nadella,认为远超预期。微软发布7个新AI模型(定位中端、约Sonnet级别、价格亲民),新Surface Laptop Ultra配新芯片对标MacBook Pro,展示Project Solaris和智能体手持设备等实验项目,推出改版Copilot应用,企业版新增智能体功能及新量子芯片。作者认为微软正认真听取反馈,在各个方向推动变革。
The VFX industry is cooked
Watch this video. Now imagine this swarm, controlled by AI agents, with an explosive on each drone. It's Biblical.
I don't believe any company accidentally spent $500 million on Claude in a month. The number is an order of magnitude to...
World Labs团队与李飞飞发文,梳理“世界模型”这一被滥用的术语。对比语言模型学习文本统计,世界模型学习空间与时间统计(如光照、物理规律)。基于部分可观马尔可夫决策过程(POMDP)框架,智能体通过动作影响世界状态,观测是部分视图。当前被称为“世界模型”的不同系统本质上是同一循环的不同投影:第一类为渲染器,输出给人眼看的像素,以视觉保真度为核心。文章着重于概念分层,未给出具体模型名、参数或基准分数。