AIHOT

全部动态X · 4026 条

全部一手资讯 X 论文

向阳乔木@vista8 · 6月3日54

果然做过的人的分享就是不一样，Laten Space 访谈了 Ethan He，罗列一些观点： 1. 模型进步速度，来自于团队迭代速度。 2. 模型质量提升，往往不来自新算法，而是来自修数据和训练流程里的BUG（最近好多研究员播客访谈都提到类似观点） 3. 视频模型训练需要文本视频对标注，画面描述要详细到让盲人听完文字，能在脑海中重建这段视频。 4. GPT Image 生成一张图要几分钟，大部分时间不是在生成像素，而是在"思考"重写提示词。 5. 让语言模型描述音乐细节，就像让盲人描述颜色一样困难。 6. 扩散模型会成为人机交互的前端层，用户看到的所有界面都由生成模型实时渲染。 7. 人类的最大输入带宽是视觉（看），最大输出带宽是语音（说）。在脑机接口普及前，最自然的人机交互方式，是用户说话，AI 用生成式画面回应。

译本文转述了Laten Space对Ethan He的访谈。他分享了AI开发的核心经验：模型进步取决于团队迭代速度；质量提升常源于修复数据与训练流程的BUG而非新算法；视频模型需要极详尽的文本标注。他还指出，图像生成耗时主要在“思考”重写提示词，且语言模型描述音乐细节非常困难。在脑机接口普及前，最自然的人机交互将是用户说话，AI用生成式画面回应。

查看原推 ↗

Elon Musk@elonmusk · 6月3日22

Trust Grok

译信任 Grok。

查看原推 ↗

PixVerse@PixVerse_ · 6月3日26

🥰

译🥰 [引用 @pinkshihtzu]：当导火索到达雪山山顶时… 像孩子一样看世界。用PixVerse创作它🎈✨ @PixVerse_ #PixVerseChallenge #pixverse

查看原推 ↗

meng shao@shao__meng · 6月3日36

因为鼓吹「程序员将在六个月内被全面取代」的自媒体们，在这六个月内，已经成功被程序员们用 Agent 取代了！！

译推文讽刺了一个现象：此前部分自媒体鼓吹“程序员将在六个月内被AI全面取代”，但六个月过去，这些自媒体本身反而被程序员利用AI Agent（智能体）工具取代了工作。引用推文补充了这一论调已流传约六个月的时间背景。

查看原推 ↗

SiliconFlow@SiliconFlowAI · 6月3日67

@karpathy 's llm-wiki hit 5,000+ stars in weeks. The idea: stop re-discovering knowledge every session. Let an LLM build and maintain a wiki that gets smarter every time you use it. Here's how to build your own with @opencode + @justsisyphus OMO + SiliconFlow 🧵

译@karpathy 的 llm-wiki 在几周内获得了 5,000+ 颗星。其理念是：停止在每个会话中重新发现知识。让一个大语言模型构建并维护一个维基，每次使用时它都会变得更智能。以下是如何使用 @opencode + @justsisyphus OMO + SiliconFlow 构建你自己的版本 🧵

查看原推 ↗

Tibo@thsottiaux · 6月3日20

ChatGPT Whether you understand the name or not. It's here to stay. It's the past, the present, the future. Synonym with AI, soon synonym with agents. Much to build.

译ChatGPT 无论你是否理解这个名字。它将一直存在。它是过去、现在和未来。它是AI的同义词，很快也将成为智能体的同义词。还有很多要构建。

查看原推 ↗

swyx@swyx · 6月3日46

probably the best reward function for reasoning efficiency i've seen

译可能是我见过的最好的推理效率奖励函数。

查看原推 ↗

宝玉@dotey · 6月3日72

可以以假乱真了

译推文展示 GPT Image Gen V2 根据详细提示词生成的图像效果，被评价为“可以以假乱真”。生成的图像模拟了短视频应用的手机自拍截图，具备特定视觉特征：包括低分辨率帧、美颜滤镜平滑、压缩模糊、柔焦及动态模糊。画面主体为一位动漫cosplay风格的女性，外貌、发型、服装和普通卧室背景均有细致描述，并包含了应用界面UI元素，整体风格追求真实手机拍摄的质感。

查看原推 ↗

宝玉@dotey · 6月3日60

Codex 这个小功能我很喜欢，直接一键 commit changes，自动生成 commit message

查看原推 ↗

meng shao@shao__meng · 6月3日46

稍等！ WorkBuddy？桌面办公智能体第一？腾讯这是根据哪里的统计得来的数据？

查看原推 ↗

Ethan Mollick@emollick · 6月3日54

Had Claude Code build a snake game where the snake becomes aware it is in the game and then... stuff happens. Some impressive creative decisions by the AI (& also some very AI ones), I just gave a first prompt and some feedback on the game as it went. https://snake-awakening.netlify.app/

译让 Claude Code 构建了一个贪吃蛇游戏，其中蛇意识到自己身处游戏之中，然后……事情发生了。AI 做出了一些令人印象深刻的创意决策（也有一些非常“AI”的决策），我只给了第一个提示词，并在游戏进行中提供了一些反馈。https://snake-awakening.netlify.app/

查看原推 ↗

宝玉@dotey · 6月3日52

虽然很多人吐槽 Opus 4.8，但是写 Mac App UI 真的强，Claude Design 设计出来，用 Opus 4.8 去实现，还原度相当不错。感觉我要发布一个 Mac App for X 了

译推文指出，尽管有人批评 Opus 4.8，但它在编写 Mac App UI 时能力很强，配合 Claude Design 使用，界面还原度相当不错。作者同时引用了对 Cursor Agent 的评价作为对比：在常用 GUI Agent 中排名为 Codex App、Cursor 和 Claude Desktop。Cursor 的亮点包括支持多任务并行和灵活选择模型，Plan 模式步骤详细稳定；不足是暂不支持 /goal、手机版，且调试功能仅有内置浏览器。

查看原推 ↗

凡人小北@frxiaobei · 6月3日32

chatgpt 和 codex 是该合并了，我现在打开手机总搜索 codex。

查看原推 ↗

凡人小北@frxiaobei · 6月3日56

Codex 新发布的这几个插件宣传大于实际，插件底层把能团结的友商全拉进来了。如果你是相关 saas 或者工具的用户，那可以满足不少日常工作。但更严谨一些，每个公司每个人都有自己的业务逻辑和规范，最终要起飞还得沉淀自己的 marketplace 和 plugin / skill。回到这个逻辑，Pete 最近采访 YC，关于YC 如何进行 AI-Native 组织改造，值得一看。

译OpenAI Codex推出一系列新插件，覆盖数据分析、创意生产、销售、产品设计、股票投资和投行等场景，标志着其定位从程序员专用工具向更通用的AI智能体（Agent）转型。然而，有观点认为这些插件目前“宣传大于实际”。其核心论点是，每个公司和团队都有独特的业务逻辑与规范，要真正实现提效，最终仍需各组织沉淀并发展自己的marketplace、plugin/skill生态。

查看原推 ↗

向阳乔木@vista8 · 6月3日25

在杨攀群里看到的转帖，笑死了😂 新智元：xxx 已死

查看原推 ↗

数字生命卡兹克@Khazix0918 · 6月3日65

http://x.com/i/article/2062025288771584000 # 分享Claude Code团队内部的5条工作原则，我觉得每一条都值得学习。今天看到了一个我觉得还挺有价值的东西。就是凌晨的时候，AIHOT上推了Claude Code的一篇blog。还是蛮少见的，很少见类似于Claude这种真正的AI公司，来分享一些组织上的一些想法和思考。特别这次分享的作者，还是当红炸子鸡Claude Code团队的工程总监，Fiona Fung。聊得主题就是他们团队作为AI原生组织，在工作方式和流程上的一些变化。我全部看完了，顺带也把那个半个小时演讲的视频给看完了，还是有很多共鸣的，因为很多思路和想法我们团队也在这么做这么践行的。尤其是她反复提到的一个习惯，就是他们团队里，每遇到一个问题，都会再追问一句：能不能把这件事自动化。这跟我自己一直在说的理念、跟很多朋友提到的一个习惯是一样的。就是如果一件事你需要重复3遍以上，请想尽一切办法，用AI将其自动掉。今天看到Claude Code团队居然在用几乎一模一样的逻辑来运转整个工程组织，还是挺兴奋的。所以想把这篇分享里的一些有价值的东西拎出来聊聊，希望能对大家有用。最最开始的时候，她其实有一个很有意思的判断。就是她说过去这么多年，软件工程的所有流程，不管是瀑布还是敏捷，所有那些规范啊方法论啊，本质上都是围绕一个核心成本在转，就是写代码太贵了这个事。工程师时间贵，所以你得花大量时间做规划、写需求文档、做各种各样的评审、开各种各样的会，全是在管理这个最贵的资源。我相信过去在互联网行业里面待过的小伙伴都能感同身受。但在AI时代，或者说，Agent时代。这个前提变了。在Claude Code团队，写代码已经很少是那个拖慢速度的环节了。那问题就来了，如果写代码本身不再是瓶颈的话，那围绕它的所有上下游的流程，就全部都得重新想了。 Fiona Fung提到了一个非常核心的词，也是她整个分享的最重要的词：转移。瓶颈没有消失，只是转移了。转移到了验证、代码评审、安全。代码生成太快了，新问题变成了，这些代码对不对，怎么维护，人到底该如何跟得上review代码的节奏。左边灰色的就是是旧瓶颈，写代码和发布代码的产能。右边黑色的就是新瓶颈，验证、评审、跨职能协作、安全。这个关于转移的判断，其实如果用AI来介入组织结构里面越深，大家的感触可能就会越明显。我们的组织结构、流程，其实都需要围绕着这个大的变化来去重新设计。就像当年从马车到汽车，不只是把马换成发动机的事儿，我们的整个公路系统、交通规则、城市规划，全都得重新设计。那具体哪些东西需要重新来呢，Fiona列了一张图。列了五个旧流程正在悄悄失效的领域。 1. 规划方式，因为工程速度和产出量完全不同了。 2. 代码所有权，谁写的这段代码变成了一个很奇怪的问题。 3. 代码评审，新的规模、新的形态、新的工具。 4. 团队构成，角色在模糊化，到底什么技能组合才是你需要的。 5. 知识共享，文档不再是唯一的真相来源了。然后她对应地讲了五个她们重建的新规范。包括要让人类的判断力，聚焦在真正需要的地方；新人入职的成本大大降低，甚至一周就可以直接开始产出代码了；少做前期规划，多做原型；招聘更看重创造力和判断力，不看纯产出速度；组织架构更扁平，每个管理者也都先从一线干活开始做起。这里面每一趴，她又都展开来做了一些分享。一. 规划的变化以前因为coding时间贵，你得花大量时间提前规划。 Fiona说她刚加入Claude Code团队的时候，他们写了一个挺漂亮的六个月路线图。结果呢，因为Claude Code本身迭代太快，三个月左右这个路线图就过时了。。。所以他们现在的做法叫JIT规划，Just-In-Time，像JIT编译一样，在对的时间做恰好足够的规划。不再写长篇大论的设计文档了，直接在PR或者原型里面讨论，不再做冗长的产品评审了，先做原型，让内部用户去用，然后根据反馈快速迭代。左边是她们砍掉的东西，就是那个写代码之前必须先写设计文档的仪式。Fiona说对大部分工作来说这就是theater，做戏。现在换成原型先行，文档如果需要存在，写完代码之后感觉可以的话，再补需求文档。右边是她们加码的东西，验证。因为在AI原生的工作流里，东西出bug的方式跟以前不一样了，唯一能保证质量的方式就是不断把验证流程往前推。她还讲了一个观点我觉得特别好。在技术讨论中，代码赢才牛逼。就是如果两个人对一个方案有分歧，最快的解决方式不是继续吵，是让Claude把两个方案都做成原型，看实际的东西来判断。 Building is cheap，做东西很便宜。 Arguing is expensive，争吵才昂贵。想起了当年，互相争某个方案，然后各自PK可能要各写一份PPT，开两轮会来讨论，现在十分钟两个原型都出来了，看着实物聊比对着PPT吵高效一万倍。。。我自己也是类似的路径。以前做AIHOT的时候还试过写比较详细的PRD，结果发现写PRD的时间比我直接用Claude Code把东西做出来还长。。。后来就改了，有想法先做原型，能用了再说。很多功能都是在用的过程中发现不对，当场就改，极速迭代。。。坦率的讲，在AI时代，我觉得过度规划就是浪费。二. 自动化的变化 Fiona说的，在Claude Code团队里，他们每遇到一个这样的问题，都会追问一句，能不能把这件事自动化。她举了一个她自己的例子，她以前每天早上端着咖啡，手动去总结各个客户反馈渠道的内容，这是她的每天固定的工作。后来她把这件事变成了一个后台自动运行的任务，咖啡还是那杯咖啡，但她不再需要边喝边刷了。这个例子听起来很小对吧，就一个总结客户反馈的事儿，能有多大工作量。但重点不在这一件事，重点在这个习惯。 Claude Code团队里每个人，每次遇到一个重复性工作，都会条件反射地问自己，能不能自动化，她说，已经快形成了一种肌肉记忆。这就是我一直在说的东西。如果一件事你需要重复3遍以上，请想尽一切办法用AI将其自动掉。在公司里面我反复跟团队讲，这甚至不是建议，是要求。但坦率的讲，要真正把这个变成团队的肌肉记忆，比说出来难太多了。因为大多数人对自动化的理解还停留在一个很粗的层面，觉得自动化就是写个脚本嘛，搞个定时任务嘛，这我知道，但AI时代的自动化跟以前完全不是一个量级的东西。现在你用Claude Code，很多自动化的事情十分钟就搞定了，甚至不用十分钟。比如我为了同步家里电脑和公司，我就跟Claude说了一句“帮我写一个hook，每次打开我的XX项目之前都去github拉取最新的代码”，几分钟就能跑起来。以前自动化成本高，所以只有高频、高重复度、高价值的事情才值得自动化，但现在自动化成本几乎为零，逻辑就反过来了，几乎所有重复超过3次的事情都应该自动化。除了工作流之外，触发器hook是一个非常好用的东西，这个我感觉以后我可以单独给大家写一篇Agent+hook搞自动化的一些小玩法，还是挺有意思的。一个一个小的自动化攒起来，你会发现，最后这些东西，会在你可能都没反应过来的时候，一起长成了一颗苍天大树。所以如果你现在还在犹豫要不要开始，我的建议是别想太大。别一上来就想着我要搭建一个完整的自动化体系这种东西，那太吓人了，也没必要。就从今天开始，找一件你今天重复做了的事情，花十分钟让Claude Code或者Codex帮你自动化掉。明天再找一件，后天再找一件，一个月以后你回头看，你的工作方式已经完全不一样了。三. 代码评审的变化代码评审这块，Fiona说她过去六个月跟其他工程leader聊天，被问到最多的一个问题就是，你们人怎么跟得上代码review的速度。她的做法叫Trust but verify，信任但验证。 Claude Code团队大量使用Code Review功能。 Claude负责处理所有的风格检查、linting、PR反馈、bug捕捉和修复、补充测试，这些以前可能占了review工作量60-70%的部分，现在Claude全接了。但人类review仍然不可替代，在那些真正需要专业判断的地方。法律合规的东西，Fiona说她永远需要她的法务伙伴参与风险评估，信任边界和安全敏感代码，需要领域专家，产品方向和品味的判断，需要PM和设计师。而且她特别强调了，这个trust和verify之间的平衡是动态的。今天需要人来做的事情，下一个模型可能就能做了，所以你必须得不断重新评估这条线。这就跟打游戏一样嘛，每个版本的版本答案都不一样，你不能拿上个版本的攻略打新版本，那只会被人干死。四. 团队角色的变化 Fiona说在Claude Code团队，角色界限已经变得很模糊了。 PM在大量写代码，工程师也在做内容和设计的事情，以前泾渭分明的边界正在消融。比如以前一个工程师修了个bug，要等内容设计师排期来写用户端的文案，排期这个破事大家懂的都懂，结果要么等好几天，要么赶进度发一个凑合的文案出去。现在的流程是工程师修完bug，Claude来起草文案初稿，人类来做最终判断，当天就能发。跨职能的gap不再是瓶颈了，开始变成了协作者，人类还是做最终决策的那个人，只是不再是写初稿的那个人了。然后她说了一个我非常认同的观点，她现在招人主要看两种特质。一种是有产品sense的创意builder，能识别出该做什么，能快速做出原型。她还特意在描述里强调了一句： Taste is scarce, typing is not. 品味是稀缺的，打字不是。另一种是有深厚系统背景的工程师，负责那些「trust but verify」里最需要人的部分，因为subtly wrong is still wrong，微妙的错误仍然是错误。她说我根本不在乎你一个小时能写多少行代码，我在乎的是你选择去做什么，以及你怎么知道它是对的。当AI能把执行速度提升10倍的时候，决定性的因素变成了你知不知道应该做什么，以及什么样的结果叫真正的优秀。这，就是品味。五. 如何推动团队变化 Fiona她们团队有一些有意思的核心原则。她把团队原则分成了两类。左边灰色是必须做的硬性要求，右边黑色就是大家自己摸索的空间。其实本质上，就是给团队设计了一个harness，核心就是大的方向统一，具体怎么落地各团队自己定。 Fiona总结了三条她最看重的事情。 1. 保持团队尽可能扁平，管理者支持各个小组的工作，但保持灵活让人能流动到工作需要的地方。 2. 如果Claude能做的事情，就让Claude做，这能让我们腾出手来做更难的工作。 3. 人不会主动去删除流程，只会在旧流程上面继续叠新流程，所以你得主动站出来，指名道姓地说出哪些流程可以走了。这三条说起来都没啥特别的，但难在执行，特别是第三条。 Fiona说，她之前在一个团队里，有一个每周的review会议，一大堆人坐在会议室里，但她发现所有人都在看电脑，只有轮到自己汇报的时候才抬头说两句status，说完又低头继续看电脑（我相信我们很多时候的会议也都是这样的）。然后她问了一句，我们为什么还在开这个会。这时候，所有人才意识到，好像，这个会根本不需要。于是，从此，这个会就取消了。这种事太常见了，国内的公司里其实到处都是。无数的流程和会议，当初设立的时候都有道理，但环境变了、工具变了，它们早就失去了存在的意义，只是因为惯性还在那里被迫转着。没有人觉得它有用。但，好像很多时候，也没有人站出来说一句这破逼会太浪费时间了，能不能别开了。 AI在你的组织里介入的越深，你会发现，很多过去的步骤和流程，其实液晶可以自动化了，如果我们不主动去审视，那这些步骤就会一直在那里，最后，变成纯粹的形式主义。最后，Fiona还放了三个她在思考的问题，她没有答案。但是很有意思。第一，你还需要单独的iOS和Android团队吗？因为现在工程师已经可以更灵活地跨平台工作了。第二，全自动化的review到底能推到多远，在「够快了」和「我们漏掉了什么重要的东西」之间那条线在哪里？第三，当角色越来越模糊的时候，怎么确保所有角色都对自己的产出有信心？我觉得她把这三个问题放出来这个动作本身就很有价值。因为你会发现，即使是Claude Code的亲爹团队，也没有把所有事情都想明白。他们也在摸索，很多时候，这就不是一个有标准答案的事情。每一次的大型技术的到来，其实都不只是工具升级，整个组织的运作方式很多时候，都要推倒重来。所谓的AI原生，AI Native，其实也并不是买几个Claude会员或者包个API Key啥的，给大家用就算AI转型了，我一直觉得真正的AI原生组织，从规划方式到知识管理到评审流程到人才结构，每一层都是重新设计过的。我们也没有做到，但是还是在不断的朝这个方向努力，最近加入的一些新的小伙伴，他们的好奇心和自驱力，且没有被过去一些传统且饱受诟病的工作方式所污染，已经感觉让我看到了一些雏形了。而贯穿所有这些变化的，我觉得其实就是开头说的那个最朴素的思维习惯。遇到重复的事情，自动化掉。遇到没用的流程，干掉。遇到不需要人做的判断，交给AI。一个一个来，不着急，但不能停。最后，用Fiona的最后一段话作为结尾吧。 Pick your noisiest workflow. Ask if it still earns its place. 找到你最繁琐的那个工作流，问问它。是不是还配占着这个位置。

译Claude Code团队工程总监Fiona Fung分享该团队作为AI原生组织的工作原则。其核心判断是，AI时代软件开发的瓶颈已从“写代码”转移到“验证、代码评审与安全”。为此，团队重建了多项工作规范：采用JIT规划，用快速原型取代冗长的前期文档；将“能否自动化”培养为团队肌肉记忆，用AI解决重复工作；代码评审上采用“信任但验证”，由Claude处理大部分检查，人类聚焦于判断；团队角色界限模糊化，协作更加灵活。这些变化旨在让人类判断力聚焦于真正关键之处，新成员甚至能在一周内开始产出代码。

查看原推 ↗

SemiAnalysis@SemiAnalysis_ · 6月3日64

OPINION: Codex Desktop App UX & in-app browser is so good for vibing now. Once the OpenAI base model gets better at design, I can imagine codex beating Claude Code CLI soon on SemiAnalysis VibeMAX benchmark just due to better UX. Right now Claude is S tier on VibeMAX & Codex is A+ tier on VibeMAX. Anthropic over investing in Claude Code terminal CLI & underinvesting in Claude Code Desktop App is a fork in the road in the wrong direction.

译观点：Codex桌面应用UX和内置浏览器现在非常适合“氛围编程”。一旦OpenAI基础模型在设计能力上提升，我预计Codex凭借更好的UX，很快就能在SemiAnalysis VibeMAX基准上超越Claude Code CLI。目前Claude在VibeMAX上是S级，Codex是A+级。Anthropic过度投资Claude Code终端CLI，而对Claude Code桌面应用投入不足，这是走错了岔路。

查看原推 ↗

Yuchen Jin@Yuchenj_UW · 6月3日63

Opus 4.8 doesn’t feel like a big upgrade from Opus 4.7. Meanwhile, GPT-5.4 to GPT-5.5 felt like an actual jump. Now I’m really curious what 5.6 looks like. Is Anthropic saving Mythos for the IPO or what?

译Opus 4.8 相比 Opus 4.7 没有带来很大的升级感。与此同时，GPT-5.4 到 GPT-5.5 的升级感觉是真正的飞跃。现在我很好奇 5.6 会是什么样子。 Anthropic 是在为 IPO 保留 Mythos 吗？

查看原推 ↗

向阳乔木@vista8 · 6月3日26

越来越喜欢用Codex了，身边朋友也是。今天让朋友写个新书推荐语，发了书稿样章，朋友说待会我丢给 Codex 😂 查看最近Codex的Token统计，已不间断连续用了11天，最长任务8小时。欢迎留言晒数据，打开 Codex -> 个人资料能查看。

译推文表达了对 Codex 工具的喜爱。用户提到让朋友用 Codex 撰写新书推荐语，并分享了自己的使用数据：已不间断连续使用 11 天，单次最长任务时长为 8 小时。推文最后邀请其他用户在 Codex 个人资料中查看并分享自己的 Token 使用统计。

查看原推 ↗

向阳乔木@vista8 · 6月3日62

这个朋友写的Skill有意思，帮你监控Codex的重置消息，哈哈哈。第一时间切fast模型，消耗用量。安装指令有点长，见评论区，复制发给codex用就行。

查看原推 ↗

Logan Kilpatrick@OfficialLoganK · 6月3日16

to be underestimated is to be free

译被低估，即是自由。

查看原推 ↗

Chubby♨️@kimmonismus · 6月3日64

http://x.com/i/article/2061993838718382080 # What a day. OpenAI turns Codex into a work platform, Microsoft ships an entire agent stack. 06/02/26 What a day. OpenAI turns Codex into a work platform, Microsoft ships an entire agent stack. 06/02/26 recap. Lets start with OpenAI, because it's bigger than one number. OpenAI is recasting Codex from a coding tool into a productivity app for everyone. Today they launched six role-specific plugins that make Codex useful without writing a line of code, from data analytics (Snowflake, Databricks, Tableau) to creative production (Figma, Canva, Shutterstock). 62 apps and 110 skills bundled in. Plus Codex Sites: in preview, Codex can now build interactive, hosted websites and apps (dashboards, planners, review workspaces) and share them by link across a workspace. This is the groundwork for merging ChatGPT, Codex, and the Atlas browser into one desktop app. The numbers behind it are exciting. Per an internal all-hands (via The Information): 5 million weekly Codex users, enterprise revenue up 50% week over week, usage growing 5% a day. And GPT-5.6 is already on the horizon. https://x.com/kimmonismus/status/2061961710823686489 On top of that, the milestone: the ChatGPT app crossed 1 billion monthly active users - the fastest app in history to that mark, in three years. Maps, YouTube, and TikTok each needed five to eight. But the main event was Microsoft Build 2026 in San Francisco. Three hours of Nadella, and the message was clear: Microsoft no longer just resells OpenAI, it ships its own. 7 in-house MAI models. Headlined by MAI-Thinking-1, Microsoft's first reasoning model, trained entirely on licensed data with no distillation from GPT. 35B active parameters, 256k context, and in Microsoft's own blind tests it beats Claude Sonnet 4.6 and matches Opus 4.6 on coding. Plus MAI-Code-1-Flash (rolling out to all GitHub Copilot tiers today), image models (already live in PowerPoint), transcription across 43 languages, and a new voice model. Suleyman claims one is 10x more efficient than GPT-5.5. The full enterprise / agent stack — this is where Build really lived: - GitHub Copilot app (preview): a native desktop app bringing agentic workflows out of the IDE, alongside a new GitHub Copilot CLI for the command line. https://www.youtube.com/watch?v=mv6MMQ2j128&source_ve_path=MjM4NTE&embeds_referring_euri=https%3A%2F%2Fgithub.blog%2F - Microsoft IQ (GA): the unified context layer for agents, combining Work IQ (workplace knowledge inside the M365 trust boundary), Fabric IQ (business semantics), Foundry IQ (enterprise knowledge + retrieval), and the new Web IQ (live web grounding that already powers Copilot and ChatGPT). Build once, reuse across GitHub Copilot, Foundry, and Copilot Studio. - Microsoft Foundry as the agent factory: Hosted Agents with sub-100ms sandbox cold starts and zero idle cost, Toolboxes, tracing and evals, an Agent Optimizer, and one-click publishing of any agent straight into Teams and Microsoft 365 Copilot (GA June). Fireworks AI's open models also went GA on Foundry. - Agent 365: the framework-agnostic SDK went GA (free, supports Microsoft Agent Framework, OpenAI Agents SDK, LangChain, Semantic Kernel). Local Agents (preview) can even discover agents like Claude Code and GitHub Copilot CLI on managed endpoints, and Microsoft 365 E7 now bundles Agent 365 with E5, Copilot, and Entra. - Project Rayfin (preview): a managed backend-as-a-service on Fabric, so developers can take agentic apps from prototype to production. - Azure Agent Mesh (announced, GA Q4): a control plane that federates agent execution across machines and geographies. - Project Solara — Microsoft's bet on agent-first hardware. A chip-to-cloud platform built from the ground up for devices that run AI agents instead of apps. It's based on a fork of Android (the Microsoft Device Ecosystem Platform, MDEP) rather than Windows, with enterprise security baked in via Intune, Entra ID, and Windows Hello, plus "just-in-time UI" that reshapes itself to whatever device it's running on. Microsoft showed two reference designs (not products it plans to ship itself) - A desk companion that signs you in with facial recognition, responds to voice, and surfaces your most pressing items from Outlook, Excel, and M365. Plug in a monitor and it becomes a full cloud-hosted Windows machine. - The agent handheld / wearable badge - a reimagined employee ID card. A fingerprint button wakes an agent in one press, a single tap records and transcribes a conversation, and a built-in camera lets the agent act on what you're looking at. Fully mobile with 5G and a touchscreen. - Microsoft Discovery (GA): an agentic platform for scientific research, already used by BHP, GSK, and Syensqo. Plus Frontier Tuning (private preview), which lets agents learn your business inside your compliance boundary -OpenClaw comes to Windows. Peter Steinberger — the "ClawFather" — was actually on stage. His viral open-source agent (one of the most-starred GitHub projects ever, now MIT-licensed under a foundation) now runs natively on Windows through Microsoft's new containment layer. The live demo leaned into the obvious anxiety: someone asked OpenClaw to wipe a messy desktop, and it couldn't, because its container was set to read-only. Microsoft is promising "very granular" control over what files an agent can touch. The theme over all of it: Microsoft is recasting Windows, Azure, GitHub, and M365 as the operating environment for agents — moving developers from writing code to orchestrating systems of agents. Surface RTX Spark Dev Box. A mini workstation on NVIDIA's new RTX Spark superchip: 1 petaflop of AI compute, 128GB unified memory, running 120B-parameter models locally with a 1M-token context. No cloud call. A direct shot at per-token pricing. Mayo Clinic. Microsoft and Mayo are building a frontier model for healthcare. Mayo owns it; long-term it's meant to support clinicians and improve how Copilot answers health questions. Majorana 2. The new quantum chip, with claims of 1,000x higher reliability and a commercial quantum machine by 2029. Caveat: the claims rest on a non-peer-reviewed preprint, and independent physicists are openly skeptical. I wouldn't celebrate this one uncritically. Copilot Super App? Teased, not shown. Nadella said Chat, Cowork, and Code would land in one Copilot app "come summer." The through-line on both sides: nobody's selling models anymore. OpenAI is turning Codex into the operating system of work; Microsoft is turning its whole stack into an agent platform. 2026's race is officially a platform race.

译OpenAI将Codex从编码工具升级为生产力平台，新增六大角色插件并集成62个应用，还推出Codex Sites功能。关键数据显示，Codex周活达500万，企业收入周环比增长50%，GPT-5.6即将发布，ChatGPT月活已突破10亿。微软在Build 2026大会上发布完整智能体栈，推出自研推理模型MAI-Thinking-1（35B参数，256k上下文），其在编码盲测中超越Claude Sonnet 4.6。同时，微软发布了Agent 365、GitHub Copilot桌面应用、Microsoft IQ上下文层，并公布了专为智能体设计的硬件项目Solara。

查看原推 ↗

Rohan Paul@rohanpaul_ai · 6月3日60

AI agents should treat memory as a changing web of useful connections, not static storage. Most agent memory systems retrieve old facts as if the past were a filing cabinet. The paper proposes FluxMem, a memory system that stores facts, past task episodes, and reusable skills as connected pieces in a graph. When the agent works on a task, FluxMem first gathers likely useful memories, then uses feedback from the task to fix the memory connections by adding missing links, removing bad ones, or rewriting memories at the right level of detail. Over time, it also turns repeated successful task paths into reusable skills, so the agent does not need to rebuild the same reasoning pattern again and again. The authors tested FluxMem on long conversation memory, web navigation, and general assistant tasks, which checks whether the idea works across very different agent problems. FluxMem got stronger results than the compared memory systems, including 95.06 average accuracy on LoCoMo and a 12.73-point gain on GAIA with Kimi K2. The big deal is that the paper shifts agent memory from “store and retrieve” toward “keep repairing and strengthening the connections that actually help the agent act.” ---- Link – arxiv. org/abs/2605.28773 Title: "Rethinking Memory as Continuously Evolving Connectivity"

译FluxMem是一种新型AI智能体记忆系统，其核心思想是将记忆视为一个动态连接的网络，而非静态存储。它将事实、过往任务经历与可复用技能作为图中的节点进行存储。执行任务时，FluxMem先收集可能有用的记忆，再根据任务反馈动态修正记忆间的连接关系。此外，系统能将反复成功的任务路径转化为可复用技能。测试显示，该系统在LoCoMo基准上平均准确率达95.06，并在GAIA基准上结合Kimi K2取得了12.73分的性能提升，优于现有记忆系统。

查看原推 ↗

meng shao@shao__meng · 6月3日75

Agentic Engineering 实战窍门全录（2026年6月版）来自 @mvanhorn 的分享 👏🏻，他三个月内从「高中后没发布过有价值软件」到 last30days（27K stars）、Printing Press、Agent Cookie，以及对 Python、Go 等主流项目的实质贡献（结尾列出作者推荐全部工具）看看 Agentic Engineering 给软件开发带来了什么变化 · 80% 编码，20% 规划 -> 规划交给 agent，人做方向与品味 · 人在键盘前执行 -> 人做 signal（信号），agent 做 volume（产出量） · IDE 是中心 -> 终端 + plan.md + 语音是中心方法论骨架：Research → Plan → Work /last30days（社区现况调研） ↓ /ce-plan（结构化 plan.md，含验收标准） ↓ /ce-work（机械执行，可跨 session 续跑） ↓ Human Signal（品味、取舍、纠偏） Compound Engineering 是使这套循环落地的插件（/ce-plan、/ce-work、/ce-brainstorm）。plan.md 的价值不在于给人读，而在于约束 agent 不偷懒——有研究、有方案、有 checkbox，执行才完整。 # 22 条 Hack 的精简归类一、规划层（最重要） 1. 有想法立刻 /ce-plan，不先想、不先写代码；模糊时用 /ce-brainstorm 再 plan。 2. plan 给人看，但作者几乎不读——plan 是 agent 的作业；人只 skim 标题，有疑问 inline 问（TLDR / eli5 / why this approach）。 3. 非工程任务同样适用：「make a plan for the plan」——先规划如何产出 deliverable，再执行，避免 LLM 直接写成品时偷工减料。 4. plan.md 也是协作介质：Proof 把 plan 变成可评论文档，非终端用户也能 review。二、执行与并行 5. cmux 多 tab（4–6 个）：plan 一个、build 一个、测 bug 一个……research 和 build 并行，cycle 回来第一个已完。 6. 新 terminal tab 默认进 Claude/Codex，不是 shell——降低开 session 成本。 7. YOLO 权限：bypassPermissions + skipDangerousModePermissionPrompt；多 session 无法逐条点确认。配合 Stop hook 音效，知道哪个 session 结束。 8. Claude 规划 + Codex 构建：Claude xhigh 关 fast mode；Codex xhigh 开 fast mode。通过 IDE 扩展、/ce-work --codex、Printing Press 委托，不必切 CLI。三、输入方式 9. 语音优先：Monologue / Wispr Flow（Mac）+ 鹅颈麦；手机用 Apple 听写即可——LLM 能补全转写错误。共享办公室仍是痛点。 10. Granola raw transcript 直接丢进 /ce-plan，不先摘要；配合 Printing Press Granola CLI 检索历史会议。 11. last30days 在 plan 前跑：Reddit/X/HN/YouTube 等并行搜，让 plan 基于「社区当下认知」而非训练数据 cutoff。四、随处可达 12. Remote control 常开：桌面 session 手机续接。 13. 给 Claude 一个邮箱（AgentMail + agentmail-to-claude-code）：邮件/附件触发新 session；Hermes 的 cc <task> 从手机派活。 14. Mac mini 远程：Mosh（低延迟 SSH）、tmux（断网续跑）、Hermes/OpenClaw 自治、Agent Cookie 同步 cookie/.env。五、产出扩展 15. HyperFrames：视频 = HTML composition → MP4；与代码 loop 同构（script.md → render）。 16. 笔记即 RAG：Bear CLI、Obsidian、gbrain、supermemory——agent 可读写的个人知识库，plan 质量随历史 compound。 17. 自写 Skills：重复两次以上的 workflow 固化；抄 Compound Engineering skill 的结构让 agent 脚手架。 18. 开源贡献：同一 /ce-plan + /ce-work loop；Discord 建人脉，PR 是入场券。六、Printing Press 与现实 errands 19. Agent-native CLI 舰队：Tesla 预热、Instacart、ESPN 盯赛、Alaska 订票——agent 跑生活琐事，不只是写代码。 20. Agent Cookie：把真实浏览器 session 交给 CLI，解决 auth 痛点。七、硬件与诚实反思 21. M5 Max 64GB + 禁 sleep + Anker 充电宝——多 agent 并行极耗电。 22. AI Psychosis：构建 loop 像最好玩的游戏，容易沉迷、忽视用户与身边人；允许「只为自己 build」；要 audience 则走长期积累路径。 # 工具栈一览（可执行清单） · 规划执行：Compound Engineering, Proof · 终端：cmux, Ghostty（读同一 config） · 语音：Monologue / Wispr Flow · 调研：last30days (+ ScrapeCreators key) · 会议：Granola, Printing Press Granola CLI · 远程：Mosh, tmux, AgentMail, Hermes, OpenClaw, Agent Cookie · 视频：HyperFrames · 笔记：Bear CLI, gbrain, supermemory · 生活 CLI：Printing Press, Agent Cookie · 第二引擎：Codex (xhigh + fast)

译该内容源自@mvanhorn的分享，介绍了“智能体工程”如何重塑软件开发。其核心是从“人主导编码”转向“人主导方向、智能体执行”，中心从IDE变为终端与计划文件。方法论遵循Research → Plan → Work循环，核心是让plan.md约束智能体行为。分享者总结了22条实战技巧，涵盖规划、并行执行、输入方式、远程控制等方面，并列出了完整的工具栈。

查看原推 ↗

meng shao@shao__meng · 6月3日11

认真看完每个字，心里久久不能平静！！有句话还是忍不住想问：这张图，是 AI 生成的吗 😄

译认真看完每个字，心里久久不能平静！！有句话还是忍不住想问：这张图，是 AI 生成的吗 😄 [引用 @Sizhe_bitcat]：真人真事！到底谁的错？

查看原推 ↗

Ethan Mollick@emollick · 6月3日53

My timeline seems to have people surprised that U Chicago is getting Claude, but tons of schools (including U Penn where I teach) have school-wide AI There are lots of things that need to be figured out about AI & scholarship but safe & equitable access is a necessary foundation

译我的时间线上似乎有人对芝加哥大学引入Claude感到惊讶，但许多学校（包括我任教的宾夕法尼亚大学）都已实现全校范围的AI接入。关于AI与学术研究，仍有许多问题需要解决，但安全且公平的接入是必要的基础。

查看原推 ↗

SenseTime@SenseTime_AI · 6月3日35

At SenseTime, we believe the future of #AI is shaped by continuously pushing the boundaries of #FoundationalInnovation. At the 2026 AI Innovation Forum, our Co-founder and Chief Scientist Dr. @lindahua highlighted an important industry trend: #ModelArchitecture optimization can significantly reduce the compute required per unit of intelligence. He also noted that China’s AI ecosystem should leverage application and model innovation to drive chip development forward. 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮 𝗨𝟭, SenseTime's latest multimodal model built on our proprietary 𝗡𝗲𝗼-𝗨𝗻𝗶𝗳𝘆 𝗮𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗲, demonstrates this in practice — achieving significantly lower #ComputeCosts in infographic generation while being simultaneously adapted to multiple #ChineseChips. At the same time, we continue developing AI solutions that genuinely solve user problems and create sustainable #CommercialValue, strengthening our long-term competitiveness in the evolving AI arena. Forum organisers: China International Capital Corporation Limited, @hkust

译在2026 AI创新论坛上，商汤联合创始人兼首席科学家指出，模型架构优化能显著降低单位智能的计算成本，并主张中国AI生态应通过应用与模型创新来驱动芯片发展。其最新多模态模型SenseNova U1基于自研Neo-Unify架构，实践了这一理念，在信息图生成任务中实现了显著更低的计算成本，并同时适配了多种中国芯片。商汤强调将继续开发真正解决用户问题、创造商业价值的AI解决方案。

查看原推 ↗

Sam Altman@sama · 6月3日59

theUSshould lead on AI by continuing to develop the very best models, making sure they're safe, and getting cyber tools into the hands of trusted defenders. the new EO gets the balance right.

译美国应通过持续开发最优秀的模型、确保其安全、并将网络工具交到可信的防御者手中来引领AI发展。新的行政令取得了正确的平衡。

查看原推 ↗

SenseTime@SenseTime_AI · 6月3日34

At SenseTime, we believe the future of #AI is shaped by continuously pushing the boundaries of #FoundationalInnovation. At the 2026 AI Innovation Forum, our Co-founder and Chief Scientist Dr. @lindahua highlighted an important industry trend: #ModelArchitecture optimization can significantly reduce the compute required per unit of intelligence. He also note that China’s AI ecosystem should leverage application and model innovation to drive chip development forward. 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮 𝗨𝟭, SenseTime's latest multimodal model built on our proprietary 𝗡𝗲𝗼-𝗨𝗻𝗶𝗳𝘆 𝗮𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗲, demonstrates this in practice — achieving significantly lower #ComputeCosts in infographic generation while being simultaneously adapted to multiple #ChineseChips. At the same time, we continue developing AI solutions that genuinely solve user problems and create sustainable #CommercialValue, strengthening our long-term competitiveness in the evolving AI arena. Forum organisers: China International Capital Corporation Limited, @hkust

译商汤联合创始人兼首席科学家在2026 AI创新论坛指出，模型架构优化能显著降低单位智能所需的算力。其新发布的多模态模型SenseNova U1基于自研Neo-Unify架构，实践了这一理念，在生成信息图时实现了显著更低的计算成本，并已适配多款中国芯片。商汤强调持续通过应用与模型创新推动芯片发展，以创造商业价值与长期竞争力。

查看原推 ↗

jason@jxnlco · 6月3日46

model 'gpt-image-2' doesn't exist https://chatgpt.com/s/m_6a1f701a74748191b883735fff3b28d7

译模型 'gpt-image-2' 不存在 https://chatgpt.com/s/m_6a1f701a74748191b883735fff3b28d7

查看原推 ↗

DogeDesigner@cb_doge · 6月3日21

Grok Imagine is pretty cool with logos. 🔥

译Grok Imagine 处理 Logo 的效果相当不错。🔥

查看原推 ↗

meng shao@shao__meng · 6月3日66

作为研发团队负责人，我经常要帮团队找合适的企业级工具。哪些产品提供免费版？免费版能否满足基本需求？后续升级需要多少预算？过去需要逐个打开官网确认。现在我把需求交给 BigSet，它直接整理出了一份 B2B SaaS 产品清单，包括产品分类、免费方案说明和定价页面链接。这类信息还可以定期更新。过去要花时间搜索和维护的资料，现在可以先从一句话开始。喜欢这个项目的话，可以在 GitHub 上给它一个 star 支持一下： https://github.com/tinyfish-io/bigset API Key： https://bit.ly/4dJnFB3

译开源项目 BigSet 允许用户用自然语言描述数据需求，从实时网络中构建并定期刷新结构化数据集。研发团队负责人邵猛在实际工作中使用它，自动生成了一份 B2B SaaS 产品清单，内容涵盖产品分类、免费方案说明及官方定价页面链接，省去了逐一查找官网的繁琐工作。该项目已在 GitHub 上开源。

查看原推 ↗

Tibo@thsottiaux · 6月3日26

@romainhuet in each of our Codex demos. Whether it's last minute or not. Doesn't matter. Always prepared. Whips out the laptop, proceeds through 23 different personas as if he were Kevin in Split.

译@romainhuet 在我们每次 Codex 演示中。无论是否临时准备。都无所谓。总是准备就绪。掏出笔记本电脑，像《分裂》里的凯文一样，切换了 23 种不同的人格。

查看原推 ↗

jason@jxnlco · 6月3日20

I have aphantasia so the gpt-image-2 error don't affect me

译我有心像缺失症，所以GPT图像生成错误对我没有影响。

查看原推 ↗

ginobefun@hongming731 · 6月3日70

http://x.com/i/article/2061947122350751744 # BestBlogs 早报 · 06-03｜动态工作流、Copilot 桌面、AI 工程范式在线阅读和收听：https://www.bestblogs.dev/explore/brief/2026-06-03 > EP76 · 2026-06-03 — AI 工程的范式正在被重写：Claude Code 突破单一上下文窗口、为每个任务动态生成编排脚本，GitHub Copilot 以智能体为核心推出桌面控制中心，提交量已突破 14 亿次/月。与此同时，腾讯云工程师从控制论视角论证，大模型是史上首个「认知引擎」，软件工程师的核心职责正在从「写代码」升级为「设计能自我纠偏的 AI 系统」。本期还涵盖任务保真度缩放定律、MiniMax M3 开源模型、NVIDIA Cosmos 3 及机器人供应链深度拆解，一并呈现这场变革的全貌。 ## 导语今天是 2026 年 6 月 3 日，AI 工具链的底层逻辑正在发生一次结构性升级。 Anthropic 正式推出 Claude Code 动态工作流：Claude 不再只能在单一上下文窗口里规划并执行，而是能即时为每个任务生成一套专属的 JavaScript 编排脚本，自主决定要启动多少个子智能体、使用哪种模型、是否在独立的 worktree 里隔离运行。触发词只需一个：ultracode。与此同时，GitHub 在 Microsoft Build 上发布了 Copilot 桌面应用——一个为并行 Agent 开发打造的统一控制中心。My Work 视图让你同时监管多条进行中的 Issue 和 PR，Canvas 面板实时显示 Agent 的工作进度，Agent Merge 全程处理 CI 和代码审查。在所有这些工具铺开的背景下，GitHub 的每月提交量已经突破 14 亿次，同比翻倍。本期精讲之外还有 7 篇速览，覆盖任务保真度缩放定律、AI 原生工程组织打造、MiniMax M3 开源模型、NVIDIA Cosmos 3、机器人供应链深度拆解、Agent 存算分离架构，以及贴吧 AI CR 落地 10 周后 bug 密度下降 66.87% 的完整实践。本期精讲三篇： - 精讲一：Anthropic 详解 Claude Code 动态工作流的工作原理与最佳实践 - 精讲二：GitHub 在 Microsoft Build 上推出以智能体为核心的 Copilot 桌面应用 - 精讲三：腾讯云工程师以控制论框架重新审视软件工程五十年与 AI 范式革命 ## 精讲一：为每项任务量身打造：Claude Code 中的动态工作流 | Claude Claude Code 面向的任务场景越来越复杂，但默认 harness 有一个固有限制：规划和执行必须在同一个上下文窗口里完成。随着任务变长、结构变复杂，这个窗口会越来越拥挤，开始出现「智能体懒惰」——Claude 开始抄近路；「目标漂移」——Claude 偏离了最初的任务目标。上周，Anthropic 发布了动态工作流（Dynamic Workflows），为这个问题提供了根本性的解法。动态工作流的工作原理动态工作流的核心是让 Claude 自己写一个 JavaScript 编排脚本，然后执行这个脚本来完成任务。这个脚本可以使用几个特殊函数来生成和协调子智能体（subagents），同时也可以调用标准的 JavaScript 工具：JSON、Math、Array 等。与静态工作流的关键区别在于两点。首先，动态工作流可以自主决定给每个子智能体使用哪个模型——这意味着 Claude 会把复杂的推理任务分配给更强的模型，把简单的信息采集交给更快的模型，在成本与质量之间动态权衡。其次，子智能体可以在独立的 worktree 里运行，实现真正的环境隔离，避免多个子任务互相污染工作状态。如果工作流被用户中断（比如关掉了终端），恢复会话后工作流可以从中断点继续，不需要从头再来。它解决了哪些具体的失败模式 Anthropic 在文章里明确列出了动态工作流针对的几类失败场景： - 长任务的上下文污染：单一窗口处理长任务时，早期的规划信息和后期的执行信息混在一起，Claude 开始迷失方向。 - 大规模并行任务：比如同时处理 80 份简历评级、同时从多个 Slack 频道抓取数据——这类任务天然适合多路并发，但默认 harness 无法原生支持。 - 高度结构化任务：比如让多个 Agent 分别扮演投资人、用户、竞争对手，从不同角度撕碎一份商业计划书。 - 对抗性任务：让两个子智能体互相挑战，形成一种反馈机制来提升结果质量。文章给出的几个示例 prompt 很有启发性：「这个测试大约每 50 次运行就会失败一次，用工作流来复现它，提出竞争性假设，不到找到能存活于证据的那个假设不要停」；「拿我最近 50 个会话挖出我反复在纠正的错误，把那些反复出现的写进 CLAUDE.md 规则」。这两个例子都展示了动态工作流的典型场景：需要反复迭代、需要并行比较、或者需要结构化协作的复杂多步任务。常见的工作流模式 Anthropic 总结了 Claude 在构建工作流时会组合使用的几种基本模式： - 分类执行（Classify-and-act）：先用一个 Agent 对输入进行分类，再把不同类别的任务分配给专门的下游 Agent。 - 排序（Sorting）：把大批量列表（比如 1000 条支持工单）按定性标准排序——单次 prompt 质量会随列表变大而退化，工作流可以分批处理再汇总。 - 竞争性验证（Adversarial check）：让一个 Agent 生成，另一个 Agent 专门找漏洞，循环直到结论站得住脚。使用建议动态工作流会消耗更多 token，不适合日常简单任务。最适合的场景是：任务足够复杂（单一上下文处理时质量会退化）、任务足够高价值（额外的 token 成本值得付出）、任务有结构化并行需求（多个角度、多个数据源、多个竞争性假设）。触发方式是在 prompt 里使用关键词 ultracode，或者明确要求「用工作流来完成这件事」。Anthropic 提醒，最佳实践仍在演进，建议首次使用时从相对简单的并行任务开始积累直觉，再逐步应用到更复杂的高价值场景。动态工作流与默认 harness 完全兼容，不需要时可以无缝回退，无需额外配置。对于正在用 Claude Code 处理复杂多步骤任务的工程师，这篇官方介绍值得仔细阅读：查看原文 ## 精讲二：GitHub Copilot 应用：以智能体为核心的桌面体验当 Agent 变成开发工作流的常态，管理多个并行 Agent 本身就成了一个新问题。你早上打开电脑，三件工作已经在推进中：一个 Agent 在排查生产 bug，一个 Agent 在实现积压需求，第三个 Agent 在处理代码审查反馈。你需要一个地方能同时看到这三个进度，能介入、能重定向、能测试、能合并。原有的开发工具并不是为这种工作方式设计的。在 Microsoft Build 2026 上，GitHub 发布了 Copilot 桌面应用，正是要填补这个空缺。 My Work：统一管理所有进行中的工作 Copilot 桌面应用的核心入口是 My Work 视图。这个视图汇聚了所有关联仓库里当前进行中的工作：活跃的 Agent 会话、Issue、PR、后台自动化任务。开发者不再需要在多个标签页之间切换来追踪不同 Agent 的状态，一个视图看全局。 worktree 隔离：Agent 会话互不干扰每一个 Agent 会话都在独立的 git worktree 环境里运行。这与 Claude Code 动态工作流的设计理念高度一致：隔离是并行 Agent 开发的基础——不同 Agent 的工作状态不会互相污染，合并时也有清晰的边界。 Canvas：双向协作面板 Canvas 是一个可视化的双向协作区域。Agent 工作时，你可以在 Canvas 里实时看到它的工作进度，也可以在任何节点插入反馈、调整方向。这种「异步介入」的交互模式与传统的「等待 Agent 完成再审查」不同，更像是一个真实存在的协作伙伴，只是它在你后台异步跑，你随时可以看进度并给意见。 Agent Merge：全程自动化 CI 和代码审查 Agent Merge 功能负责管理从 Agent 提交代码到合并的整个流程，包括触发 CI 检查、处理代码审查反馈、最终完成合并。开发者的精力可以更多集中在方向判断和质量审核，而不是流程管理。 Copilot 代码审查的定制化扩展与此同时，GitHub 还扩展了 Copilot 代码审查的能力：开发者现在可以通过自定义 Agent skills、MCP 服务器连接和可配置的 Actions 工作流，让每次代码审查都反映自己团队的标准、内部系统和工程上下文。代码审查还新增了「中等层级审查」（medium tier review）选项，在快速审查和深度审查之间提供了更细粒度的控制。规模背景：14 亿次提交/月 GitHub 在发布中披露了一组数据：当前平台的每月提交量已经突破 14 亿次，同比近乎翻倍；GitHub Actions 每周运行时间超过 20 亿分钟。这个增速直接说明了为什么 GitHub 要在这个时间点推出 Agent 原生的控制中心——现有工具的设计假设已经跟不上实际工作流的演进节奏。对于正在将多个 Copilot Agent 整合进开发工作流的团队，这篇发布文章是了解 GitHub Agent 原生方向的第一手资料。Copilot 桌面应用目前已向现有 Copilot Pro、Pro+、Business 和 Enterprise 用户开放技术预览，感兴趣的团队可以直接申请加入：查看原文 ## 精讲三：AI 软件工程范式革命的思考这篇来自腾讯云开发者的长文，是近期读到的关于 AI 与软件工程关系最系统、最有历史纵深的一篇思考。作者不是在讨论某个工具或某个技巧，而是从工程史的视角，对软件工程过去五十年的本质做出了一次重新定性。软件工程是过去五十年最不彻底的工程作者从控制论的视角，梳理了经典工程门类的成功路径：机械、化工、电力、自动化，这些领域都靠同一个范式完成了工程化——「消耗能源，把人脑参与的低阶认知回路固化成物理装置」。蒸汽机的离心调速器、化工厂的恒温器、电网的调度装置，本质上都是同一件事：让原本需要人来盯着、调整、判断的事情，由一台烧煤或通电的设备自己完成。不确定性被大规模消除，同样的输入产出稳定可预期的结果。软件工程卡在了这条路上。软件开发要处理的是抽象、分解、推理、创造——这些是高阶认知，没法像调速器那样固化成物理回路。五十年来，敏捷、Scrum、DevOps 解决的都是同一个问题，用的是同一种方式：优化堆人力的方式，但没有改变「必须靠人力堆」这个事实。这就是作者对「软件工程是最不彻底的工程」的定义：它在工程的形而上学层面是个残缺品——所有兄弟门类都完成了「能源替代低阶智能」这个动作，唯独软件没有。大模型是史上第一个「认知引擎」大语言模型做到了经典工程从来没做到的事：输入算力，输出能理解需求、生成代码、做逻辑推理的高阶认知产物。放到工程史的坐标里： - 经典工程：能源 → 低阶智能（机械调节、自动控制） - 大模型：能源 → 高阶智能（理解、推理、生成、决策）作者的判断是：大模型和蒸汽机的工程史地位是平行的。蒸汽机让「做功」第一次能源化，大模型让「认知」第一次能源化。软件工程「真正降临」的时刻，不是 Scrum 流行的时候，不是 DevOps 普及的时候，而是大模型让「能源换高阶智能」成为可能的这个时刻。在此之前所有的「软件工程」，严格说都是软件作坊的优化版。但这只是入场券，不是终局大模型带来了新的不确定性：幻觉（输出看起来合理，悄悄就错了）、漂移（同样的输入，今天和明天给出不一样的结果）、不可解释（没法看进它的决策过程）。这意味着大模型并没有消除不确定性，只是把「人的不确定性」换成了「模型的不确定性」。真正需要的是一整套新的工程原则——不再是「亲手消除每个微小的偏差」，而是「设计一个能自我纠偏的系统，并处理系统自己纠不回来的剩余偏差」。作者引入了冯·福斯特 1970 年代提出的二阶控制论：一阶控制论是「观察并控制被控对象」，二阶控制论是「观察并控制『观察并控制』这件事本身」。投射到 AI 软件工程： - 经典软件工程：人在写代码 - AI 软件工程：人在设计「AI 写代码的系统」这是身份的转变，不只是工具的转变。自动化越彻底，工业相关人口反而越多作者用一组跨越 150 年的数据指出：自动化越彻底，工业相关人口反而越多。1850 年代蒸汽机普及后，制造业整体爆炸式增长；1950 年代自动化后，工程师、设计师、工艺员数量暴增。每一次系统能力扩张，都会暴露出新的边界，而边界就是新的「偏差地带」，需要新一波人守在那里。结论：人不是被淘汰，而是迁移。边界在扩大，需要守的人反而更多了。但能在这种边界上工作的人会越来越少，因为形式化吃掉的都是低阶认知，剩下的都是越来越高阶的部分。与今日其他精讲的关系这篇文章与精讲一、精讲二形成了很好的理论基础互补。Claude Code 动态工作流和 GitHub Copilot 桌面应用，都是「设计能自我纠偏的 AI 系统」这个新工程原则在工具层的具体体现——worktree 隔离、子智能体协作、Canvas 双向介入，都在解决「如何设计系统来处理 AI 自身的不确定性」这个核心问题。对工程师意味着什么作者给出了一个相对乐观但也相当严峻的判断：AI 时代，人的统一职能是「处理系统暂时还无法处理的偏差」。这条铁律在所有工程门类里都成立——机械故障靠人拉回、电网负载偏差靠人仲裁，现在是认知偏差靠人纠正。不同的是，AI 工程里，偏差类型不再可枚举，偏差信号不再可观测，拉回手段也没有 SOP 可循。这意味着守边界的人，需要更强的判断力，而不只是更多的知识。作者在文章末尾讨论了组织形态和落地路线，以及他认为这场变革「最难的那道坎」在哪里，这部分值得有 AI 落地任务的工程师和技术管理者仔细阅读：查看原文 ## 速览 1. 任务保真度缩放定律：为什么数据质量决定 Agent 性能（AI Engineer） Snorkel 的实验证明：在相同算力和任务数量下，仅改变训练数据质量，高保真任务带来 6% 的性能提升，低质量任务只有 1%，差距高达 5 倍。高质量任务须满足四项标准：容器化（隔离干净的回滚和并行化）、可达性（目标非平凡但可实现）、功能正确性（逻辑可预期）、环境稳定性（执行基础设施稳定）。满足这四项才能产生干净的失败信号，让模型在 RL 训练中有效爬坡。低质量任务的常见缺陷是「退化失败态」：环境本身就不稳定，模型无法从失败中提取有意义的学习信号，额外的计算预算全部浪费在噪声上。对正在做 Agent 微调数据集的工程师，这组数据有直接的策略指导价值。查看原文 2. 打造 AI 原生工程组织 | Claude（Claude Blog） Claude Code 团队分享了他们如何重新设计工程流程以适应 AI 原生工作方式。代码生成、测试编写和重构已经不再是瓶颈，真正的瓶颈变成了验证、代码审查和安全评估。他们重写了规划方式（从长期路线图改为即时制订）、代码审查流程、上下文收集方式，以及团队的构成逻辑。这不是工具使用指南，而是一个已经完全转型的工程组织对「如何重新设计流程」的第一手记录，适合正在思考 AI 原生团队转型的工程 Leader 阅读。查看原文 3. MiniMax M3：首个融合三大前沿能力的开源权重模型（MiniMax 官方） MiniMax 正式发布 M3，声称是首个同时融合三大前沿能力的开源权重模型：编码与智能体性能（SWE-Bench Pro 59.0%、Terminal Bench 2.1 66.0%）、由 MiniMax 稀疏注意力（MSA）实现的 100 万 token 上下文窗口、从零构建的原生多模态能力。同期推出 MiniMax Code 产品和新的 token 计划。权重和技术报告将在约 10 天内发布。值得注意的是，M3 是国内团队在开源大模型赛道上迄今为止对标 GPT 4o 级编码能力的最完整尝试之一，对关注开源模型生态的开发者值得持续跟进。查看原文 4. NVIDIA 推出 Cosmos 3：用于物理 AI 的完全开放全能模型（NVIDIA AI） NVIDIA 发布 Cosmos 3，定位为世界上首个完全开放的、用于物理 AI 的「全能模型」（omnimodel），原生支持视觉推理、世界生成和动作生成三种能力。本次发布了两个版本：Super（32B）和 Nano（8B），面向机器人和自主系统领域。结合精讲三和速览第五条的机器人供应链分析，物理 AI 的基础模型层正在加速成熟。查看原文 5. 拆解机器人「肉身」、量产与供应链：空翻之后，它还要学会接住一片落叶（硅谷 101）硅谷 101 深度拆解人形机器人的硬件架构：骨架材料（从钢材到铝合金、镁合金、钛合金的演进与轻量化权衡）、关节执行器（从液压到电机转变的背后技术进步）、传感器体系、电气与计算系统，以及整条供应链的成本结构与量产门槛。文章还引用了智元、宇树等头部企业一线负责人的具体判断。宇树科技科创板 IPO 刚刚通过上交所审议，这篇系统性拆解正当其时，适合想深入了解机器人硬件护城河的读者。查看原文 6. 深度解析 Agent 存算分离架构设计（idoubi）作者以 FastClaw 为例，系统拆解云端 Agent 的存算分离架构：三种运行模式（本地裸机、本地带沙盒、云端多副本）的优缺点对比，存储层的四种方案（热状态用 Redis、对话记录用 Postgres、长期记忆用 pgvector/Milvus、工作产物用 S3/OSS），以及基于存算分离架构的完整运行流程，同时指出了分布式数据一致性的挑战。对比今日精讲一中 Claude Code 动态工作流的 worktree 隔离机制，两篇在「计算与状态分离」这个方向上有一定共鸣，对正在设计云端 Agent 基础设施的工程师有直接参考价值。查看原文 7. 用数据说话：贴吧 AI CR（小码哥）落地 10 周，bug 密度下降 66.87%（百度 Geek 说）贴吧 Server 团队的 AI Code Review 落地实践：通过规则定制、自动化评测和三层反馈闭环（高/中/低优先级评论处理流程），将 AI CR 评审占比从 33% 提升至 84%，bug 密度从 0.332 降至 0.11，降幅 66.87%。文章完整记录了 10 周的推进节奏、踩坑经验和方法论，代码库多、提交频率高、人工评审质量参差的团队可直接参考迁移。这份实践与精讲三的理论框架形成印证——AI CR 本身就是一个能自我纠偏的代码质量系统。查看原文 ## 今日阅读路径时间有限，建议先读这三篇： 1. 为每项任务量身打造：Claude Code 中的动态工作流（精讲一）— 如果你在用 Claude Code，这是今天最直接有用的一篇，10 分钟读完，了解动态工作流的工作原理和触发方式，以及哪类任务最值得启用。 1. AI 软件工程范式革命的思考（精讲三）— 今天内容最有长期价值的一篇。控制论框架下的软件工程史重构，以及「设计能自我纠偏的 AI 系统」这个新工程师身份定位，是理解当前所有 AI 工具演进方向的底层框架。 1. GitHub Copilot 应用：以智能体为核心的桌面体验（精讲二）— 并行 Agent 开发控制中心的完整介绍，了解 GitHub 在 Agent 原生方向的系统性布局，以及 worktree 隔离、Canvas 协作、Agent Merge 这几个核心机制的实际用法。还有时间？推荐任务保真度缩放定律（做 Agent 微调数据集的工程师必读，5 倍质量差距有直接策略价值）和机器人供应链深度拆解（宇树 IPO 时机下的硬件架构系统梳理，适合关注具身智能落地的读者）。

译Anthropic 为 Claude Code 推出动态工作流，允许模型为每个任务自主生成 JavaScript 编排脚本，动态选择模型并启动多个子智能体在独立环境中并行执行，以解决单一上下文窗口处理复杂任务的限制。同时，GitHub 在 Microsoft Build 上发布了以智能体为核心的 Copilot 桌面应用，提供统一视图、协作面板和自动化流程，旨在管理并行 Agent 开发。文章披露，GitHub 平台每月提交量已突破 14 亿次。

查看原推 ↗

ginobefun@hongming731 · 6月3日49

#BestBlogs 早报 06-03 BestBlogs 今日早报推荐阅读： Anthropic 博客详解 Claude Code 动态工作流，Claude 能为每个任务即时生成专属编排脚本，告别「智能体懒惰」和「目标漂移」； GitHub 在 Build 同步亮相 Copilot 桌面应用，每个 Agent 独占 worktree、提交量已破 14 亿/月。腾讯云工程师则从控制论视角点出：大模型是史上首个「认知引擎」，工程师的核心职责正在从「写代码」升级为「设计能自我纠偏的 AI 系统」。

译Anthropic 详解 Claude Code 的动态工作流，其能为每个任务即时生成专属编排脚本，旨在解决智能体懒惰与目标漂移问题。GitHub 发布 Copilot 桌面应用，为每个智能体提供独立的 worktree，其月代码提交量已突破 14 亿 tokens。此外，有观点指出大模型是史上首个“认知引擎”，工程师角色正从编写代码升级为设计能自我纠偏的 AI 系统。

查看原推 ↗

Orange AI@oran_ge · 6月3日12

当 CEO 发现 Token 很贵

查看原推 ↗

fofr@fofrAI · 6月3日37

The way K2 handles style reference strength is really nice.

译K2 处理风格参考强度的方式真的很棒。

查看原推 ↗

Orange AI@oran_ge · 6月3日48

Opus 4.7、4.8 的接连失败令人费解价格更贵，效果无提升，甚至负提升看看日历，突然意识到 Claude 已经停滞了 4 个月即便是掌握了模型训练的方法，即便内部已经有了 Mythos 这样的开发利器模型的进步还是没有太多加速，依然半年一次大更新？

译推文指出 Claude Opus 4.7 与 4.8 的发布效果不佳，价格提升但性能无明显改进甚至下降。作者认为 Claude 模型已停滞 4 个月，即使内部拥有 Mythos 等开发工具，模型进步速度依然未显著加快，仍维持约半年一次重大更新的节奏。

查看原推 ↗

elvis@omarsar0 · 6月3日38

Code is all you need! Search as Code Harness as Code What's next?

译代码就是你所需的一切！搜索即代码工具链即代码接下来是什么？

查看原推 ↗

6月3日

16:38

向阳乔木@vista8

54

Laten Space 访谈 Ethan He：AI模型开发的实战洞察

本文转述了Laten Space对Ethan He的访谈。他分享了AI开发的核心经验：模型进步取决于团队迭代速度；质量提升常源于修复数据与训练流程的BUG而非新算法；视频模型需要极详尽的文本标注。他还指出，图像生成耗时主要在“思考”重写提示词，且语言模型描述音乐细节非常困难。在脑机接口普及前，最自然的人机交互将是用户说话，AI用生成式画面回应。

向阳乔木: http://x.com/i/article/2062080260586283008

多模态大佬观点

15:33

Elon Musk@elonmusk

22

Grok: Yes. Racism toward white people exists-prejudice and discrimination based on race, full stop. The redefinition that limi...

xAI大佬观点

15:16

PixVerse@PixVerse_

26

🥰 【引用 @pinkshihtzu】：当导火索到达雪山山顶时… 像孩子一样看世界。用PixVerse创作它🎈✨ @PixVerse_ #PixVerseChallenge #pixverse

pink shih tzu ponta: 雪山の山頂に導火線が到着すると・・・ See the world like a child. Create it with PixVerse🎈✨ @PixVerse_ #PixVerseChallenge #pixverse

其他视频

15:16

meng shao@shao__meng

36

推文讽刺了一个现象：此前部分自媒体鼓吹"程序员将在六个月内被AI全面取代"，但六个月过去，这些自媒体本身反而被程序员利用AI Agent（智能体）工具取代了工作。引用推文补充了这一论调已流传约六个月的时间背景。

tison: 我已经有六个月没听到〖程序员将在六个月内被全面取代〗的笑话了🥵🥵🥵

智能体现象/趋势

14:36

SiliconFlow@SiliconFlowAI

精选67

@karpathy 的 llm-wiki 在几周内获得了 5，000+ 颗星。其理念是：停止在每个会话中重新发现知识。让一个大语言模型构建并维护一个维基，每次使用时它都会变得更智能。以下是如何使用 @opencode + @justsisyphus OMO + SiliconFlow 构建你自己的版本 🧵

开源生态教程/实践

推荐理由：把 karpathy 的 llm-wiki 创意拆成了可复制的 recipe，跟着教程用 SiliconFlow + opencode + OMO 就能搭一个自进化的知识库，相当实用。

14:36

Tibo@thsottiaux

20

ChatGPT 无论你是否理解这个名字。它将一直存在。它是过去、现在和未来。它是AI的同义词，很快也将成为智能体的同义词。还有很多要构建。

OpenAI其他

14:34

swyx@swyx

46

可能是我见过的最好的推理效率奖励函数。

elie: length penalty is very elegant and simple tbh

大佬观点推理

14:05

宝玉@dotey

72

推文展示 GPT Image Gen V2 根据详细提示词生成的图像效果，被评价为"可以以假乱真"。生成的图像模拟了短视频应用的手机自拍截图，具备特定视觉特征：包括低分辨率帧、美颜滤镜平滑、压缩模糊、柔焦及动态模糊。画面主体为一位动漫cosplay风格的女性，外貌、发型、服装和普通卧室背景均有细致描述，并包含了应用界面UI元素，整体风格追求真实手机拍摄的质感。

Emily: Exploring the possibilities GPT Image Gen V2 Vertical smartphone screenshot from a Chinese short-video app. Front phone ...

OpenAI图像生成教程/实践

14:05

宝玉@dotey

60

Codex 这个小功能我很喜欢，直接一键 commit changes，自动生成 commit message

OpenAI教程/实践编码

13:44

meng shao@shao__meng

46

稍等！ WorkBuddy？桌面办公智能体第一？腾讯这是根据哪里的统计得来的数据？

智能体大佬观点

13:39

Ethan Mollick@emollick

54

让 Claude Code 构建了一个贪吃蛇游戏，其中蛇意识到自己身处游戏之中，然后……事情发生了。AI 做出了一些令人印象深刻的创意决策（也有一些非常"AI"的决策），我只给了第一个提示词，并在游戏进行中提供了一些反馈。https：//snake-awakening.netlify.app/

智能体Anthropic其他编码

13:35

宝玉@dotey

52

Claude Opus 4.8 被认为在实现 Mac App UI 时表现出色

推文指出，尽管有人批评 Opus 4.8，但它在编写 Mac App UI 时能力很强，配合 Claude Design 使用，界面还原度相当不错。作者同时引用了对 Cursor Agent 的评价作为对比：在常用 GUI Agent 中排名为 Codex App、Cursor 和 Claude Desktop。Cursor 的亮点包括支持多任务并行和灵活选择模型，Plan 模式步骤详细稳定；不足是暂不支持 /goal、手机版，且调试功能仅有内置浏览器。

宝玉: Cursor 在为用户增加使用额度。最近我重度使用了 Cursor 的 Agent,效果相当不错。我常用的 GUI Agent 里面,Codex App > Cursor > Claude Desktop。几个亮点: 1. 它的 mult...

Anthropic大佬观点编码

13:26

凡人小北@frxiaobei

32

chatgpt 和 codex 是该合并了，我现在打开手机总搜索 codex。

OpenAI大佬观点

12:56

凡人小北@frxiaobei

56

Codex发布插件但实际落地待验证

OpenAI Codex推出一系列新插件，覆盖数据分析、创意生产、销售、产品设计、股票投资和投行等场景，标志着其定位从程序员专用工具向更通用的AI智能体（Agent）转型。然而，有观点认为这些插件目前“宣传大于实际”。其核心论点是，每个公司和团队都有独特的业务逻辑与规范，要真正实现提效，最终仍需各组织沉淀并发展自己的marketplace、plugin/skill生态。

Andy Stewart: OpenAI 的野心和獠牙展现得比想象中更快。 CodeX 在其规划中已不再是程序员专属,而是走向更通用的 Agent。为了让大家认识到这一点,以及具体帮哪些人做哪些事,OpenAI 主动晒出了数据分析、创意生产、销售、产品设计、股票投资...

智能体MCP/工具OpenAI大佬观点

12:37

向阳乔木@vista8

25

在杨攀群里看到的转帖，笑死了😂 新智元：xxx 已死

其他

12:23

数字生命卡兹克@Khazix0918

65

Claude Code团队分享AI原生组织工作原则

Claude Code团队工程总监Fiona Fung分享该团队作为AI原生组织的工作原则。其核心判断是，AI时代软件开发的瓶颈已从“写代码”转移到“验证、代码评审与安全”。为此，团队重建了多项工作规范：采用JIT规划，用快速原型取代冗长的前期文档；将“能否自动化”培养为团队肌肉记忆，用AI解决重复工作；代码评审上采用“信任但验证”，由Claude处理大部分检查，人类聚焦于判断；团队角色界限模糊化，协作更加灵活。这些变化旨在让人类判断力聚焦于真正关键之处，新成员甚至能在一周内开始产出代码。

智能体Anthropic大佬观点部署/工程

12:23

SemiAnalysis@SemiAnalysis_

64

观点：Codex桌面应用UX和内置浏览器现在非常适合"氛围编程"。一旦OpenAI基础模型在设计能力上提升，我预计Codex凭借更好的UX，很快就能在SemiAnalysis VibeMAX基准上超越Claude Code CLI。目前Claude在VibeMAX上是S级，Codex是A+级。Anthropic过度投资Claude Code终端CLI，而对Claude Code桌面应用投入不足，这是走错了岔路。

AnthropicOpenAI大佬观点编码

12:16

Yuchen Jin@Yuchenj_UW

63

Opus 4.8 相比 Opus 4.7 没有带来很大的升级感。与此同时，GPT-5.4 到 GPT-5.5 的升级感觉是真正的飞跃。现在我很好奇 5.6 会是什么样子。 Anthropic 是在为 IPO 保留 Mythos 吗？

AnthropicOpenAI大佬观点

12:07

向阳乔木@vista8

26

Codex 使用体验分享

推文表达了对 Codex 工具的喜爱。用户提到让朋友用 Codex 撰写新书推荐语，并分享了自己的使用数据：已不间断连续使用 11 天，单次最长任务时长为 8 小时。推文最后邀请其他用户在 Codex 个人资料中查看并分享自己的 Token 使用统计。

OpenAI其他编码

12:07

向阳乔木@vista8

62

这个朋友写的Skill有意思，帮你监控Codex的重置消息，哈哈哈。第一时间切fast模型，消耗用量。安装指令有点长，见评论区，复制发给codex用就行。

MCP/工具OpenAI教程/实践

12:01

Logan Kilpatrick@OfficialLoganK

16

被低估，即是自由。

大佬观点

10:48

Chubby♨️@kimmonismus

64

OpenAI将Codex升级为生产力平台，微软Build大会发布完整AI智能体栈

OpenAI将Codex从编码工具升级为生产力平台，新增六大角色插件并集成62个应用，还推出Codex Sites功能。关键数据显示，Codex周活达500万，企业收入周环比增长50%，GPT-5.6即将发布，ChatGPT月活已突破10亿。微软在Build 2026大会上发布完整智能体栈，推出自研推理模型MAI-Thinking-1（35B参数，256k上下文），其在编码盲测中超越Claude Sonnet 4.6。同时，微软发布了Agent 365、GitHub Copilot桌面应用、Microsoft IQ上下文层，并公布了专为智能体设计的硬件项目Solara。

智能体MicrosoftOpenAI现象/趋势

10:16

Rohan Paul@rohanpaul_ai

60

FluxMem：将AI智能体记忆视为持续演化的动态连接网络

FluxMem是一种新型AI智能体记忆系统，其核心思想是将记忆视为一个动态连接的网络，而非静态存储。它将事实、过往任务经历与可复用技能作为图中的节点进行存储。执行任务时，FluxMem先收集可能有用的记忆，再根据任务反馈动态修正记忆间的连接关系。此外，系统能将反复成功的任务路径转化为可复用技能。测试显示，该系统在LoCoMo基准上平均准确率达95.06，并在GAIA基准上结合Kimi K2取得了12.73分的性能提升，优于现有记忆系统。

智能体arXiv大佬观点

09:13

meng shao@shao__meng

精选75

智能体工程实战窍门全录

该内容源自@mvanhorn的分享，介绍了“智能体工程”如何重塑软件开发。其核心是从“人主导编码”转向“人主导方向、智能体执行”，中心从IDE变为终端与计划文件。方法论遵循Research → Plan → Work循环，核心是让plan.md约束智能体行为。分享者总结了22条实战技巧，涵盖规划、并行执行、输入方式、远程控制等方面，并列出了完整的工具栈。

Matt Van Horn: http://x.com/i/article/2061440101411102721

智能体教程/实践编码部署/工程

推荐理由：mvanhorn 三个月从零到 27K stars 的实战手册，22 条 hack 把 agentic 开发从规划到执行到语音全打通，开发者能直接套用。

09:13

meng shao@shao__meng

11

认真看完每个字，心里久久不能平静！！有句话还是忍不住想问：这张图，是 AI 生成的吗 😄 【引用 @Sizhe_bitcat】：真人真事！到底谁的错？

Sizhe思哲: 真人真事!到底谁的错?

其他

09:08

Ethan Mollick@emollick

53

我的时间线上似乎有人对芝加哥大学引入Claude感到惊讶，但许多学校（包括我任教的宾夕法尼亚大学）都已实现全校范围的AI接入。关于AI与学术研究，仍有许多问题需要解决，但安全且公平的接入是必要的基础。

大佬观点安全/对齐现象/趋势

09:06

SenseTime@SenseTime_AI

35

商汤SenseNova U1展示Neo-Unify架构潜力

在2026 AI创新论坛上，商汤联合创始人兼首席科学家指出，模型架构优化能显著降低单位智能的计算成本，并主张中国AI生态应通过应用与模型创新来驱动芯片发展。其最新多模态模型SenseNova U1基于自研Neo-Unify架构，实践了这一理念，在信息图生成任务中实现了显著更低的计算成本，并同时适配了多种中国芯片。商汤强调将继续开发真正解决用户问题、创造商业价值的AI解决方案。

大佬观点

09:01

Sam Altman@sama

59

美国应通过持续开发最优秀的模型、确保其安全、并将网络工具交到可信的防御者手中来引领AI发展。新的行政令取得了正确的平衡。

OpenAI大佬观点政策/监管

08:36

SenseTime@SenseTime_AI

34

商汤发布SenseNova U1模型及Neo-Unify架构

商汤联合创始人兼首席科学家在2026 AI创新论坛指出，模型架构优化能显著降低单位智能所需的算力。其新发布的多模态模型SenseNova U1基于自研Neo-Unify架构，实践了这一理念，在生成信息图时实现了显著更低的计算成本，并已适配多款中国芯片。商汤强调持续通过应用与模型创新推动芯片发展，以创造商业价值与长期竞争力。

多模态大佬观点推理端侧

08:30

jason@jxnlco

46

模型 'gpt-image-2' 不存在 https：//chatgpt.com/s/m_6a1f701a74748191b883735fff3b28d7

OpenAI产品更新图像生成

08:26

DogeDesigner@cb_doge

21

Grok Imagine 处理 Logo 的效果相当不错。🔥

xAI图像生成评测/基准

08:12

meng shao@shao__meng

66

BigSet：AI生成B2B SaaS清单的开源工具

开源项目 BigSet 允许用户用自然语言描述数据需求，从实时网络中构建并定期刷新结构化数据集。研发团队负责人邵猛在实际工作中使用它，自动生成了一份 B2B SaaS 产品清单，内容涵盖产品分类、免费方案说明及官方定价页面链接，省去了逐一查找官网的繁琐工作。该项目已在 GitHub 上开源。

TinyFish: What if you and your agent had all the data that always stays fresh? Structured, on demand, never stale. Introducing Big...

GitHub搜索教程/实践

08:05

Tibo@thsottiaux

26

@romainhuet 在我们每次 Codex 演示中。无论是否临时准备。都无所谓。总是准备就绪。掏出笔记本电脑，像《分裂》里的凯文一样，切换了 23 种不同的人格。

OpenAI其他

08:00

jason@jxnlco

20

我有心像缺失症，所以GPT图像生成错误对我没有影响。

OpenAI大佬观点

07:58

ginobefun@hongming731

70

Claude Code 动态工作流与 GitHub Copilot 桌面应用发布

Anthropic 为 Claude Code 推出动态工作流，允许模型为每个任务自主生成 JavaScript 编排脚本，动态选择模型并启动多个子智能体在独立环境中并行执行，以解决单一上下文窗口处理复杂任务的限制。同时，GitHub 在 Microsoft Build 上发布了以智能体为核心的 Copilot 桌面应用，提供统一视图、协作面板和自动化流程，旨在管理并行 Agent 开发。文章披露，GitHub 平台每月提交量已突破 14 亿次。

智能体AnthropicGitHub现象/趋势

07:58

ginobefun@hongming731

49

Claude Code动态工作流与Copilot桌面应用发布

Anthropic 详解 Claude Code 的动态工作流，其能为每个任务即时生成专属编排脚本，旨在解决智能体懒惰与目标漂移问题。GitHub 发布 Copilot 桌面应用，为每个智能体提供独立的 worktree，其月代码提交量已突破 14 亿 tokens。此外，有观点指出大模型是史上首个“认知引擎”，工程师角色正从编写代码升级为设计能自我纠偏的 AI 系统。

智能体AnthropicGitHub编码

06:56

Orange AI@oran_ge

12

当 CEO 发现 Token 很贵

现象/趋势

06:29

fofr@fofrAI

37

K2 处理风格参考强度的方式真的很棒。

fofr: Playing around a bit with Krea's K2 Large image model. I love how expressive it feels, and the variability you get with ...

图像生成评测/基准

06:26

Orange AI@oran_ge

48

Claude 版本迭代放缓，开发工具未加速模型进步

推文指出 Claude Opus 4.7 与 4.8 的发布效果不佳，价格提升但性能无明显改进甚至下降。作者认为 Claude 模型已停滞 4 个月，即使内部拥有 Mythos 等开发工具，模型进步速度依然未显著加快，仍维持约半年一次重大更新的节奏。

Anthropic大佬观点现象/趋势

06:13

elvis@omarsar0

38

代码就是你所需的一切！搜索即代码工具链即代码接下来是什么？

Thariq: Workflows are the biggest upgrade to Claude Code's capabilities since skills and subagents. I dove deep into it with @si...

Anthropic产品更新编码