AIHOT

Chubby♨️@kimmonismus · 6月3日58

Mustafa Suleyman, Microsoft AI: 7 new Microsoft Models, no end in sight when it comes to development, orders of magnitude in the next few years

译Mustafa Suleyman, Microsoft AI: 7个新微软模型，开发无止境，未来几年数量级提升

查看原推 ↗

Chubby♨️@kimmonismus · 6月3日63

Mai-1 thinking: Mid size model, 45b active parameter, MoE, side by side with sonnet 4.6 0 distillation „Microsoft’s first reasoning model“

译Mai-1 thinking：中型模型，45b 活跃参数，MoE，与 Sonnet 4.6 并列 0 知识蒸馏 “微软的首个推理模型”

查看原推 ↗

Artificial Analysis@ArtificialAnlys · 6月3日64

Microsoft has released MAI-Transcribe-1.5: an exceptionally fast speech transcription model at a speed factor of ~276x, while still achieving 2.4% on AA-WER (#3), leading the accuracy-speed Pareto frontier MAI-Transcribe-1.5 is Microsoft AI (MAI)’s latest speech transcription model, coming in at 3rd overall on the on the Artificial Analysis Word Error Rate (AA-WER) leaderboard, behind Alibaba’s Fun-Realtime-ASR-preview (1.7% WER), and ElevenLabs Scribe v2 (2.2% WER). The model stands out as the fastest STT model in the top 10 for accuracy, processing audio at ~276x real-time - this is more than double the speed of the second fastest model in the top 10 for accuracy. The new model supports keyword biasing (improved recognition of rarer vocabulary such as names and medical terminology), in addition to support for 43 languages including English, French, Arabic, Japanese, and Chinese. See more details below ⬇️

译微软AI发布了MAI-Transcribe-1.5语音转录模型。该模型在AA-WER排行榜上位列第三，词错误率（WER）为2.4%，仅次于阿里巴巴的Fun-Realtime-ASR-preview（1.7%）和ElevenLabs Scribe v2（2.2%）。其主要特点是速度极快，处理速度约为276倍实时，是准确率前十模型中第二快模型速度的两倍以上，因此在准确率-速度帕累托前沿上处于领先地位。模型还支持关键词偏差识别，并涵盖包括英语、法语、阿拉伯语、日语和中文在内的43种语言。

查看原推 ↗

Ethan Mollick@emollick · 6月3日47

Law professors wrote questions they were asked during office hours. Gemini 2.5 & humans answered them then other law professors blindly judged the results: -Gemini had a 75% win rate vs. professors -Gemini's answers were rated LESS harmful than humans -Newer models do even better

译法学教授们写下了他们在办公时间被学生问到的问题。Gemini 2.5 和人类分别作答，然后其他法学教授在不知道答案作者的情况下对结果进行了评判： - Gemini 的胜率为 75%，击败了教授们 - Gemini 的答案被评为比人类的答案危害更小 - 更新的模型表现甚至更好

查看原推 ↗

向阳乔木@vista8 · 6月3日66

我去，一句话建网站啊，还能分享给别人查看。企业版，注意必须企业版更新Codex后， @ site 使用。 Codex这次更新有点强！ Anthropic 只是Design，OpenAI更进一步，包设计，还包网站生成。

译我去，一句话建网站啊，还能分享给别人查看。企业版，注意必须企业版更新Codex后， @ site 使用。 Codex这次更新有点强！ Anthropic 只是Design，OpenAI更进一步，包设计，还包网站生成。

查看原推 ↗

向阳乔木@vista8 · 6月3日65

http://x.com/i/article/2061873460926943233 # Codex进化：写代码只是第一块拼图，下一块是什么？很多公司已经遇到一个尴尬场景。 AI 帮员工写完一段代码很容易。可一旦任务变成整理 Slack 里的上下文、翻 Google Docs、拉 CRM、做一份高管材料、把数据变成仪表盘，事情马上变复杂。 OpenAI 这次给 Codex 的更新，重点就在这里：把一个开发工具，继续往通用工作系统推。 OpenAI 披露，Codex 每周用户已经超过 500 万。非开发者，包括分析师、市场、运营、设计师、研究员、投资人和银行从业者，已经约占整体用户 20%，增长速度是开发者的 3 倍多。这个数字有意思。 Codex 正在从“会写代码的助手”，变成“懂岗位交付的工作台”。 ## 六个角色插件，把 Codex 推进真实工位这次最硬的变化，是角色插件。 OpenAI 一口气推出了 6 个面向角色的插件：数据分析、创意生产、销售、产品设计、公开股票投资、投行业务。每个插件不只是多接几个应用。更关键的是，它把相关应用、技能、指令和工作流打包在一起。 OpenAI 给出的数字是：这些插件合计覆盖 62 个热门应用和 110 个技能。这背后的产品思路很清楚。分析师需要追问指标为什么变了，销售需要把客户信号变成跟进动作，投行团队需要把研究和尽调变成客户能看的材料。岗位不同，默认上下文不同，交付标准也不同。如果 Codex 想进入这些岗位，就不能只等用户一句一句教它“怎么做”。它要提前知道这个角色的常见材料、常见工具和常见判断方式。下面是原文展示的插件生态图标墙（部分）这堆图标看起来像一张合作名单，但它真正透露的是另一件事：OpenAI 不想让 Codex 只待在自己的产品边界里。它要进企业已有的工具链。 ## Sites 出现后，AI 回答开始变成工作空间第二个关键能力叫 Sites。这是面向 Business 和 Enterprise 客户的预览功能。 Codex 可以把想法、分析和计划做成可分享的交互式网站或小应用，同一个 workspace 里的成员可以通过 URL 访问。这件事比“生成一个网页”更重要。很多知识工作的问题，从来不缺一段文字总结。缺的是一个可以反复查看、协作更新、聚合判断的地方。比如客户复盘、财务场景规划、产品发布中心、项目看板、创意简报库。这些东西如果散在文档、表格、聊天记录里，团队就会反复追问同一个问题：最新版本在哪里？谁负责下一步？哪个假设已经改了？ Sites 想把这类一次性输出，变成持续协作的页面。图中是原文展示的收益预测规划器示例。它说明 Sites 的定位已经越过静态文章，更像能承载数据、状态和决策的轻量工作界面。 OpenAI 还提到，Wix、Base44、Replit、Lovable、Figma、Webflow 和 Emergent 等早期伙伴会参与 Sites 生态建设。这很关键。一旦 AI 生成的页面可以被分享、更新、协作，它就开始碰到传统 SaaS 的地盘。 ## 批注让 AI 修改时更像同事第三个变化是 annotations，批注。开发者已经在 Codex 里用批注改代码、Markdown 和网站。现在这个能力扩展到了文档、表格、幻灯片等内容。用户可以选中网站里的导航栏，让 Codex 改字体；高亮投资论点里的某个判断，让 Codex 查来源；圈出幻灯片上的图表，让它改成更清楚的标签。这个能力的价值，在于它把“重新生成一遍”变成了“局部修改”。 AI 做第一稿不难，难的是第二轮、第三轮。人类反馈往往不是抽象的。 “这一句太硬”“这张图看不清”“这个指标口径哪里来的”“这个按钮不像我们品牌”。批注把反馈固定到具体位置，AI 才更容易只改该改的地方。从工作流角度看，这比一次性生成更接近真实协作。 ## 真正的变化，是 Codex 开始理解岗位交付 OpenAI 还给了几个内部和客户案例。 OpenAI 内部的非技术团队用 Codex 做内部应用、高管材料、仪表盘，也把创意简报变成符合品牌和设计约束的工作。 Zapier 团队用 Codex 从 Slack、Google Docs、Coda 等工具里提取知识，再整理成事故复盘、响应计划和功能票据。 NVIDIA 研究员用 Codex 加速实验流程，从找研究想法到写机器学习基础设施脚本。这些案例都有同一个特点：Codex 处理的是一串带上下文的工作，孤立任务只是其中一小段。这也是角色插件、Sites、批注三件事放在一起的原因。插件负责接入岗位上下文，Sites 负责把输出变成协作空间，批注负责把反馈循环接起来。如果说早期 Codex 的问题是“能不能帮开发者写代码”，这次更新的问题变成了“能不能帮一个团队完成工作”。可用性方面，角色插件会在支持地区逐步向 Codex 用户开放。管理员可以在 workspace 设置里控制底层应用权限。 Sites 目前面向 Business 和 Enterprise 团队在 Codex app 中预览，Enterprise 管理员可以在后台启用。 OpenAI 还提到，后续会推出更多角色插件，包括企业财务、私募投资、营销策略、战略咨询和法律。这不是一个小功能更新。它更像是 OpenAI 在说：AI 工具的下一站，会从更聪明的聊天窗口，走向更懂组织分工的工作系统。代码只是第一块拼图。下一块，是那些没人想手动整理、但每家公司都离不开的工作。原文：Codex for every role, tool, and workflow

译OpenAI披露，Codex每周用户已超500万，其中非开发者用户约占20%，增速是开发者的3倍多。此次更新旨在将其从开发工具推向通用工作系统，主要推出三项能力：1) 面向数据分析、销售等角色的角色插件，覆盖62个应用和110个技能；2) 面向企业客户的Sites功能，可将计划生成为可协作的交互式网站；3) 扩展到文档、表格等的批注功能，支持局部修改。这些更新旨在让Codex更好地理解岗位上下文，进入企业现有工具链。

查看原推 ↗

Suno@suno · 6月3日23

We're working on our listening experience. Think playlists, albums, radios, etc. But we want your thoughts. What listening experience should we build next? Share your thoughts here: https://forms.gle/SVQ6gunSLyq85e7J9

译我们正在改进收听体验。比如播放列表、专辑、电台等。但我们想听听你的想法。接下来应该打造怎样的收听体验？请在此分享你的想法： https://forms.gle/SVQ6gunSLyq85e7J9

查看原推 ↗

Tibo@thsottiaux · 6月3日67

Tons of goodies for use of codex for day to day work. If you are on a business plan you can now host and share websites, we launched vastly improved plugins and skills for broad roles and you can give feedback to your agent through visual annotations in docs, slides, sheets and more.

译Codex 日常工作使用中新增大量实用功能。如果你使用商业计划，现在可以托管和分享网站，我们推出了大幅改进的插件和技能以适应广泛的角色，并且你可以在文档、幻灯片、表格等中通过视觉注释向你的智能体提供反馈。

查看原推 ↗

swyx@swyx · 6月3日4

?

译这看起来像音乐节阵容 😭😭

查看原推 ↗

swyx@swyx · 6月3日38

uhhh did Mustafa just leak the Mythos FLOP count?? was this public knowledge before, even if its an estimate i dont get what you gain out of this

译Mustafa是不是刚泄露了Mythos的FLOP数据？？这之前是公开信息吗，就算是个估计值我也不明白这有什么好处

查看原推 ↗

Microsoft Research@MSFTResearch · 6月3日50

Welcome to Microsoft Build 2026. Step inside the Microsoft Research Lab, where developers are getting hands-on with the latest from MSR. Aurora’s forecasting models, Trellis 3D generation, Magentic UI, Mindful Memory, and more.

译欢迎来到 Microsoft Build 2026。走进微软研究院实验室，开发者们正在亲身体验来自MSR的最新成果。Aurora的预测模型、Trellis 3D生成、Magentic UI、Mindful Memory等。

查看原推 ↗

🚨 AI News | TestingCatalog@testingcatalog · 6月3日70

MICROSOFT 🔥: New MAI Code 1 Flash and MAI Thinking 1 models have been revealed on the official MAI website! Also, MAI Image 2.5, MAI Voice 2, and MAI Transcribe 1.5 are there too. > MAI-Code-1-Flash plans and reasons through complex coding tasks from start to finish, so you spend less time debugging and more time building. > MAI-Thinking-1 (35B active, ~1T total parameters, MoE) has a smaller inference footprint than much larger models, yet is competitive with Claude Opus 4.6 on SWE-Bench Pro. h/t @MeetPatelTech

译微软在官网更新了 MAI 模型系列，重点发布了 MAI Code 1 Flash 和 MAI Thinking 1。MAI Thinking 1 拥有 35B 活跃参数和约 1T 总参数，采用 MoE 架构，其推理成本低于更大型模型，但在 SWE-Bench Pro 上的表现可与 Claude Opus 4.6 竞争。MAI Code 1 Flash 则专注于通过规划和推理来完成端到端的复杂编码任务。此外，MAI Image 2.5、MAI Voice 2 及 MAI Transcribe 1.5 也同步上线。

查看原推 ↗

🚨 AI News | TestingCatalog@testingcatalog · 6月3日74

TinyFish launched Bigset, an open-source multi-agent system that builds a verified, structured dataset from a single plain-language sentence, pulled live from the web and refreshed on whatever cadence you set. Describe the data, agents research it across real sources, deduplicate, and hand back a table you can export as CSV or XLSX.

译TinyFish发布了Bigset，一个开源的多智能体系统。用户只需用一句自然语言描述所需数据，系统的智能体便会从网络实时抓取、去重并整合信息，生成一个结构化的数据集。该数据集可导出为CSV或XLSX格式，并支持用户自定义的刷新频率以保持数据始终为最新状态。

查看原推 ↗

Peter Steinberger 🦞@steipete · 6月3日67

Such a privilege to work with Microsoft to bring claws to enterprises!

译很荣幸与微软合作，将 OpenClaw 带入企业！

查看原推 ↗

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes · 6月3日25

It's up to you to break generational trauma

译打破代际创伤是你的责任。

查看原推 ↗

Chubby♨️@kimmonismus · 6月3日54

GitHub copilot app revealed

译GitHub Copilot 应用曝光

查看原推 ↗

Rohan Paul@rohanpaul_ai · 6月3日72

Factory just introduced Factory Router, a coding-agent model selector. Claude Opus-class results while cutting AI session spend by 20-25%. Reports 99% of Claude Opus 4.7’s Terminal-Bench 2. Basically it works by treating each coding-agent run as a routing decision: it first sends the task to the cheapest model class that should be strong enough for that kind of work, then escalates to a stronger frontier model if the session starts failing or needs deeper reasoning. Frontier AI should be reserved for frontier work.

译Factory推出Factory Router，一个编码智能体模型选择器。它通过将每次编码任务视为路由决策，首先使用最具性价比的模型处理，仅在遇到失败或需要深度推理时升级至更强前沿模型。该方案旨在保持与Claude Opus 4.7相近的性能（报告称达到其Terminal-Bench 2分数的99%），同时将AI会话成本降低20-25%。其核心理念是“前沿AI应保留给前沿工作”。

查看原推 ↗

AYi@AYi_AInotes · 6月3日57

Damn，这副眼镜里跑的是完整的 Linux！不是概念图，也不是 PPT，是 Buildroot Linux + Arm Cortex A7， SSH 进去就能跑你的 Claude Code、Codex、OpenClaw。而且整个系统 8 月前会开源到 GitHub。我觉得这副眼镜最狠的地方不是把电脑塞进眼镜里，而是它竟然把 vibe coding 从桌面拽到了你脸上。以前你写代码得坐在电脑前，现在你的 coding agent 就坐在你肩膀上，你眼睛看到什么，它实时拿到视觉上下文，骨传导麦克风里直接给你反馈。不是 AR 眼镜那种花活，是实打实的 Agent Terminal。说白了，这相当于把你的 Claude 从聊天框里拽出来，变成跟着你走的搭档。你走在路上突然想到一个 bug，不用掏手机、不用找电脑，眼镜里的 agent 已经在听着了。这种「计算跟着人走」的范式，可能才是第4类生产力计算机的真正形态。 laptop 是你去找电脑， Monako 是电脑跟着你。当 agents 成为主要工作伙伴时，计算形态会从「人追设备」变成「设备追人」。

译这副智能眼镜内置Arm Cortex A7处理器，运行完整的Buildroot Linux系统，可通过SSH直接运行Claude Code、Codex等编程工具。整个系统将于8月前开源至GitHub。其核心价值在于将编程智能体从桌面带到用户眼前，通过眼镜的视觉上下文和骨传导麦克风实现“计算跟人走”的实时协作，被视为一种新型的“Agent Terminal”。

查看原推 ↗

向阳乔木@vista8 · 6月3日69

http://x.com/i/article/2061869220716019712 # 字节出来做AI创业一年，她把每一个弯路都说清楚了 > https://www.xiaoyuzhoufm.com/episode/6a100e7da7621e15d0c88337 梦琪创业快一年了，融了钱，pivot（转型）了好几次，最惨的时候觉得"做软件真是脑子进水"。但她现在反而不焦虑了。这篇文章是她在曲凯的「42章经」播客里的完整复盘。字节背景、华丽团队、Agent 故事、连续融资……她走过了过去几年 AI 软件创业者最典型的那条路，然后把每一个弯路都说清楚了。 ## 去年融到钱的软件创始人，都该给 Manus 磕一个梦琪总结了一个过去两三年 AI 软件创业的标准剧本：字节背景，组一个好团队，讲一个当下流行的 AI 故事（那时候肯定是 Agent），产品出来之前先融几轮，然后开始转型。或者出一个小产品，不温不火，等新概念出来再做新产品。她说，很多人看到这段会对号入座。今天的软件行业处于低点，但这个低和 2023 年的低不一样。 2023 年是整个行业都低，2025 年是巨身（大模型）非常热、AI 硬件也起来了，软件单独在受冷。这个背景下，她说去年五月以后融到大钱的软件创始人，都应该感谢 Manus。因为 Manus 让 Agent 这件事在国内有人愿意看、愿意投。但她也直接说了：很多 To B 的 Agent 公司，商业模式上和十年前的 SaaS 本质没有区别，只是产品不一样，然后拿到更高的估值。 ## 二三月份，她觉得自己要死了 AI Coding 变强这件事，梦琪用"指数级"来形容，而且说这种推背感"特别特别强烈"。她聊到一个细节：OpenAI 内部做后训练的同事告诉她，今年 2 月，他们 80% 的代码已经是 agent 写的。但这位同事并没有因此变得更轻松，因为要做的事变得更多了。这个细节说明了什么？模型变强，并不等于软件创业变容易了。但另一个方向的逻辑也成立：如果 AI Coding 这么强，为什么过去三年真正跑出来的产品还是非常少？梦琪的答案是：大部分产品没有体验可言。她用了一个很直接的词——"诈骗公司特别多"。产品宣称能交付的价值，和用户实际用下来的体验，严重不匹配。她在今年二三月份最焦虑的时候，发现自己回答不了一个问题：你的产品跟直接用 Claude 有什么区别？Claude 生态里随便一个人做个插件，就能干掉你，你怎么办？没有一个站得住脚的答案。 ## 三次错误决策，一步步走向 SaaS 梦琪的公司叫 Invocal，她把自己这一年的转型过程拆得很细。第一个错误：做垂直 Agent 成立之前，她就决定不做 General Agent，因为"那会已经有第 18 个 Manus 出现了"，不想加入混战。选了垂直方向，选了达人营销里的 Sourcing（采购）场景（帮品牌找达人）。逻辑听起来很顺：找明白达人，就能找明白候选人，找明白客户，Sourcing 是个能泛化的场景。但做了两个月之后，她发现了一个分叉：两类用户给完全不同的需求。创始人说"什么都不想按，给我结果"；专业用户说"中间每一步我要审计，要确认"。她选择了服务专业用户，然后把专家经验蒸馏进产品，再卖给非专业用户。结果某一天她对比了一下，发现这个产品"长得就是 SaaS"，和八年前那批 SaaS 公司的产品长相一模一样。她的结论是：如果你服务专业用户，他们会一直给你提需求，直到你长得跟 Adobe 差不多才会停下来。这条路必然走向 SaaS，没有别的出路。第二个错误：选了错误的场景 Sourcing 这个场景本身就不成立。达人营销的完整链条里，Sourcing 只占 30%，而且对 AI 来说是相对容易的部分。后面的沟通、谈价、排期，才是最耗时间、最耗人力的地方，而她的产品跳过了这些。第三个错误：横向扩张而不是纵向深挖意识到 Sourcing 不是高价值点之后，她面临一个选择：往深做增长全链路，还是横向扩张去做"找候选人、找客户"的通用 Sourcing Agent？她选了前者，这个决策她觉得是对的。理由是：掌握了面粉和鸡蛋，不代表你应该同时卖大饼和意大利面。找人 Agent 的跨场景复购逻辑根本不成立，没有人会同时有找达人、找候选人、找客户的需求。 ## 垂直 Agent 的两个结构性困局做到 12 月份，梦琪得出了一个"非常难以承认"的结论：垂直 Agent 大概率不成立。她总结了两个结构性困局。第一个：客户不用产品，但你又想挣钱，所以你被迫变成 Agency （代理公司）垂直 Agent 公司在过渡阶段，几乎都要派人去服务客户。产品是给投资人看的，真正挣钱靠服务。她听到无数次同行说：内部服务的人也不用这个产品，那这个产品做来干什么？她用了一个词："景观效应"。产品就是一个景，给投资人看这个景。第二个：To B 本身的结构性问题 To B 周期长，在中国做 To B 是贬义词，在美国做 To B 的华人天花板也很明显。更关键的是：To B 的 Agent 公司能吃到的最大的新模型红利，只是内部开发效能更高了。对于产品能解决的问题，效率有没有十倍、二十倍的增长？没有。 ## 去美国待了两个多月，对美国创业生态祛魅了梦琪在最焦虑的时候跑去硅谷待了两个多月，想搞清楚是自己能力不行，还是垂直 Agent 这件事本身就不成立。结论是：大家的困境都挺像，都是结构性的困境。但她还顺带观察了一件事：美国 To B 圈的"骚操作"比她想象中严重得多。最基础的版本是互相买产品刷流水，你给我 50K，我给你 50K。但这个太容易被审计出来了，所以现在已经进化成六个人、十个人的复杂交易网络，审计不出来。她说每到月底，那些美国创业者对她格外热情，后来才明白是想拉她一起冲流水。她没参与，觉得"没必要，要维持自己的道德标准"。 ## 做了一个浏览器插件，反而看到了曙光转向 C 端之后，梦琪的团队做了一个叫 CLICK 的浏览器插件，解决一个问题：你开了一堆 Tab，一直切换，找不到信息。同时支持光标旁边唤起 AI 写作。她说这个产品"能说出 100 个替代品的名字"，功能极其简单。但就是这么一个产品，收到了来自南非用户的反馈：用了这个产品之后，终于能沉浸式干一件事了，不需要在屏幕上划来划去，让焦虑一点点叠加。这给了她一个关于 C 端产品的核心判断：只要能缩短用户意图和解决方案之间的距离，你就有价值。 CLICK 的价值不是功能有多复杂，而是把"想用 AI 写这段话"这个意图，从"截图→打开 ChatGPT→写 prompt→复制回来"压缩成了"按一个按钮"。后来他们把 CLICK 扩展成了客户端产品，做了三个月，截止到录制前一天晚上，已经是第 49 个版本了，还有 bug，但稳定性在同类产品里算高的。梦琪说，越做越对软件有敬畏之心。软件是由 15,000 个细节组成的，你多吃一个细节，用户体验好一点。 AI Coding 越强，这种感受反而越深。 ## 两种 C 端生意，她选了健身房她把 C 端的 AI 产品生意分成两类。第一类是大 R 运营：找一批高消耗用户，一个月给你出几万美金的那种，用户量不多，但客单极高。 Lovable 这类产品的用户量没有想象中多，但一两万个超级用户就够吃了。第二类是健身房模式：收订阅费，赌用户不会天天来用，或者赌他们的 token 用不满。这种模式在高竞争环境下很难有超额收益。梦琪选了健身房模式，因为她不想做一个毛利极低的业务。 ## 用 Reddit 做用研，比你想象的有用梦琪分享了一个她觉得很有效的用研方法：大量泡 Reddit。一方面是数据挖掘，但这只能给静态结论。更重要的是，他们在 Reddit 上发了大量帖子，把每个产品决策拆成决策漏斗，每一层对应 40 到 50 个帖子发出去，回收所有反馈。她说泡 Reddit 最大的好处是：你会发现很多问题 AI 这么牛了还没解决，比如 context switching（上下文切换）的问题，每天都有人在吐槽"我在几个 context 里一直切换，我脑子要分裂了"。泡 Reddit，你就不焦虑了。因为你看到的是真实的、没被解决的需求，而不是投资人 PPT 里的市场分析。 ## 刚拿到融资，是创始人最接近"愚昧之巅"的时刻梦琪对自己的批评很直接。她说创业初期招了一些很厉害的科学家，现在有些在美国的 Research lab（研究机构）里。但那些决策不是基于真正的市场需求，而是"我得装一下，我得满足自己的虚荣心，我得展示我有能力把他们都招来"。她的结论是：大部分纯应用的创业公司不需要任何算法工程师。你用不上，快放人家去训模型吧。招这个人，纯属给投资人看，显得阵容豪华。她还说：刚拿到融资的时候，往往是创始人最接近"愚昧之巅"的时刻。觉得自己讲得太好了，怎么这么能造概念，怎么这么能总结，怎么这么能融会贯通。等真正做事之后才发现，落地是如此恶心，细节是如此之多。 ## "XX 已死，XX 永生"是 AI 圈的番茄小说梦琪对这类言论的评价很直接：脑子有病，没有意义。她的逻辑是：商业社会里所有的竞争，都不是一瞬间完成的。抖音出来，快手不会今天立刻死。某个 AI 产品出来，做 workflow 的公司不会立刻死。这个世界是在动态博弈、动态竞争里运转的。自媒体特别喜欢把一个漫长的、可能有点枯燥的竞争过程，压缩成几秒钟发生的短剧剧情。她还有一个观察：AI 的渗透率其实远没有行业内的人想象的高。她在旧金山做过田野调查，在 101 公路上打了大广告牌的 Wispr Flow，只有 40% 的人知道，知道的人里真正付费在用的可能只有 20%。还有创业者在路边随机问人"你用不用 ChatGPT"，结果很多人根本不知道。这个世界很参差，很分层。有的人到现在还把 AI 当简单助手用。需求是多分层的，渗透率还足够低，这是她乐观的理由。 ## 上一个产品是证明题，这个是简答题梦琪说，她一直没有做过"全球首款 xxx"的大宣发。表面原因是觉得浪费钱，一波流留存不好。但夜深人静的时候，她问自己真实的原因：因为对那个产品不满意，不相信它。她现在的状态是：这个产品再垃圾，你怎么骂我，我就爱这个产品。这是她的 spark（动力源泉）。她把上一个产品定性为"机会主义者，迎合市场，想交作业，想做证明题"。而现在这个产品，她想做一道真的想答的简答题。她说有一些事是 AI 代替不了的：人内心深处的那种火，那种光，那种 spark。这是人身上最宝贵的部分，也是她认为一定要保护好的东西。 ## 创业者的牵引力来自哪里梦琪最后做了一个总结。她说创业者有非常多的牵引力：投资人给的、市场给的、员工给的、用户给的。她反思自己过去，外界的牵引力太多，用户的牵引力太少。用户的牵引力，才是决定你能不能做出好产品的核心因素。她还说了一句话，可以当作整个复盘的注脚：创业不能用太多左脑。天天盘概念、推逻辑，被所谓的叙事骗了，然后总是推倒重来，而不是用心去感受你真正想做什么。第一性原理是：解决问题的最短路径。其他的都是周边。如果你现在也在做软件，或者在考虑要不要做，梦琪的这一年给出了一个可以直接对照的清单：你的产品是在解决真实需求，还是在讲一个好听的故事？你服务的是专业用户还是普通用户，这两条路通向的终点完全不同。你的牵引力主要来自用户，还是来自投资人和市场热点？你对这个产品有没有那种"不做会后悔死"的感觉，还是只是觉得这个机会比较合适？这四个问题，梦琪都踩过坑了。

译字节背景创业者梦琪复盘其AI软件公司Invocal一年来的转型历程。她经历了典型剧本：组团队、讲AI智能体故事、连续融资，随后经历三次错误决策：选择垂直智能体场景（达人营销的Sourcing资源挖掘）、选错场景（该环节仅占链条30%）、并误判横向扩张。她得出结论：垂直智能体存在结构性困局，易被迫变成代理公司，且To B模式难以获得模型效率的倍增红利。转向C端后，团队开发了浏览器插件CLICK，其核心价值在于缩短用户意图与解决方案的距离。她总结认为，大部分应用层创业公司不需要算法工程师，创始人刚融资时最易陷入“愚昧之巅”。

查看原推 ↗

向阳乔木@vista8 · 6月3日71

我去，一句话建网站啊，还能分享给别人查看。更新Codex后，中@site 就能用，等我体验下。 Codex这次更新有点强！ Anthropic 只是Design，OpenAI更进一步，包设计，还包网站生成。

译我去，一句话建网站啊，还能分享给别人查看。更新Codex后，中@site 就能用，等我体验下。 Codex这次更新有点强！ Anthropic 只是Design，OpenAI更进一步，包设计，还包网站生成。

查看原推 ↗

OpenClaw🦞@openclaw · 6月3日69

"You can run OpenClaw inside your company now." Annoucing our work with @Microsoft to bring OpenClaw to the Microsoft and Windows ecosystems. Claws now work securly in the enterprise.

译“你现在可以在公司内部运行 OpenClaw 了。” 宣布我们与 @Microsoft 的合作，将 OpenClaw 带入微软和 Windows 生态系统。Claws 现在可以在企业环境中安全运行。

查看原推 ↗

jason@jxnlco · 6月3日41

10 takeaways from OpenAI’s new report on knowledge work and Codex. codex isnt about coding anymore, but all knowledge work!

译OpenAI关于知识工作与Codex新报告的10个要点。 Codex不再仅限于编码，而是面向所有知识工作！

查看原推 ↗

郭明錤｜Ming-Chi Kuo@mingchikuo · 6月3日63

我對 NVIDIA RTX Spark 的幾個想法（先不討論規格細節）：裝置端 AI agent 敘事、實現檢視與 Apple WWDC 1. 核心是 NVIDIA CEO 黃仁勳提出的「重新發明 PC」口號，以及裝置端 AI agent workflow 的概念展示（會說概念展示，是因為沒有實機演示）。上述口號與概念展示，有助於短期內加速形成市場對裝置端 AI agent 的共識。 2. 裝置端 AI agent 展示概念元素： OS + cloud/local LLM switching + agent harness + cross-app workflow + sandbox 此概念並非原創，但藉由 GTC 的高曝光度與敘事張力，在可見未來將會主導裝置端 AI agent 使用者情境的敘事。 3. 雖然黃仁勳領先提出了裝置端 AI agent 的願景與敘事，但畢竟未來 2 年內，RTX Spark 裝置仍是筆記型電腦的利基市場，因此現在判斷商業競爭誰輸誰贏還太早。 4. 在 GTC 前，絕大部分關於 RTX Spark（N1X）的討論與預測都聚焦在晶片代號、規格與供應鏈；相較之下，作業系統的重要性鮮少被提及。而黃仁勳此次演說，將作業系統與晶片平台一同放在「重新發明 PC」的核心位置，這也呼應了我先前提出的核心觀點：裝置端 AI 推動升級換機潮的關鍵在作業系統。 5. 軟體是使用者體驗的關鍵。若要確保使用者能體驗到黃仁勳展示的 agentic workflow，仍有很多工作待完成。至少要看到 NVIDIA 的 CUDA Toolkit 公開支援 Windows Arm64，以及 Microsoft 讓 Windows 本機 AI agent 架構從預覽版走向正式商用（GA），包括目前仍在 public preview 的 MCP on Windows、ODR、agent 連接器，以及仍在 private preview 的 Agent Workspace。如果硬體發售時，上述開發與 OS 工具仍不到位，RTX Spark 裝置就很難兌現發表會的核心訴求，也就是讓使用者真正創造並體驗 AI agent workflow 這個關鍵賣點。 6. 在黃仁勳提出「重新發明 PC」的口號後，Apple 預計在 6 月 8 日舉辦的 WWDC，會如何回應裝置端 AI agent workflow，就變成除了 Siri 改善程度以外的另一個觀察重點。對 NVIDIA 與 Microsoft 而言，即使 RTX Spark 後續開發與出貨時程有任何變動，也無損這兩家公司在 AI 基礎建設的強勁成長動能。相較之下，消費電子就是 Apple 硬體事業的全部，而裝置端 AI 就是消費電子創新趨勢的主軸，因此 Apple 除了要提出吸引人的敘事外，也需要給出明確的實現規劃，例如更明確的開發工具、agent-ready OS 的更新時程等。

译郭明錤认为，NVIDIA CEO黄仁勋在GTC提出的“重新发明PC”口号，核心是展示端侧AI agent工作流概念。他指出，该概念并非原创，但将借助高曝光度主导未来叙事。然而，现实挑战在于：配备N1X芯片的RTX Spark装置未来两年出货量约1000万台，仍属利基市场；且当前PC主流AI应用与端侧算力关系不大。关键制约在于操作系统支持，Windows需完善相关工具才能兑现端侧AI agent体验。这也将影响Apple在WWDC上如何回应。

查看原推 ↗

郭明錤｜Ming-Chi Kuo@mingchikuo · 6月3日63

A few thoughts on NVIDIA RTX Spark, setting aside the specs for now: the on-device AI agent narrative, a reality check on delivery, and Apple’s WWDC. 1. At the heart of it are two things: Jensen Huang’s “reinvent the PC” slogan and a concept demo of an on-device AI agent workflow. (I call it a concept demo because there was no live demo.) The slogan and concept demo should help speed up market consensus around on-device AI agents in the near term. 2. The key elements of the on-device AI agent concept: OS + cloud/local LLM switching + agent harness + cross-app workflow + sandbox The concept isn't new, but thanks to GTC's reach, it will likely shape how people talk about on-device AI agent use cases for the foreseeable future. 3. Jensen laid out the vision and narrative for on-device AI agents earlier than most. But over the next two years, RTX Spark devices will still be a niche slice of the laptop market, so it's too early to call who wins commercially. 4. Before GTC, most discussion and predictions around RTX Spark / N1X focused on its codename, specs, and supply chain. The operating system rarely came up. In his keynote, Jensen placed the OS alongside the chip platform at the heart of “reinventing the PC.” That echoes my earlier point: the operating system is the key to on-device AI driving the next upgrade cycle. 5. Software is what makes or breaks the user experience. For users to actually experience the agentic workflow Jensen showed, a lot still has to happen. At a minimum, NVIDIA’s CUDA Toolkit needs to officially support Windows Arm64, while Microsoft needs to move Windows’ on-device AI agent stack from preview to general availability (GA), including MCP on Windows, ODR, and agent connectors (all still in public preview), plus Agent Workspace (still in private preview). If these developer and OS tools still aren't in place when the hardware ships, RTX Spark devices will struggle to deliver on the keynote’s core promise: enabling users to actually create and experience AI agent workflows, the product’s core selling point. 6. After Huang's "reinvent the PC" pitch, how Apple responds to on-device AI agent workflows at WWDC (expected June 8) becomes another thing to watch, alongside how much Siri improves. For NVIDIA and Microsoft, even if RTX Spark's development or shipping timeline slips, it won't dent their strong growth in AI infrastructure. Apple is in a different position: consumer electronics is its entire hardware business, and on-device AI is where consumer electronics innovation is heading. So beyond a compelling narrative, Apple also needs to show a concrete plan to deliver, including clearer developer tools and an agent-ready OS update timeline.

译郭明錤分析了NVIDIA在GTC上提出的RTX Spark笔记本及设备端AI智能体概念。他指出，该概念演示（无实际现场展示）包含操作系统、云/本地LLM切换、智能体框架等要素。供应链调查显示，配备相关N1X芯片的设备未来两年出货量约1000万台，仍属利基市场。当前PC端主流AI应用仍依赖云端算力。若设备出厂时，NVIDIA CUDA Toolkit未正式支持Windows Arm64，且Microsoft的设备端AI智能体栈（包括MCP on Windows、ODR等）仍处于预览状态，则RTX Spark将难以兑现其核心卖点。此外，Apple在WWDC上如何应对设备端AI智能体工作流也值得关注。

查看原推 ↗

jason@jxnlco · 6月3日66

You can now observe codex with Logfire and also query Logfire in codex with their new plugins! https://pydantic.dev/articles/codex-logfire-plugins

译你现在可以通过 Logfire 观察 Codex，也可以在 Codex 中通过他们的新插件查询 Logfire！

查看原推 ↗

🚨 AI News | TestingCatalog@testingcatalog · 6月3日64

Microsoft ❤️ OpenClaw Microsoft is launching the OpenClaw Companion app, a built-in, always-on OpenClaw agent, deeply integrated into the Windows ecosystem.

译微软正在推出 OpenClaw Companion 应用，这是一个内置的、始终在线的 OpenClaw 智能体，深度集成到 Windows 生态系统中。

查看原推 ↗

Berryxia.AI@berryxia · 6月3日63

OpenAI刚刚官方发出的最新数据，这一波直接把Claude按在地上摩擦了！ Codex现在每周活跃用户已经超过500万，比二月份桌面App刚上线时增长了6倍多。更值得注意的不是这个数字，是这些人到底在用它干什么。一开始大家以为Codex只是程序员的代码助手，结果现在知识工作者采用它的速度是开发者的3倍以上，占了用户总数的20%。他们不再只写代码，而是用它做研究、数据分析、内容创作、合同起草、运营协调，甚至一次同时跑多个任务。 72%的知识工作者每周都会用它产出文档、备忘录、图像、音频或者视频。最快的增长领域是数据分析（周环比110%）、研究（37%）和知识产物制作（36%）。一个加州州立大学的数学教授用它处理Canvas LMS的行政工作，每周省下4到5小时，把时间重新投到和学生的深度讨论上。另一家叫GroundVue的公司，用Codex把9万个政府机构的公开会议全部抓取成可搜索的知识库，以前需要一大队研究员，现在3个人就搞定。以前我们总觉得AI会先把程序员的工作吃掉，结果真实数据把这个预期彻底反转了。知识工作者才是最早把AI当成日常生产力操作系统的那批人。这其实就是Brynjolfsson说的“工厂重构时刻”：当年电力出现后，大家先把蒸汽机换成电动机，结果效率没怎么提升。后来他们把整个工厂布局重新设计，把电机装到每台机器旁边，才真正爆发生产力。 Codex正在对知识工作做同样的事。它把搜索信息、跨团队协调、审批流程这些过去占掉知识工作者将近一半时间的隐形成本，直接压到最低。

译OpenAI最新数据显示，其AI编程工具Codex周活跃用户已超500万，较二月份增长超6倍。关键趋势是用户群体变化：知识工作者采用速度是开发者的3倍以上，占总用户数的20%。他们不再局限于编程，而是广泛用于研究、数据分析、内容创作和运营协调，其中72%每周用其产出文档、图像等内容。增长最快的领域是数据分析（周环比110%）、研究（37%）和知识产物制作（36%）。案例包括教授节省行政时间、公司高效构建知识库。这反映了AI正像“工厂重构时刻”一样，重构知识工作流程，大幅压缩其隐性成本。

查看原推 ↗

Berryxia.AI@berryxia · 6月3日73

兄弟们，Codex 真的杀疯了啊！ Open AI 刚发布了Codex Python SDK，一行pip install openai-codex就能搞定。现在你可以直接在Python代码里启动线程、跑turn、实时stream进度、随时resume session、传图片，还能精细控制sandbox访问权限。更狠的是，它直接复用你现有的Codex认证，完全不用再多开一个账号。底层其实是启动一个本地Codex app-server，通过stdio/JSON-RPC和你的脚本通信。不再是每次输入都新开node进程，内存和状态管理直接稳了。以前大家总觉得Codex是“浏览器里的AI IDE”，适合手动Vibe coding。现在SDK把它变成了真正的可编程基础设施啊！你可以在自己的脚本、scheduler、dashboard里直接把它当agent harness用，session能断点续跑，状态自然保留，真正把AI变成代码里的原生队友。这步其实把开发者工作流彻底重构了：从“切出去问AI”变成“让AI在代码里安静执行”。以前手搓agent pipeline要花大半天胶水代码，现在SDK把线程管理、状态持久、sandbox隔离全打包好了。

译OpenAI 正式发布 Codex Python SDK，开发者通过一行命令即可在 Python 应用中直接集成 Codex。该 SDK 支持启动线程、运行 turn、实时流式传输进度、恢复会话、传递图片及精细控制 sandbox 访问权限，并复用现有 Codex 认证。其底层通过本地 app-server 与脚本进行 stdio/JSON-RPC 通信。此举将 Codex 从浏览器工具转变为可编程基础设施，使其能作为智能体工具集成于脚本、调度器和仪表板，重构开发者工作流。

查看原推 ↗

Chubby♨️@kimmonismus · 6月3日52

This came as a surprise: Microsoft has unveiled handheld and desktop devices designed to control one's agents. It reminds me of what I had expected from OpenAI’s hardware-standalone devices for controlling agents.

译微软意外发布了用于控制其AI智能体的手持和桌面硬件设备。该产品形态让人联想到此前对OpenAI推出独立控制智能体设备的预期。

查看原推 ↗

Chubby♨️@kimmonismus · 6月3日53

Open claw windows companion app

译这出乎意料：微软发布了用于控制个人智能体的手持和桌面设备。这让我想起了我曾对OpenAI用于控制智能体的独立硬件设备的期待。

查看原推 ↗

Rohan Paul@rohanpaul_ai · 6月3日36

Boston Dynamics’ Spot is patrolling World Cup venues in Dallas, using 360° cameras, thermal imaging, and chemical sensors to detect suspicious packages, scan surroundings, and support security teams live. No facial recognition capability.

译波士顿动力的Spot机器人正在达拉斯的世界杯场馆巡逻，使用360度摄像头、热成像和化学传感器来检测可疑包裹、扫描周围环境，并实时支持安保团队。不具备面部识别能力。

查看原推 ↗

Lee Robinson@leerob · 6月3日58

Quick rant on AI model benchmarks: - Some of the most popular ones are no longer helpful (SWE-bench¹) - It can be very hard to reproduce reported results (so lots of variance) - Take them with a grain of salt, look at the average across many We need some creative new ideas for AI model marketing. Supportive of a Survivor spin-off (who is the AI Jeff Probst!?). I get why every model release shows benchmark scores as the headline. It's actually pretty hard to describe how a model has improved without it sounding like fluff. And also it sounds boring to say the same thing over and over ("it's better at following instructions" repeat x10). Benchmarks make it very clear there is a number, which likely started bad, and is now going up. Yay! The reality is that benchmarks are most useful to those *training* the model so they know where to improve. Model labs use these benchmarks to measure progress, which is why having non-saturated benchmarks is extremely helpful. If you see models getting 90% on an eval, it's probably time to make a harder version. I do think there's a word of caution for everyone interpreting benchmarks. It's very hard to get exactly the same scores, which is why some benches show error bars and do the average over multiple runs. But even further, the hardware and GPUs the evals are running on really matter! Small differences there, or minor tweaks to the prompt, can swing scores by multiple percentage points². All of that to say, it's important to look at many different benchmarks, and then actually use the model to make your own opinion. For example, there's recently been a lot of debate on here about Opus 4.8 not benchmarking as well as other models. But personally I've found the model really good from my own usage. Your mileage may vary! There aren't many high-quality public benchmarks that measure things like the UX of the model responses, the style of the messages, the warmth or directness of the "personality". These things matter *a lot* for the day-to-day usage. How the model performs in the real world is often different from very specific benches. In summary, benchmarks matter but they are not a substitute for extensively testing the model yourself with real work. ¹: https://openai.com/index/why-we-no-longer-evaluate-swe-bench-verified ²: https://www.anthropic.com/engineering/infrastructure-noise

译Lee Robinson 批评当前AI模型基准测试存在局限，如 SWE-bench 已过时且结果难以复现。评测分数易受硬件、GPU差异和prompt微小改动影响，波动明显。这些基准对模型训练者衡量进展有价值，但对普通用户，当分数饱和时便失去参考意义。他指出，模型的交互风格、个性等重要因素无法被现有公共基准充分衡量。因此，建议用户综合参考多个基准，并亲自使用模型以形成判断。

查看原推 ↗

Perplexity@perplexity_ai · 6月3日55

Today we're announcing that hybrid agentic inference is coming to Perplexity Computer. Computer can split tasks between a local model running on your machine and frontier models in the cloud. This keeps private data on your device and maximizes token efficiency. Coming soon.

译今天我们宣布，混合智能体推理将登陆 Perplexity Computer。 Computer 可以将任务分配给本地运行的模型和云端的前沿模型。这能将私有数据保留在您的设备上，并最大化 token 效率。即将推出。

查看原推 ↗

Google DeepMind@GoogleDeepMind · 6月3日61

We believe AI can be a dedicated research partner to help discover the next breakthrough. Enter Co-Scientist: our latest Gemini-based multi-agent system that can generate, debate and evolve novel hypotheses for complex scientific problems 🧵

译我们相信 AI 可以成为专属研究伙伴，帮助发现下一个突破。隆重推出 Co-Scientist：我们最新的基于 Gemini 的多智能体系统，能够为复杂科学问题生成、辩论和演进新颖的假设 🧵

查看原推 ↗

jason@jxnlco · 6月3日43

course guy in search of education lead https://openai.com/careers/developer-education-lead-san-francisco/

译课程专家寻找教育负责人 https://openai.com/careers/developer-education-lead-san-francisco/

查看原推 ↗

SemiAnalysis@SemiAnalysis_ · 6月3日52

Major hyperscalers introduce a variety of GPU, XPU, and CPU chips, leading to more diverse server rack and board designs. To meet different customer needs, ODMs need larger design teams, along with more assembly and testing capacity. ODMs now have a good opportunity to reach new customers and expand their client base. As AI server designs become more customized, early engagement and customer trust will be key factors in securing long-term business. AI server assembly requires heavy upfront investment in capacity and equipment. Vendors with stable customers are better positioned to support expansion and capture long-term growth.

译超大规模云服务商引入多样化的GPU、XPU和CPU芯片，导致AI服务器机架和板卡设计更加多元化。为满足不同客户需求，ODM厂商需要扩大设计团队规模，并增加组装与测试产能。这为ODM提供了接触新客户、拓展客户群的良机。随着AI服务器设计日趋定制化，早期介入与客户信任将成为赢得长期业务的关键。

查看原推 ↗

Chubby♨️@kimmonismus · 6月3日33

RTX spark running 120b parameter model locally. Ngl, pretty cool

译RTX显卡本地运行1200亿参数模型。说实话，挺酷的。

查看原推 ↗

Chubby♨️@kimmonismus · 6月3日30

It is interesting how much focus is being placed on data centers and the community. Recently, there were numerous reports regarding resistance to data center expansion; now comes the promise from Microsoft: no increase in electricity costs due to data centers, along with resource conservation.

译有趣的是，数据中心和社区受到了如此多的关注。最近有大量关于数据中心扩张阻力的报道；现在微软承诺：数据中心不会导致电费上涨，同时节约资源。

查看原推 ↗

Chubby♨️@kimmonismus · 6月3日45

live call with Jensen. It shows how important the partnership between MSFT and NVIDIA actually is. DGX spark, azure with NVIDIA GPUs and so much more.

译与黄仁勋的直播连线。这展示了微软与英伟达之间合作的重要性。 DGX spark、搭载英伟达 GPU 的 Azure 等等。

查看原推 ↗

Artificial Analysis@ArtificialAnlys · 6月3日62

Krea 2 Medium debuts at #6 on the Artificial Analysis Text to Image Leaderboard, trailing only models from OpenAI, Google, and NVIDIA! Krea 2 is @krea_ai's first image model family trained entirely from scratch (Krea 1 was developed in collaboration with Black Forest Labs). Krea 2 is available in two variants: Krea 2 Medium, and Krea 2 Large, which is more comparable to FLUX.2 [pro] in our arena. Notably, Krea 2 Medium outranks the larger, more expensive Krea 2 Large in our arena. Krea describes Medium as smaller and faster, with extensive post-training that makes its outputs especially stable and consistent across generations. While Large is positioned as the more capable model, our leaderboard results align with Krea's view that Medium "handles the broadest range of use cases reliably." Both models generate at 1K resolution and share a distinct set of generation controls via the API: ➤ Style transfer: Krea can extract the style of up to 10 reference images, with each image being able to be weighted in terms of importance ➤ Creativity Setting: A configurable API parameter (raw, low, medium, high) that sets how closely the model follows the prompt versus reinterpreting it ➤ Moodboards: A collection of images that can be collected in the application to apply a style transfer onto the image (separate from individual style reference images) At $30 per 1k images via Krea's API, Krea 2 Medium is priced below comparable models such as Nano Banana Pro at $134/1k images or grok-imagine-image-quality at $50/1k images. Krea 2 Large is priced at $60 per 1k images, and both models' prices increase with the use of the Style Transfer and Moodboard features. Both models are available in the Krea app, via Krea's API, and on official third-party launch partners. Congratulations to @krea_ai on the launch! See below for comparisons between Krea 2 and other leading models in our Artificial Analysis Image Arena 🧵

译Krea AI自研的文生图模型Krea 2 Medium在Artificial Analysis排行榜上位列第6，仅落后于OpenAI、Google和NVIDIA的模型。值得注意的是，体积更小、速度更快的Medium版本在排名上超过了定位更强大的Large版本。两款模型均支持通过API进行风格迁移和创意控制等操作，生成1K分辨率图像。定价方面，Krea 2 Medium为30美元/千张，Krea 2 Large为60美元/千张。

查看原推 ↗