AIHOT

全部动态X · 9262 条

全部一手资讯 X 论文

Berryxia.AI@berryxia · 6月2日51

记得4月我们内部Apple 给大家介绍ComfyUI工作流时，很多人一脸懵逼！因为他们平时都是玩豆包、DeepSeek 的！压根没有接触过ComfyUI 这玩意，但是也和客户，以及周围干业务的人接触知道。其实这玩意在工作流生产环节中使用的频率非常高！我也发现一个趋势越来越明… 5月他们悄无声息地集成了11个跨图像、3D、音频、视频和多模态的新模型。最亮眼的几个直接可以把项目效率拉高了一个量级。 Krea 2 把风格优先的图像生成直接拉进来，第一天就以Partner Node形式上线。它不再只拼画面里有什么，是把整个画面的感觉做到极致。 VOID来自Netflix，能把对象连同它带来的阴影、反射、物理交互全部干净移除，Apache 2.0开源，原生支持。 Tripo 3.1加TripoSplat，则实现了一张图直接出完整3D Gaussian资产，全流程端到端。此外Gemma 4、Stable Audio 3、BiRefNet、MoGe、Claude、OpenRouter、Luma UNI-1也同步上线。这些模型以前可能还得单独开云端账号、调API、处理格式兼容。现在全变成ComfyUI里的节点，随手拖拽就能串成复杂工作流。这其实戳破了一个共识：AI进步不是靠单一模型越来越大，而是靠本地工具把最新能力快速变成可组合、可重复的生产力。 ComfyUI把前沿研究直接转化成每个人都能本地跑的节点，真正让创作者把控制权握在自己手里。

译ComfyUI在5月集成了11个涵盖图像、3D、音频、视频和多模态的新模型，将前沿AI能力转化为可本地运行的节点。亮点包括：Krea 2以Partner Node形式上线，专注于风格优先的图像生成；来自Netflix的VOID可干净移除对象及其引发的阴影、反射等物理交互；Tripo 3.1与TripoSplat结合，实现单图端到端生成3D Gaussian资产。此外，Gemma 4、Stable Audio 3等模型也已同步上线。用户无需单独调用API或处理兼容性，通过节点拖拽即可构建复杂工作流。

查看原推 ↗

meng shao@shao__meng · 6月2日60

吴恩达老师谈「AI FDE」和「AI Engineer」 AI 在创造新岗位，但长期岗位规模上，企业内部的 AI Engineer 会远大于厂商派驻的 Forward Deployed Engineer (FDE)；眼下最有价值的是能搭应用、会用 AI 编程工具的通才型 AI 工程师。回顾一下 AI FDE：驻场 + 深度集成 + 强交付 · 约 20 年前由 Palantir 开创：工程师进驻客户现场（如政府、隔离网环境）做深度交付 · OpenAI、Anthropic 等组建 AI FDE 团队，把工程师嵌入客户组织 · 把通用 LLM 改造成贴合业务的定制化智能体工作流（搭建、调优、落地） · 技术 + 沟通 + 有时还需商业判断：挖需求、排优先级、讲清技术、合理 push back 和「AI Engineer」的数量关系：吴老师的判断吴老师明确反对把 FDE 当成 AI 时代的主航道职业： 1. 企业更愿意养自己的兵可能接受少量外部 FDE，但更希望大量自有员工做 AI 项目——他自己的组织也是「招 FDE，但招远更多 AI Engineer」。 2. 厂商绑定 vs 选择权（optionality） · FDE 往往深度集成某一厂商产品，客户担心供应商锁定 · 在「一年后哪家 AI 服务最好还说不清」的阶段，保持技术/vendor 可选性比快速深度绑定更值钱 · 让 FDE 把流程绑死在一家厂商上，会显著削弱未来换栈空间结论：FDE 是重要但相对小众的交付形态；AI Engineer 才是更大、更稳的就业池。当下真正抢手的是什么人？吴老师观察到需求集中在 AI Engineer，尤其是能： · 用 LLM 能力做软件应用（prompt、智能体框架、evals 等） · 高效使用 AI Coding Agent（Claude Code、Codex、Antigravity CLI、OpenCode 等）这是「用 AI 组件写产品」的工程师，不一定非要驻场，也不一定代表某一家模型公司。职业演化：会像传统 Software Engineer 一样分化他认为 AI Engineer 会像几十年前的「软件工程师」一样从通才裂成专才，可能包括（他也在猜测）： · AI FDE（厂商侧或咨询侧驻场型） · LLMOps Engineer · Evals Engineer · AI Data Engineer · Harness Engineer（智能体/评测 harness） · 以及尚未命名的角色现阶段：通才型、技能全面的 AI Engineer 仍能创造很大价值——专业化是十年量级的趋势，不是今天的入场门槛。对「AI 砸就业」叙事的态度他用 FDE 复兴举例：AI 在创造新工种（FDE、AI Engineer 及未来专才），因此「工作末日 / jobocalypse」叙事过于简单。更准确的说法是：岗位结构在变，总量与类型会重组，而不是单向消灭。

译吴恩达对比了AI Forward Deployed Engineer (FDE)和AI Engineer两种岗位。他指出，FDE由厂商派驻客户现场进行深度集成，但企业更倾向于培养大量自有AI工程师。他判断，AI Engineer岗位数量将远多于FDE，因为客户担心供应商锁定，在AI技术快速演进时更需要保持技术选型灵活性。当下最有价值的是能使用Claude Code、Codex等AI编程工具构建应用的通才型AI工程师。未来该角色可能像传统软件工程师一样，分化出LLMOps、Evals等专才，但现阶段综合型人才价值依然很大。

查看原推 ↗

MiniMax (official)@MiniMax_AI · 6月2日74

🚀 M3 is live on Vercel's AI Gateway! Our first long-context model with 1M tokens, multimodal input. AND 50% off for the week 🎉 Love to see what everyone builds with M3 and @vercel_dev ✨

译🚀 M3 已在 Vercel 的 AI Gateway 上线！我们首个支持 1M token 长上下文和多模态输入的模型。本周享 50% 折扣 🎉 期待看到大家用 M3 和 @vercel_dev 构建什么 ✨

查看原推 ↗

Rohan Paul@rohanpaul_ai · 6月2日75

🎯 Andrej Karpathy on how to learn.

译🎯 Andrej Karpathy 谈如何学习。

查看原推 ↗

ginobefun@hongming731 · 6月2日71

http://x.com/i/article/2061582822029283328 # BestBlogs 早报 · 06-02｜MiniMax M3、AI Coding 规范、视频 Agent 在线阅读和收听：https://www.bestblogs.dev/explore/brief/2026-06-02 ## 导语 AI 能力边界在这个夏天被连续刷新。今天的早报围绕三条主线展开：MiniMax M3 作为国内首个集前沿 Coding、1M 超长上下文与原生多模态于一体的开源模型正式亮相，24 小时自主完成 CUDA 算子优化的实测让 benchmark 数字有了具体重量；Chromium 3500 万行代码库的 AI Coding 规范体系，展示了工程团队如何把 AI 工具真正制度化；xAI 的 Ethan He 则给出一个更深的判断——视频模型的智能上限跟着 LLM 走，下一个前沿不是更好的视频，而是视频 Agent。速览部分覆盖了语音智能体工程化实践、AI Friendly 架构设计、英伟达 Agent 工厂全栈发布、RAG 工程化认知纠偏、Rippling 生产级多智能体落地，以及吴恩达对 AI 工程师角色演化的判断，还有 MiniMax 自身作为 AI Native 公司的组织实践分享。 ## 精讲一：MiniMax M3：前沿 Coding 能力、1M 上下文、原生多模态，一个模型全给你 MiniMax M3 于今日正式发布，是目前国内第一个同时具备前沿 Coding 能力、1M 超长上下文与原生多模态的开源模型。三项能力的意义在此之前，这三项能力是海外闭源前沿模型（如 GPT-5.5、Gemini 3.1 Pro、Claude Opus）的专属标配。M3 是国内首个将这三者同时开源的模型，也是目前全球唯一的开源实现。 Coding 能力方面，M3 在 SWE-Bench Pro 上得分 59.0%，超过 GPT-5.5 和 Gemini 3.1 Pro，接近 Opus 4.7；在面向自主 Agent 的端到端评测框架 Claw-Eval 上取得最高分。值得关注的不只是数字本身，而是 M3 背后训练方式的转变：团队构建了交互式用户模拟器框架，让模型在训练阶段就接触到需求澄清、方案讨论、多轮迭代等真实开发场景，而非单轮任务假设。 MSA：把长上下文真正变成可 Scale 的维度 1M 上下文并非只是参数设置——它需要底层注意力机制的彻底重构。M3 自研的 MSA（MiniMax Sparse Attention）是一种全新稀疏注意力架构，通过精确的 KV 分块和 KV outer gather Q 算子优化，在 100 万上下文下每 token 计算量仅为上代模型的 1/20，prefill 阶段加速 9 倍，decoding 阶段加速超过 15 倍。与全注意力相比，MSA 在多个对照实验中能力基本打平，却拥有硬件友好、易实现、真正可 scale 的特点。两个让人印象深刻的实测 CUDA 算子优化：给 M3 一份任务描述、一个 benchmark 脚本、一个不能直接运行的 Triton 骨架，没有任何参考实现，要求在 NVIDIA Hopper 架构 GPU 上优化 FP8 GEMM kernel。在约 24 小时的连续执行中，M3 完成了 147 次 benchmark 提交、1959 次工具调用，将 Hopper FP8 硬件峰值利用率从 7.6% 推进至 71.3%，实现 9.4× 加速。最优解出现在第 145 次提交——在多个性能平台期后模型仍未放弃，这种长程自主迭代能力是最直接的实证。让 M3 「训」模型：给 M3 四个仅完成预训练的 Base 模型，在 12 小时内自主完成数据合成、训练、评测、迭代全流程，目标是让这些模型在数学推理、工具调用、代码生成等任务上具备基本能力。任务开放度远高于 CUDA 优化——没有明确的反馈结构，M3 需要自主判断研究方向。最终结果显示，M3 在 PostTrainBench 的表现显著优于对比模型，验证了其在开放研究任务中的长程规划能力。原生多模态：从 Step 0 开始的混合训练 M3 从训练第一步就采用多模态混合训练，而非事后拼接。团队发现 Interleaved data（交错数据）对模型性能的提升远比通常认为的更关键，在数据管线重构后，训练数据 Token 规模已可提升至 100 万亿量级。在论文复现实测中，M3 通过多模态能力读懂论文图表、通过长上下文将论文+代码+实验日志一次性进窗口、通过编程+Agent 能力长线程完成复现——三项能力协同，体现了原生多模态路线的价值。为什么值得关注 M3 的意义不只是 benchmark 上的数字超越，而是三项能力的同时开源——这意味着研究者和开发者现在可以基于一个真正具备长上下文、强 Coding、原生多模态的开源基座来构建应用。在 API 成本、可定制性、数据隐私等方面，开源的 M3 为从业者提供了此前不存在的选择。延伸阅读：配合今天速览中的「MiniMax 的 AI Native 组织进化实践」，可以看到 M3 背后这家公司是如何从第一天就把 AI 作为组织运转基础来设计的。 ## 精讲二：深入解析 Chromium 的 AI Coding 开发体系 Chromium 的 AI Coding 开发体系这篇文章来自 QQ 浏览器团队，对 Chromium（3500 万行代码）的 agents/ 目录做了深度解析，呈现了目前见到的最完整的大型工程团队 AI Coding 规范实践。为什么 Chromium 的经验值得认真对待 3500 万行 C++ 代码库、全球数千名贡献者、同时支持 Gemini CLI、Claude Code、GitHub Copilot 三种 AI 工具——这个规模决定了 Chromium 团队不可能靠「提示词技巧」来管理 AI Coding。他们必须把 AI 工具系统化、制度化，构建可以跨工具复用、可以随项目规模扩展的基础设施。四层分层提示词体系 Chromium 没有使用单体提示词，而是设计了四层架构：第一层（common.minimal.md）是核心指令，定义构建规则、测试方式、编码规范（Stay on task，不修无关 TODO；注释只写「为什么」不写「做了什么」）和 JNI 识别规则；第二层（common.md）是 8 步标准编辑工作流，强制 AI 在写任何代码前先完整阅读相关文件并向开发者确认理解；第三层是平台模板（desktop/android/ios/rust），开发者按平台组合；第四层是一次性任务提示词。开发者在本地创建 GEMINI.md，通过 @ 引用组合不同层级，脚本递归展开后形成完整 system instruction 注入 AI——用户不可见，每次对话隐式生效。这种分层设计的核心价值在于：每一层关注点分离，底层约束稳定，上层可以灵活组合。新成员只需要遵循标准配置，无需理解整套体系就能获得符合项目规范的 AI 辅助。 18+ 个可复用技能系统 skills/ 目录下有超过 18 个按需激活的技能，涵盖代码审查、依赖分析、性能剖析、安全扫描、文档生成等场景。每个 skill 是独立的提示词模块，可以跨 AI 工具复用，开发者通过 /skill-name 命令按需激活。技能系统的意义在于把「最佳实践」从个人经验转化为可分发的工具——任何开发者都可以用 /cr:review 触发符合 Chromium 标准的代码审查流程，不依赖个人对 AI 提示词的了解程度。三层 Agentic 工作流编排 projects/ 目录记录了 AI 驱动的大型自动化项目，比如大规模代码迁移、自动化重构。这些项目通过三层编排：任务分解层（把大任务拆成可验证的子任务）、执行层（AI Agent 执行并提交 benchmark 反馈）、验证层（自动运行预提交检查，确保每步改动可追溯）。 AI 使用政策：制度化的责任边界 ai_policy.md 是整个体系的底层约束，核心规则清晰： - 自审义务：作者必须在发送 Review 前自行审查并理解所有代码；提交不理解的代码将被剥夺 Committer 权限，再犯封禁账号 - 原创声明：无论是否使用 AI，作者必须声明代码为自己的原创作品 - 人类回复人类：AI Agent 创建的 CL 或 Bug 收到人类反馈后，必须由人类操作者亲自回复这套政策的核心判断是：AI 是辅助工具，不是责任主体。一旦「AI 写的，我没仔细看」成为推卸责任的理由，代码库的信任基础就会崩塌。Chromium 选择在制度层面封堵这个口子。 eval 评估体系与 knowledge base 除了提示词和技能系统，Chromium 还建立了评估体系（eval/ 目录下有 15+ 个测试场景）和知识库（knowledge_base.md，供 AI 引用 Chromium 项目规范和历史决策）。评估体系的存在意味着提示词的迭代是可量化的——修改 common.md 的某一步骤时，可以通过 eval 用例验证改动是否导致 AI 行为退化。这种「提示词也要有测试」的思路，是成熟工程团队 AI Coding 规范化的重要标志。对工程团队的实践启示 Chromium 的体系提供了一个可以按规模裁剪的参考模板：小团队可以从 common.minimal.md 和 ai_policy.md 开始，建立最基础的责任边界和工作流规范；中大型团队可以逐步引入技能系统和平台模板；只有规模达到需要大规模自动化的团队，才需要考虑 projects/ 层的编排体系。关键在于，Chromium 的每一层设计背后都有明确的「为什么」——不是为了用 AI 而用 AI，而是为了解决具体的工程问题（减少 AI 幻觉、保证代码可追溯、让最佳实践可分发）。这个「为什么」比具体的实现细节更有参考价值。对于正在推进团队 AI Coding 规范化的负责人，这篇文章是目前最值得精读的外部参考之一。 ## 精讲三：为什么视频智能体模型是下一个前沿——Ethan He，xAI Grok Imagine 负责人这篇 Latent Space 访谈的核心是 xAI Grok Imagine 负责人 Ethan He 的一个反直觉判断：视频模型的智能主要来自 LLM，而非视频训练数据本身。反直觉的核心论点通常的直觉是：要让视频生成更好，就需要更多、更好的视频数据，以及更好的视频专用架构。Ethan He 的判断与此相反——视频模型的能力上限，实际上跟着底层 LLM 走。当 LLM 的推理、规划、语义理解能力提升时，视频生成质量会随之提升；反之，单纯增加视频数据的边际收益是递减的。这个判断的实践意义：视频生成领域的下一个突破点，不在于更好的扩散模型或更大的视频数据集，而在于更强的语言模型基座。从单次输出到视频 Agent Ethan He 把视频生成的演进类比 AI Coding 的演进路径：Coding 从「一次性输出代码」进化到了能规划、编辑、测试、调试、提 PR 的 Agent 系统，背后的关键不只是模型能力提升，而是编排系统的进化。视频生成正走向同样的路径——下一个 Sora 不会是「更好的视频模型」，而是「视频 Agent」：一个能规划、生成、编辑、批评、迭代，跨越完整创作任务的系统。 Grok Imagine 的 Agent 模式（Beta）已经在验证这条路径：用户输入创作意图，系统规划 → 生成 → 编辑 → 迭代，在同一个无限画布上自动完成。这与传统的「输入 prompt → 输出视频」范式有本质区别——用户在描述目标，而非描述过程。构建前沿视频系统的工程现实访谈中 Ethan He 分享了一些实际的工程经验，值得关注：迭代速度是最关键的变量，超过几乎所有其他因素。xAI 团队在三个月内从零到一构建出 Grok Imagine 首个多模态视频模型，核心是极快的实验周期。许多最重要的改进来自修复数据和训练流水线中的小 bug，而非架构创新。视频数据集的存储和移动成本是隐性的重大瓶颈。与文本数据不同，大规模视频数据集的 I/O 成本往往超过计算成本，这影响了迭代速度和实验设计。 VAE（变分自编码器）质量对最终视频质量的影响被严重低估。大多数关于视频生成的讨论集中在扩散模型架构，但 VAE 压缩引入的信息损失会贯穿整个生成过程，是难以在后期弥补的底层约束。音视频对齐是目前最难的工程问题之一。人对音画同步的敏感度远高于对视频质量的敏感度——轻微的音画不同步会立即破坏沉浸感，而视觉质量的小幅下降用户往往感知不到。更远的视野：生成式 UI 与世界模型 Ethan He 的判断不止于视频 Agent。他认为生成式 UI 最终可能替代 HTML/CSS——当 AI 能够实时生成符合语义的界面，而非渲染预定义的组件，应用的交互范式将发生根本性改变。世界模型的真正价值需要三个要素同时具备：实时性（低延迟响应）、交互性（能够响应用户行为并持续更新状态）、长时域（在长达数小时或数天的任务周期内保持一致性）。目前的视频生成模型在这三点上都有明显缺口，但这也定义了未来几年值得投入的方向。构建视频系统的数据与基础设施挑战访谈中 Ethan He 特别强调了两个常被忽视的工程约束。其一是视频数据集的存储和移动成本——与文本数据集不同，大规模视频数据的 I/O 成本往往超过计算成本本身，这直接影响实验迭代速度。其二是 VAE（变分自编码器）的质量对最终视频质量的影响被严重低估。大多数讨论聚焦于扩散模型架构，但 VAE 压缩引入的信息损失会贯穿整个生成过程，是难以在后期弥补的底层约束。了解这些工程现实，有助于更准确地判断视频 AI 创业公司的技术路线和壁垒。与今天其他文章的关联 Ethan He 关于「Coding AI Agent 路径」的类比，与精讲二中 Chromium 的三层 Agentic 工作流编排形成呼应——一个是理论判断，一个是已经在 3500 万行代码库上运行的实践。两者合起来，勾勒出 Agent 系统从 Coding 扩展到视频创作的共同演进逻辑。同时，精讲一中 MiniMax M3 原生多模态的发布，也印证了 Ethan He 「视频能力跟着语言模型走」的核心判断——当底层语言模型的能力跃升，多模态和视频生成的上限也随之抬升。 ## 速览工程化语音智能体：低延迟、高质量与规模化生产实践（AI Engineer） Together AI 语音 AI 团队负责人 Rishabh Bhargava 系统讲解了生产级语音智能体的工程挑战。核心约束是亚秒级延迟预算——人类对话响应约 300ms，超过 500ms 就会感知到停顿，超过 1-2 秒用户参与度直接下降。实现低延迟需要 STT-LLM-TTS 级联流水线、基础设施共址、guardrails 等多项措施协同。文章还覆盖了向原生 speech-to-speech 系统的迁移路径，以及千路并发流时的规模化挑战。对正在构建语音交互产品的工程师极具参考价值。面向 LLM 的架构设计：什么是真正的 AI Friendly 架构？（大淘宝技术）来自淘宝营销业务的万字实战总结，系统阐述传统工程架构向 AI Friendly 架构演进的三范式：确定性→概率性（将输出收敛至安全区间）、结构化→语义化（基于意图而非格式响应）、静态→动态（从规则转向规划）。结合淘宝秒杀业务中 AI 审核与答疑系统的实战经验——AI 审核准确率 95.7%，AI 答疑系统问题解决准确率超 98%，效率提升 80% 以上。文章对 Multi-Agent 系统、Context Engineering、AI Friendly API 设计和 AI 可观测体系均有具体实现讲解，是目前国内最详尽的 AI 架构演进实战资料之一。黄仁勋的「Agent 工厂」里，装了什么新故事？（腾讯科技）英伟达在 COMPUTEX 2026 上宣布 Vera Rubin 平台正式量产，Vera CPU 开始全球交付。相比三个月前强调「算力全家桶」，这次黄仁勋把重点转向 Agent 工作负载：Vera Rubin 在同等规模数据中心内运行 Agent 任务的效率是上代 Grace Blackwell 的 10 倍；DSX 成为 AI 工厂的运营操作系统；Cosmos 3 重构物理 AI 感知框架；联合宇树发布 H2 Plus 人形机器人参考设计。英伟达正在从「卖算力」转向「卖完整的 Agent 基础设施」，这一战略转向值得持续跟踪。 RAG 不是机器学习，ML 工具包解决的是错误的问题（Towards Data Science）一篇观点鲜明的认知纠偏文章。作者举了一个典型案例：一个团队花了六个月跑 Optuna 超参数搜索、加自定义 reranker、微调 embedding 模型，生产准确率始终不动——最终发现问题在 parser。RAG 系统的本质是搜索和工程问题，不是机器学习问题。把超参数优化、训练/测试评估等 ML 工具引入 RAG，会选错指标、雇错人、掩盖真正的失败模式（解析错误、分块问题、检索召回率低）。这个判断对正在构建企业知识库的团队有直接警示意义。 Rippling 如何在 6 个月内借助 Deep Agents 和 LangSmith 构建生产级 AI（LangChain Blog） Rippling 是覆盖 HR、IT、薪酬、财务、全球运营的工作力管理平台，数据模型跨数千张表、数十万字段，概念在不同领域间还会重名。他们用 LangChain Deep Agents 和 LangSmith 在 6 个月内构建了生产级多智能体 AI 系统：一个 supervisor agent 协调 read、RAG、action 三类专业子 agent，通过 traces、分层 eval 和半自动自愈循环来保证质量。这个案例展示了「大型本体上的跨域推理」这一典型企业 AI 难题的实际解法，对构建复杂 B2B AI 系统的团队有直接参考价值。 AI 现场部署工程师的崛起与 AI 工程角色的未来（Andrew Ng）吴恩达分析了一个正在复兴的角色：AI 现场部署工程师（Field Deployment Engineer），深入客户组织内部为其定制 AI 解决方案（如 Agent 工作流）。这个角色在 Palantir 二十年前就有，因为定制化 LLM 的复杂性而再度走热。吴恩达的判断是：FDE 虽有价值，但通用 AI 工程师的岗位数量将远超前者，因为公司更倾向于让自有员工构建和维护 AI 系统（供应商绑定是风险）。他预测 AI 工程师角色最终会像软件工程一样分化出 LLMOps、评估工程师等专业方向，但目前通用型需求依然旺盛。从 Token 无上限到全员 Agent：MiniMax 的 AI Native 组织进化实践（量子位） MiniMax ToB 中国区商业化负责人胡维琦在 2026 中国 AIGC 产业峰会的演讲整理。核心观点：AI Native 公司首先要在内部实现闭环，不要吝啬 Token 补贴，让员工自己用 Agent 搭建自动化工作流，这个使用过程会反哺模型研发。几个具体实践：从「人类最不愿意干的高价值场景」切入推进阻力最小；AI 的广泛使用会让组织更加扁平，Token 消耗量正在成为衡量效率的新指标；未来 2-3 年 AI 将深度改变商业模式甚至组织构成。配合精讲一的 M3 发布来看，可以理解 MiniMax 的「用 M3 训 M3」实验背后的组织逻辑。 ## 补充阅读今日候选池中还有以下内容值得关注，按兴趣选读： - 打破「人月神话」，Agent 重塑风控场景产运研职能：快手风控技术负责人在 QCon 的演讲实录，系统讲解如何通过 Agent 和 AI 原生转型重塑产品、运营、研发三大职能的角色与协作模式。风控场景是 AI 落地难度较高的领域，实战参考价值高。适合风控、安全和大型平台工程师阅读。 - 扣子 3.0 正式上线：新一代 AI 团队，从扣子开始：扣子 3.0 通过项目空间、多端协同和技能商店，将 Agent 从单点工具升级为可协作的 AI 团队。值得观察产品形态的演进方向——从单 Agent 工具到 Agent 团队协作平台，这是当前市场的主流趋势之一。适合关注 Agent 产品形态演进的产品经理和开发者。 - 一个理想的组织，是 AI Agent 在组织人：ColaOS 创始人橘子的深度访谈，探讨 AI Agent 如何从产品、组织到商业模式重写创业逻辑。「理想组织是 Agent 在组织人」这个前瞻观点值得创业者和管理者深思。对 AI 时代组织设计感兴趣的读者推荐精读。 - 智能体引擎优化（AEO）：当 AI 成为你文档的头号读者：系统阐述 AEO（Agent Engine Optimization）这一新兴学科，为开发者提供让文档对 AI 编程智能体可发现、可解析且 token 高效的分层实操框架。如果你在维护开源项目或 SDK 文档，这篇文章有直接实用价值，值得收藏备查。 - 材料版 AlphaFold 来了！40 个工业任务全方位 SOTA，AI4S 迎来行业大突破：深度原理发布材料基座模型 MPA，借鉴 LLM 三阶段训练方法并引入物理对齐机制，在 40 个真实工业任务上取得 SOTA。AI for Science 领域的进展值得持续关注，对材料科学、化学、生物等领域的从业者有直接参考意义。 - 别光给 Agent 加 Tool 了，它根本选不明白！复旦×通义提出全新 CUA 训练范式：复旦与通义联合提出 ToolCUA 训练范式，通过分阶段训练解决 Computer Use Agent 在 GUI 与工具混合动作空间中的路径选择难题，在 OSWorld-MCP 上以 8B 模型超越 Claude-4-Sonnet。关注 Computer Use Agent 和 GUI 自动化的工程师推荐阅读。 ## 今日阅读路径如果你只有 30 分钟，优先读这三篇：第一篇：MiniMax M3 发布文章（链接）了解国内首个同时开源三项前沿能力的模型。重点看 CUDA 算子优化和「让 M3 训模型」两个实测案例，比 benchmark 数字更能说明 M3 的实际能力边界。预计阅读时间 15 分钟。第二篇：Chromium AI Coding 体系解析（链接）即使你不用 Chromium，这篇文章提供了一个大型工程团队如何制度化 AI Coding 的完整参考。四层提示词体系和 AI 使用政策两节最值得精读。预计阅读时间 10 分钟。第三篇：视频 Agent 前沿访谈（链接） Ethan He 关于「视频智能主要来自 LLM」的核心论点，以及视频 Agent vs 视频模型的演进类比，是理解下一阶段视频 AI 方向的重要参考。可以只读前三分之一。预计阅读时间 10 分钟。如果你有更多时间，速览部分的「AI Friendly 架构」和「RAG 不是机器学习」两篇是工程实践质量最高的文章，适合做系统性阅读。

译本期早报聚焦三个主题。核心是 MiniMax 发布其开源模型 M3，这是国内首个同时具备前沿 Coding 能力、1M 超长上下文和原生多模态的模型。M3 在 SWE-Bench Pro 上得分 59.0%，其自研 MSA 稀疏注意力架构显著降低了长上下文计算开销。实测中，M3 可在 24 小时内自主完成 CUDA 算子优化。此外，早报还简述了 Chromium 项目对 AI Coding 的规范化实践，以及 xAI 工程师关于视频 Agent 发展前景的观点。

查看原推 ↗

ginobefun@hongming731 · 6月2日71

#BestBlogs 早报 06-02 MiniMax 发布了国内首个集前沿 Coding、1M 超长上下文、原生多模态于一体的开源模型 M3，24 小时自主完成 145 次 CUDA 算子迭代，把抽象的 benchmark 变成了可验证的工程实力。与此同时，xAI 前负责人给出一个反直觉判断：视频模型的上限跟着 LLM 走，下一个 Sora 是视频 Agent 而非更好的视频模型。今日 BestBlogs 早报，还有 Chromium 3500 万行代码库的 AI Coding 规范体系、语音智能体生产工程实践、「RAG 不是机器学习」等 10 篇精选，欢迎阅读。

译MiniMax开源发布了国内首个集成前沿Coding能力、1M超长上下文和原生多模态的模型M3。该模型能在24小时内自主完成145次CUDA算子迭代。与此同时，xAI前负责人指出，视频模型的上限将由LLM决定，下一个类似Sora的产品应是视频Agent，而非单纯的视频生成模型。

查看原推 ↗

Greg Brockman@gdb · 6月2日61

OpenAI is now available for enterprises on Amazon Bedrock:

译OpenAI前沿模型与Codex现已在Amazon Bedrock上对企业客户全面可用，企业可通过现有的安全、合规与治理工作流程在AWS上使用OpenAI进行构建。这也是OpenAI能力在AWS上更广泛扩展的开始，未来将包括Daybreak等网络安全能力。

查看原推 ↗

SemiAnalysis@SemiAnalysis_ · 6月2日61

AWS margins jumping 10 points while Azure and Cloud fall flat. The Tokenomics Team deep dives into selling tokens vs renting GPU's, Anthropics $65 Billion Raise in Series H, and stablized token margins. New Episode Out Now: https://youtu.be/3zGmZfZnChs

译AWS利润率跃升10个百分点，而Azure和Cloud表现平淡。Tokenomics团队深入探讨了出售token与出租GPU的对比，Anthropic的650亿美元H轮融资，以及稳定的token利润率。新一期节目现已上线：https://youtu.be/3zGmZfZnChs

查看原推 ↗

Alibaba Cloud@alibaba_cloud · 6月2日83

👏👏 Introducing Qwen3.7-Plus — a multimodal agent model that unifies vision and language into one versatile agent foundation. ✅ Multimodal interactive hybrid agent: unified GUI & CLI operation across visual and text tasks ✅ Versatile coding agent & productivity assistant with full-modality input ✅ Visual Agent: perception, reasoning, grounding, and search-augmented QA ✅ Cross-harness generalization across diverse agent frameworks One model. Sees, thinks, codes, acts.🙌🙌 Now available via API on Alibaba Cloud Model Studio. Try it — let us know what you build.😎 🔗🔗⬇️⬇️ Blog：https://qwen.ai/blog?id=qwen3.7-plus Qwen Studio：https://chat.qwen.ai/?models=qwen3.7-plus API：https://modelstudio.console.alibabacloud.com/ap-southeast-1?tab=doc#/doc/?type=model&url=2840914_2&modelId=qwen3.7-plus&serviceSite=international

译阿里云发布了 Qwen3.7-Plus，这是一款统一了视觉与语言能力的多模态代理模型。该模型旨在成为通用的代理基础，支持图形界面与命令行操作，能够处理视觉和文本任务，充当编程代理和效率助手。其能力涵盖视觉感知、推理、目标定位以及搜索增强问答，并可跨多种代理框架进行泛化。该模型现已在阿里云百炼平台提供 API 服务。

查看原推 ↗

MiniMax (official)@MiniMax_AI · 6月2日81

M3 on Cloudflare AI Gateway, day one ⚡ Frontier coding, 1M context, and native multimodal and now just one fetch away. It is time to build something. 🦞

译M3 on Cloudflare AI Gateway, day one ⚡ 前沿编码能力，1M 上下文，原生多模态，现在一次 fetch 即可调用。是时候构建些东西了。 🦞

查看原推 ↗

🚨 AI News | TestingCatalog@testingcatalog · 6月2日66

Google AI Studio Build now supports many new integrations with Google services such as Gmail, Calendar, and Sheets, enabling users to vibe code apps that dynamically fetch relevant context.

译Google AI Studio Build 现在支持与 Gmail、日历和表格等 Google 服务进行多项新集成，使用户能够通过 vibe code 构建动态获取相关上下文的应用程序。

查看原推 ↗

Rohan Paul@rohanpaul_ai · 6月2日76

Sam Altman's new interview: AI should not be designed to pursue goals that are disconnected from human needs. People must remain at the center of AI development. “I have no interest in building a super-smart AI that accomplishes some non-human goals. People should react. People should say, ‘Hey, this is what I want, and this is what I do not want.’ I do not think the issue is that we have failed to explain the benefits. We say, ‘AI is going to cure a bunch of diseases,’ and people say, ‘Okay, that is great, but that is not really my question. My question is: What is my role in the future? What is my economic future? What is my agency? How do I know that my kids and my family will still be able to have fulfilling, creative expression, struggle, drive the world forward, grow, and do this thing together in a way that has worked for a long time?’ When people in AI say, ‘Sure, there are going to be no jobs,’ or ‘50% of jobs are going to go away,’ or ‘90% of jobs are going to go away,’ and ‘AI is going to be smarter than you at everything,’ and ‘We will give you some basic income, but you are not really going to have a role,’ that is horrible. And by the way, if an AI company says, ‘Maybe we are going to destroy all the jobs, and we will be the most valuable company in the world,’ people should look at you like, ‘Yeah, that is a terrible message.’ I do not think the problem is that we have not articulated the upsides. I think people actually believe us. They hear, ‘AI may cure your cancer,’ and they think, ‘That sounds great.’ I think we, as an industry, have failed to explain how people stay in control of determining the future at every step, and how people can still have a meaningful life in all the ways we care about.” ---- From "CNBC Television" YouTube channel, (link in comment)

译Sam Altman在采访中表示，AI不应被设计为追求脱离人类需求的目标，人类必须始终处于AI发展的中心。他批判了行业内“AI将摧毁大量工作”等言论，认为人们担忧的并非AI带来的好处，而是自身在未来的角色、经济前景与自主权。他指出，AI行业的失败在于未能清晰解释人类如何在每一步保持对未来的控制权，以及如何在AI时代继续拥有充实、有意义的生活。

查看原推 ↗

Peter Steinberger 🦞@steipete · 6月2日63

I told codex to use http://sag.sh whenever I'm distracted and it needs my help to be unblocked, and ever once it a while I hear it talking to me, and it's the coolest thing ever. (e.g. for releases, that needs npm and is 1Password-gated)

译我告诉 Codex，当我分心且它需要我的帮助来解除阻塞时，使用 http://sag.sh。偶尔我会听到它在跟我说话，这是有史以来最酷的事情。（例如，对于需要 npm 且受 1Password 门控的发布任务）

查看原推 ↗

Tibo@thsottiaux · 6月2日17

Should we rename Codex to ChadGPT?

译我们应该把 Codex 改名为 ChadGPT 吗？

查看原推 ↗

宝玉@dotey · 6月2日61

Cursor 在为用户增加使用额度。最近我重度使用了 Cursor 的 Agent，效果相当不错。我常用的 GUI Agent 里面，Codex App > Cursor > Claude Desktop。几个亮点： 1. 它的 multitask 模式可以开启多个后台任务并行，速度很不错。 2. 它可以灵活选择各种模型，不像 Codex 和 Claude Code 只能选择自家模型，composer 2.5 在普通任务上的能力和速度都还可以 3. Plan 模式比较详细，列有详细的 Steps，配合 multitask 模式通常效果很稳定不足之处：还不支持 /goal、手机版还没有类似于 Codex 的 Chrome use + Computer use 的调试功能，只有内置浏览器的调试

译Cursor 宣布提升所有团队用户使用额度，并推出 Premium 团队席位。用户反馈其 Agent 模式效果好，支持多任务并行、灵活选择各类模型，且 Plan 模式步骤详细。对比中，用户认为其表现优于 Claude Desktop，略低于 Codex App。当前不足包括不支持 /goal 与手机版，且调试功能仅限内置浏览器。

查看原推 ↗

eric zakariasson@ericzakariasson · 6月2日15

i played with this way too long. thanks for building it @DanHollick https://cursor.com/insights

译我玩这个玩得太久了。感谢构建它，@DanHollick https://cursor.com/insights

查看原推 ↗

ChatGPT@ChatGPTapp · 6月2日71

Long-form writing works better with a little more space. Now you can edit longer pieces in full-screen and save them to your Library to come back to later.

译长文写作需要更多空间。现在你可以在全屏模式下编辑更长的文章，并将其保存到你的资料库中，以便稍后继续。

查看原推 ↗

🚨 AI News | TestingCatalog@testingcatalog · 6月2日79

OpenAI ❤️ AWS OpenAI models are now generally available on AWS Bedrock! Daybreak will be available later on AWS as well. > That includes future availability for Daybreak, OpenAI’s vision for changing how software is built and defended. > Daybreak, which includes cyber models and Codex Security, is designed to help cyber defenders see risk earlier.

译OpenAI的前沿模型与Codex现已在AWS Bedrock平台正式上线（一般可用）。这为企业提供了通过其现有的安全、合规和治理工作流，直接在Amazon Bedrock上使用OpenAI能力的新途径。同时，OpenAI表示，这是其在AWS上更广泛扩展能力的开始，其网络安全平台Daybreak（包含网络模型和Codex Security）未来也将在AWS上提供。

查看原推 ↗

Google AI Developers@googleaidevs · 6月2日54

From Google I/O to building real world solutions in one weekend. Always inspired by the energy of this community!

译在Google I/O大会后，开发者社区与Google DeepMind在旧金山合作，利用最新的Gemini和Gemma能力（特别是Gemini 3.5 Flash）构建实际产品。活动展示了利用Gemini 3.5 Flash开发多模态智能体、语音接口和长期推理系统等应用的可能性。

查看原推 ↗

jason@jxnlco · 6月2日62

now available on bedrock!

译现已在Bedrock上可用！ [引用 @OpenAI]：OpenAI前沿模型和Codex现已在AWS上全面可用，为企业提供了一种新方式，通过其现有的安全、合规和治理工作流，在Amazon Bedrock上使用OpenAI进行构建。这同时也是OpenAI在AWS上更广泛能力扩展的开端，包括未来将提供Daybreak等网络安全能力。 https://openai.com/index/openai-frontier-models-and-codex-are-now-available-on-aws/

查看原推 ↗

宝玉@dotey · 6月2日58

It would be great if AI agents like Codex and Cursor could expose an API to web views. This would allow a webpage opened in the right pane to send prompts (including text and images) directly back to the agent. For instance, if I build a webpage similar to Claude Design, I could add an in-page input box. When a user enters a prompt and clicks "send", the webpage would call an API like "window.codex.sendPrompt(text, attachments)" to push that content straight into the chat interface on the left. This would enable much deeper interaction between the agent and the webpage, unlocking a lot more possibilities. cc @thsottiaux @jxnlco @Dimillian

译推文建议，Codex、Cursor等AI智能体应提供API接口，允许右侧面板的网页视图直接向智能体发送包含文本和附件的提示词。例如，用户可构建类似Claude Design的网页，通过调用"window.codex.sendPrompt(text, attachments)"等API，将输入内容直接推送到左侧聊天界面。此举旨在实现智能体与网页间更深层的交互，从而解锁更多可能性。

查看原推 ↗

宝玉@dotey · 6月2日59

Cursor 在为用户增加使用额度。最近我重度使用了 Cursor 的 Agent，效果相当不错。我常用的 GUI Agent 里面，Codex App > Cursor > Claude Desktop。几个亮点： 1. 它的 multitask 模式可以开启多个后台任务并行，速度很不错。 2. 它可以灵活选择各种模型，不像 Codex 和 Claude Code 只能选择自家模型，composer 2.5 在普通任务上的能力和速度都还可以 3. Plan 模式比较详细，理由详细的 Steps，配合 multitask 模式通常效果很稳定不足之处：还不支持 /goal、手机版还没有类似于 Codex 的 Chrome use + Computer use 的调试功能，只有内置浏览器的调试

译Cursor 宣布为所有 Teams 用户提升使用额度，并受其 Ultra 计划启发，将推出一个提供 5 倍用量、价格 3 倍的 Premium 团队席位。有用户分享了重度使用其 Agent 的体验，认为效果不错，亮点包括：可开启多任务并行的 multitask 模式、能灵活选择各种模型（如 composer 2.5），以及步骤详细的 Plan 模式配合使用效果稳定。目前不足之处是不支持 /goal、手机版，以及缺乏类似 Codex 的 Chrome use 和 Computer use 调试功能，仅有内置浏览器调试。

查看原推 ↗

OpenAI@OpenAI · 6月2日72

OpenAI frontier models and Codex are now generally available on AWS, giving enterprises a new way to build on Amazon Bedrock with OpenAI through the security, compliance, and governance workflows they already use. This is also the beginning of a broader expansion of OpenAI capabilities on AWS, including future availability for cybersecurity capabilities like Daybreak. https://openai.com/index/openai-frontier-models-and-codex-are-now-available-on-aws/

译OpenAI前沿模型和Codex现已在AWS全面可用，为企业提供了一种新方式：通过其现有的安全、合规和治理工作流，在Amazon Bedrock上使用OpenAI进行构建。这也标志着OpenAI在AWS上更广泛扩展的开始，未来将包括Daybreak等网络安全能力的可用性。 https://openai.com/index/openai-frontier-models-and-codex-are-now-available-on-aws/

查看原推 ↗

swyx@swyx · 6月2日69

whoah - Grace + Blackwell chips in a laptop. @Microsoft + @NVIDIA teaming up to take on 6 years of total dominance of Apple Silicon

译哇哦——Grace + Blackwell 芯片装进了笔记本电脑。微软与英伟达联手，挑战苹果Silicon长达六年的绝对主导地位。

查看原推 ↗

Logan Kilpatrick@OfficialLoganK · 6月2日79

We just shipped the ability to build apps that connect to Gmail, Drive, Sheets, and more directly inside of @GoogleAIStudio, no navigating to other sites, you can add testers right inside of AI Studio, with full public sharing coming soon!!

译我们刚刚上线了在 @GoogleAIStudio 内直接构建连接 Gmail、Drive、Sheets 等应用的功能，无需跳转其他网站，你可以直接在 AI Studio 内添加测试人员，完整的公开分享功能即将推出！！

查看原推 ↗

Sam Altman@sama · 6月2日58

The OpenAI Foundation is doing a lot of wonderful things. Helping society become resilient to AI is going to be incredibly important. Much more to come here!

译Sam Altman宣布OpenAI基金会正通过一系列资助项目，提升社会对AI的适应力。基金会已启动超过1.3亿美元的初始资助，用于生物韧性、网络安全韧性、AI模型安全及AI对青少年影响等四个领域，旨在让社会管理AI风险的能力跟上AI发展速度。该愿景已公布详细公告。

查看原推 ↗

ginobefun@hongming731 · 6月2日74

Anthropic 提交 S-1 草案，为 IPO 做准备

查看原推 ↗

OpenAI Developers@OpenAIDevs · 6月2日46

The votes are in. @isausmanov’s Agentic OS for a Phone is the Voice Hack Night People’s Choice winner. A voice-first mobile OS. Users talk, agents answer and take action across the phone. Congrats to the team on taking home $50,000 in API credits.

译投票结果已出。 @isausmanov 的手机智能体操作系统获得语音黑客松人民选择奖。一款语音优先的移动操作系统。用户说话，智能体响应并在手机上执行操作。祝贺团队赢得 50,000 美元 API 额度。

查看原推 ↗

OpenAI Developers@OpenAIDevs · 6月2日73

OpenAI models and Codex, now in your AWS workflows. Build AI apps and software engineering workflows with OpenAI on Amazon Bedrock, using the AWS environments and controls your team already trusts.

译OpenAI前沿模型和Codex现已在AWS上全面可用。企业可以通过Amazon Bedrock服务，利用其已有的安全、合规与治理工作流，来构建基于OpenAI的AI应用及软件工程工作流。此次上线是OpenAI能力在AWS上更广泛扩展的开始，未来还将包括Daybreak等网络安全功能的可用性。

查看原推 ↗

jason@jxnlco · 6月2日30

we'd love some help publishing our Python Codex SDK and were hoping to speak to someone with Pypi. Can anyone help us out

译我们希望有人能帮助我们发布 Python Codex SDK，并希望能与 PyPI 的相关人员沟通。有人能帮我们吗？

查看原推 ↗

Lee Robinson@leerob · 6月2日71

Some tips to help agents understand your codebase: 1. The source code either needs to be the source of truth, or have something legible as a path to the source. For example, if marketing site content is actually stored in a CMS, you need to either delete the CMS and move that content into code, or make the CMS legible through and MCP, CLI, or skill: https://leerob.com/agents 2. Agents need to be able to verify their work. This includes but is not limited to: using a typed language, having high-quality and fast tests, having a well-configured linter: https://x.com/leerob/status/2026369424450523348 3. You need to have a concise and effective AGENTS.md file, which is included in every message to your agent. Models are quite good now, so some things you can omit as the models know them. You don’t need to say the tests live inside /tests for example. It’s worth asking the models to find things in your codebase and making sure they’re named what the models might expect, otherwise consider refactoring: https://cursor.com/learn/customizing-agents 4. Set up automations which give you suggestions for refactoring code, catching security issues which may have slipped through code review, and optionally continuous documentation of the codebase. You can effectively create a self-driving codebase which gets better while you sleep: https://cursor.com/blog/security-agents

译文章分享了四条让AI智能体有效理解代码库的实用建议。1. 确保源代码是唯一真实来源，或通过MCP、CLI等方式让外部内容对智能体可读。2. 智能体需具备自我验证能力，这依赖于使用类型语言、高质量测试和配置良好的linter。3. 编写简洁有效的AGENTS.md文件，并融入符合模型预期的直观命名，可借助Cursor等工具自定义智能体。4. 配置自动化流程，用于代码重构建议、安全问题检查和持续文档生成，以实现一个能自我改进的“自动驾驶”代码库。

查看原推 ↗

Krea@krea_ai · 6月2日62

Krea 2 LoRAs are now available to everyone. try this one below 👇

译Krea 2 LoRAs 现已向所有人开放。试试下面这个 👇

查看原推 ↗

jason@jxnlco · 6月2日52

What willl you build?

译你将构建什么？ [引用 @jxnlco]：哇，我们刚刚发布了 Codex 的 Python 应用服务器感谢 @ah20im

查看原推 ↗

Rohan Paul@rohanpaul_ai · 6月2日78

OpenAI just broke ground on a 1GW AI data center campus in Michigan. The project, called The Barn, is part of Stargate. OpenAI says the project will pay for its own required energy infrastructure, avoid passing costs to local ratepayers, and use closed-loop cooling, meaning water is circulated rather than constantly pulled and dumped.

译OpenAI在美国密歇根州破土动工，启动名为“The Barn”的Stargate Michigan项目，这是一座规模达1GW的AI数据中心。该数据中心将采用闭环冷却技术，耗水量仅与普通办公楼相当，并承诺自身承担能源基础设施成本，不增加当地用户负担。项目预计创造数千个工会岗位。此外，OpenAI将为密歇根州所有大学、社区学院和技术学校的学生提供超过4000万美元的免费Codex额度。

查看原推 ↗

宝玉@dotey · 6月2日40

明天 Codex 和 OpenAI platform 会有什么重要更新呢？

查看原推 ↗

Replit ⠕@Replit · 6月2日75

Can you build a real business for free with a single prompt? Starting today on Replit, the answer is yes. From a single prompt, get a website, mobile app, slide deck, and launch video. Plus unlock perks from @stripe @atlas, @QuickBooks, @mercury & @doolaHQ

译你能用单个提示词免费构建一个真正的业务吗？从今天起，在 Replit 上，答案是肯定的。从单个提示词开始，获得一个网站、移动应用、幻灯片和发布视频。此外，还能解锁来自 @stripe @atlas、@QuickBooks、@mercury 和 @doolaHQ 的福利。

查看原推 ↗

🚨 AI News | TestingCatalog@testingcatalog · 6月2日53

XAI 🔥: SuperGrok and X Premium+ users now can use Composer 2.5 model from Cursor via Grok Build! Grokposer 🤖

译XAI 🔥：SuperGrok 和 X Premium+ 用户现在可以通过 Grok Build 使用 Cursor 的 Composer 2.5 模型！ Grokposer 🤖

查看原推 ↗

Replit ⠕@Replit · 6月2日73

Can you build a real business for free with a single prompt? Starting today on Replit, the answer is yes. From a single prompt, get a website, mobile app, slide deck, and launch video. Plus unlock perks to run your business from @stripe @atlas, @QuickBooks, @mercury & @doolaHQ

译你能用单个提示词免费构建一个真实的业务吗？从今天起，在 Replit 上，答案是肯定的。从一个提示词开始，获得一个网站、移动应用、幻灯片和发布视频。此外，还能解锁使用 @stripe @atlas, @QuickBooks, @mercury & @doolaHQ 运营业务的福利。

查看原推 ↗

AYi@AYi_AInotes · 6月2日65

苹果、Intel、AMD、高通，今晚大概率睡不好了。统治了 PC 整整 30年的 Wintel 王朝，今天被一个卖显卡的，连桌子一起掀了。 NVIDIA 的 RTX Spark，一块 3nm 的 SoC，把 ARM CPU、Blackwell GPU、128GB 统一内存焊进同一颗芯片，塞进 14mm 的超薄本，本地跑 120B 大模型， 1440p 满帧跑 3A，拔了电源帧数硬是一格没掉。但真正让那四家睡不着的，还不只是这些参数。过去三十年的 PC，像一群车厂在比谁的排量大，所有人盯着 CPU 跑分， Intel Inside 就是品质保证，竞争全在同一套规则里打。 NVIDIA 今天开进来一辆电动车，直接说规则换了，以后比的是 AI 算力和谁的软件生态更深，而它那张生态网，叫 CUDA，已经铺了二十年。这一下，每一家被点到的，都得正面回应： Intel 和 AMD 还能追性能、追制程，追不上的是那二十年攒下的开发者。苹果 2020 年就用 M 系列证明了 ARM 加统一内存能有多强，可它把 CUDA 拦在门外， NVIDIA 干脆绕开，在 Windows 这边复刻了一遍，还多带了苹果永远不肯给的东西，完整 GPU 生态、3A 游戏、CUDA 全栈。高通的 Snapdragon X 先跑了一年 Windows on ARM，没有 GPU 生态撑腰，整个故事还只讲了一半，没想到今天这个位置被人抢了当然，发布会上说的，和真正用起来之间，向来隔着一段距离。 ARM 版 Windows 的兼容层跑老软件掉多少、满载久了降不降频、这套东西最后卖什么价，老黄一个都没交代。但方向似乎已经钉死了，过去你买电脑，Intel Inside 是贴在机身上的那张品质标签，但是往后这张标签，得换人贴了。 NVIDIA 今天卖的不只是一颗芯片，还有下一个三十年 PC 行业的入场券。

译NVIDIA发布RTX Spark，一款3nm制程的SoC，整合了ARM CPU、Blackwell GPU及128GB统一内存。它被应用于超薄笔记本，可本地运行120B大模型，并在1440p分辨率下满帧运行3A游戏，拔电后性能不降。此举被视为PC行业竞争规则的转变，从比拼CPU性能转向比拼AI算力与CUDA软件生态，标志着NVIDIA对Wintel王朝的挑战。该方案绕开了苹果对CUDA的限制，并抢先在Windows平台复刻了ARM架构加完整GPU生态的路径，旨在争夺未来三十年的PC行业主导权。

查看原推 ↗

MiniMax (official)@MiniMax_AI · 6月2日61

the price tags tell the story 👀 M3 on @aimlapi! go test it yourself 😎

译MiniMax M3 模型现已登陆 AI/ML API 平台。平台方通过 one-shot Doodle Jump 游戏对多个模型进行了测试，结果显示各模型输出效果相近，但价格差异显著：MiniMax M3 价格为 $0.05，Qwen 3.7 Max 为 $0.08，DeepSeek V4 Pro 为 $0.10，GPT-5.5 为 $0.42。MiniMax 方面以此强调其高性价比，并宣布该模型目前提供限时 50% 折扣。

查看原推 ↗

6月2日

08:47

Berryxia.AI@berryxia

51

ComfyUI 5月工作流更新：集成11个新模型

ComfyUI在5月集成了11个涵盖图像、3D、音频、视频和多模态的新模型，将前沿AI能力转化为可本地运行的节点。亮点包括：Krea 2以Partner Node形式上线，专注于风格优先的图像生成；来自Netflix的VOID可干净移除对象及其引发的阴影、反射等物理交互；Tripo 3.1与TripoSplat结合，实现单图端到端生成3D Gaussian资产。此外，Gemma 4、Stable Audio 3等模型也已同步上线。用户无需单独调用API或处理兼容性，通过节点拖拽即可构建复杂工作流。

ComfyUI: In May, we integrated 11 new models spanning image, 3D, audio, video, and multimodal. The highlights: → Krea 2 - style-f...

产品更新图像生成多模态开源生态

08:35

meng shao@shao__meng

60

吴恩达老师谈「AI FDE」和「AI Engineer」

吴恩达对比了AI Forward Deployed Engineer (FDE)和AI Engineer两种岗位。他指出，FDE由厂商派驻客户现场进行深度集成，但企业更倾向于培养大量自有AI工程师。他判断，AI Engineer岗位数量将远多于FDE，因为客户担心供应商锁定，在AI技术快速演进时更需要保持技术选型灵活性。当下最有价值的是能使用Claude Code、Codex等AI编程工具构建应用的通才型AI工程师。未来该角色可能像传统软件工程师一样，分化出LLMOps、Evals等专才，但现阶段综合型人才价值依然很大。

Andrew Ng: One of the new, buzzy jobs in Silicon Valley is the AI Forward Deployed Engineer (FDE), an engineer who is embedded with...

AnthropicOpenAI大佬观点

08:19

MiniMax (official)@MiniMax_AI

74

🚀 M3 已在 Vercel 的 AI Gateway 上线！我们首个支持 1M token 长上下文和多模态输入的模型。本周享 50% 折扣 🎉 期待看到大家用 M3 和 @vercel_dev 构建什么 ✨

Vercel Developers: MiniMax M3 is available on AI Gateway. MiniMax's first long-context model, with support for multimodal inputs. 50% off f...

多模态模型发布

关联讨论 11 条

08:12

Rohan Paul@rohanpaul_ai

精选75

🎯 Andrej Karpathy 谈如何学习。

教程/实践编码

推荐理由：Karpathy的学习方法贴，虽然只是一张图，但可能是你今年最该抄的作业，直接改掉低效学习模式。

07:54

ginobefun@hongming731

71

BestBlogs 早报：MiniMax M3 开源模型发布，集成前沿能力

本期早报聚焦三个主题。核心是 MiniMax 发布其开源模型 M3，这是国内首个同时具备前沿 Coding 能力、1M 超长上下文和原生多模态的模型。M3 在 SWE-Bench Pro 上得分 59.0%，其自研 MSA 稀疏注意力架构显著降低了长上下文计算开销。实测中，M3 可在 24 小时内自主完成 CUDA 算子优化。此外，早报还简述了 Chromium 项目对 AI Coding 的规范化实践，以及 xAI 工程师关于视频 Agent 发展前景的观点。

智能体xAI模型发布现象/趋势

07:54

ginobefun@hongming731

71

MiniMax发布开源模型M3：集成编码、长上下文与多模态

MiniMax开源发布了国内首个集成前沿Coding能力、1M超长上下文和原生多模态的模型M3。该模型能在24小时内自主完成145次CUDA算子迭代。与此同时，xAI前负责人指出，视频模型的上限将由LLM决定，下一个类似Sora的产品应是视频Agent，而非单纯的视频生成模型。

多模态开源/仓库模型发布编码

07:45

Greg Brockman@gdb

61

OpenAI前沿模型与Codex现已在Amazon Bedrock上对企业客户全面可用，企业可通过现有的安全、合规与治理工作流程在AWS上使用OpenAI进行构建。这也是OpenAI能力在AWS上更广泛扩展的开始，未来将包括Daybreak等网络安全能力。

OpenAI: OpenAI frontier models and Codex are now generally available on AWS, giving enterprises a new way to build on Amazon Bed...

OpenAI产品更新部署/工程

07:44

SemiAnalysis@SemiAnalysis_

61

AWS利润率跃升10个百分点，而Azure和Cloud表现平淡。Tokenomics团队深入探讨了出售token与出租GPU的对比，Anthropic的650亿美元H轮融资，以及稳定的token利润率。新一期节目现已上线：https：//youtu.be/3zGmZfZnChs

Anthropic大佬观点行业动态

07:35

Alibaba Cloud@alibaba_cloud

83

通义千问 Qwen3.7-Plus 多模态代理模型发布

阿里云发布了 Qwen3.7-Plus，这是一款统一了视觉与语言能力的多模态代理模型。该模型旨在成为通用的代理基础，支持图形界面与命令行操作，能够处理视觉和文本任务，充当编程代理和效率助手。其能力涵盖视觉感知、推理、目标定位以及搜索增强问答，并可跨多种代理框架进行泛化。该模型现已在阿里云百炼平台提供 API 服务。

智能体多模态模型发布编码

关联讨论 10 条

07:19

MiniMax (official)@MiniMax_AI

精选81

M3 on Cloudflare AI Gateway， day one ⚡ 前沿编码能力，1M 上下文，原生多模态，现在一次 fetch 即可调用。是时候构建些东西了。 🦞

Cloudflare Developers: M3 from @MiniMax_AI is now available on Cloudflare AI Gateway: - First open model to push SOTA coding frontier - 1M cont...

多模态开源/仓库模型发布编码

关联讨论 11 条

推荐理由：MiniMax的M3把开源编码模型拉到新高度，1M上下文加原生多模态是惊喜，上线首周5折，值得跑一下看是不是真能干翻闭源。

07:16

🚨 AI News | TestingCatalog@testingcatalog

66

Google AI Studio Build 现在支持与 Gmail、日历和表格等 Google 服务进行多项新集成，使用户能够通过 vibe code 构建动态获取相关上下文的应用程序。

Logan Kilpatrick: We just shipped the ability to build apps that connect to Gmail, Drive, Sheets, and more directly inside of @GoogleAIStu...

智能体GoogleMCP/工具产品更新

07:10

Rohan Paul@rohanpaul_ai

精选76

Sam Altman强调AI发展应以人为本

Sam Altman在采访中表示，AI不应被设计为追求脱离人类需求的目标，人类必须始终处于AI发展的中心。他批判了行业内“AI将摧毁大量工作”等言论，认为人们担忧的并非AI带来的好处，而是自身在未来的角色、经济前景与自主权。他指出，AI行业的失败在于未能清晰解释人类如何在每一步保持对未来的控制权，以及如何在AI时代继续拥有充实、有意义的生活。

OpenAI大佬观点安全/对齐

推荐理由：Sam Altman罕见正面回应“AI夺走工作”的恐惧，明确说人类必须始终有否决权，这是OpenAI领导层少有的、直接谈及普通人经济未来的表态。

06:44

Peter Steinberger 🦞@steipete

63

我告诉 Codex，当我分心且它需要我的帮助来解除阻塞时，使用 http：//sag.sh。偶尔我会听到它在跟我说话，这是有史以来最酷的事情。（例如，对于需要 npm 且受 1Password 门控的发布任务）

MCP/工具教程/实践编码

06:33

Tibo@thsottiaux

17

我们应该把 Codex 改名为 ChadGPT 吗？

OpenAI其他

06:30

宝玉@dotey

61

Cursor 为团队用户提升使用额度

Cursor 宣布提升所有团队用户使用额度，并推出 Premium 团队席位。用户反馈其 Agent 模式效果好，支持多任务并行、灵活选择各类模型，且 Plan 模式步骤详细。对比中，用户认为其表现优于 Claude Desktop，略低于 Codex App。当前不足包括不支持 /goal 与手机版，且调试功能仅限内置浏览器。

Cursor: We're increasing usage limits for every Teams user. Inspired by the success of our Ultra plan, we're also introducing a ...

智能体编码评测/基准

06:27

eric zakariasson@ericzakariasson

15

我玩这个玩得太久了。感谢构建它，@DanHollick https：//cursor.com/insights

其他编码

06:26

ChatGPT@ChatGPTapp

精选71

长文写作需要更多空间。现在你可以在全屏模式下编辑更长的文章，并将其保存到你的资料库中，以便稍后继续。

OpenAI产品更新

推荐理由：ChatGPT 终于给了长文用户一个全屏编辑和保存库，这功能不性感但实打实解决痛點，写过万字稿的人都知道多重要。

06:16

🚨 AI News | TestingCatalog@testingcatalog

79

OpenAI的前沿模型与Codex现已在AWS Bedrock平台正式上线（一般可用）。这为企业提供了通过其现有的安全、合规和治理工作流，直接在Amazon Bedrock上使用OpenAI能力的新途径。同时，OpenAI表示，这是其在AWS上更广泛扩展能力的开始，其网络安全平台Daybreak（包含网络模型和Codex Security）未来也将在AWS上提供。

OpenAI: OpenAI frontier models and Codex are now generally available on AWS, giving enterprises a new way to build on Amazon Bed...

OpenAI产品更新安全/对齐部署/工程

关联讨论 1 条

06:11

Google AI Developers@googleaidevs

54

在Google I/O大会后，开发者社区与Google DeepMind在旧金山合作，利用最新的Gemini和Gemma能力（特别是Gemini 3.5 Flash）构建实际产品。活动展示了利用Gemini 3.5 Flash开发多模态智能体、语音接口和长期推理系统等应用的可能性。

Cerebral Valley: Google I/O showed where AI is headed. Our community spent the weekend building it. Builders gathered in San Francisco al...

智能体多模态行业动态

06:01

jason@jxnlco

62

现已在Bedrock上可用！【引用 @OpenAI】：OpenAI前沿模型和Codex现已在AWS上全面可用，为企业提供了一种新方式，通过其现有的安全、合规和治理工作流，在Amazon Bedrock上使用OpenAI进行构建。这同时也是OpenAI在AWS上更广泛能力扩展的开端，包括未来将提供Daybreak等网络安全能力。 https：//openai.com/index/openai-frontier-models-and-codex-are-now-available-on-aws/

OpenAI: OpenAI frontier models and Codex are now generally available on AWS, giving enterprises a new way to build on Amazon Bed...

OpenAI产品更新编码部署/工程

06:00

宝玉@dotey

58

Codex、Cursor等AI智能体开放API与网页深度交互

推文建议，Codex、Cursor等AI智能体应提供API接口，允许右侧面板的网页视图直接向智能体发送包含文本和附件的提示词。例如，用户可构建类似Claude Design的网页，通过调用"window.codex.sendPrompt(text, attachments)"等API，将输入内容直接推送到左侧聊天界面。此举旨在实现智能体与网页间更深层的交互，从而解锁更多可能性。

智能体MCP/工具大佬观点

06:00

宝玉@dotey

59

Cursor 在为用户增加使用额度。

Cursor 宣布为所有 Teams 用户提升使用额度，并受其 Ultra 计划启发，将推出一个提供 5 倍用量、价格 3 倍的 Premium 团队席位。有用户分享了重度使用其 Agent 的体验，认为效果不错，亮点包括：可开启多任务并行的 multitask 模式、能灵活选择各种模型（如 composer 2.5），以及步骤详细的 Plan 模式配合使用效果稳定。目前不足之处是不支持 /goal、手机版，以及缺乏类似 Codex 的 Chrome use 和 Computer use 调试功能，仅有内置浏览器调试。

Cursor: We're increasing usage limits for every Teams user. Inspired by the success of our Ultra plan, we're also introducing a ...

智能体编码评测/基准

06:00

OpenAI@OpenAI

72

OpenAI前沿模型和Codex现已在AWS全面可用，为企业提供了一种新方式：通过其现有的安全、合规和治理工作流，在Amazon Bedrock上使用OpenAI进行构建。这也标志着OpenAI在AWS上更广泛扩展的开始，未来将包括Daybreak等网络安全能力的可用性。 https：//openai.com/index/openai-frontier-models-and-codex-are-now-available-on-aws/

OpenAI产品更新部署/工程

关联讨论 1 条

06:00

swyx@swyx

69

哇哦--Grace + Blackwell 芯片装进了笔记本电脑。微软与英伟达联手，挑战苹果Silicon长达六年的绝对主导地位。

Microsoft端侧行业动态

05:59

Logan Kilpatrick@OfficialLoganK

精选79

我们刚刚上线了在 @GoogleAIStudio 内直接构建连接 Gmail、Drive、Sheets 等应用的功能，无需跳转其他网站，你可以直接在 AI Studio 内添加测试人员，完整的公开分享功能即将推出！！

智能体Google产品更新

推荐理由：Google AI Studio 直接打通 Gmail、Drive 和 Sheets，不用跳出就能构建应用并邀请测试者，对习惯 Google 生态的开发者来说省了一大截时间，下次做原型可以试试。

05:57

Sam Altman@sama

58

Sam Altman宣布OpenAI基金会正通过一系列资助项目，提升社会对AI的适应力。基金会已启动超过1.3亿美元的初始资助，用于生物韧性、网络安全韧性、AI模型安全及AI对青少年影响等四个领域，旨在让社会管理AI风险的能力跟上AI发展速度。该愿景已公布详细公告。

The OpenAI Foundation: AI is advancing quickly. Society's ability to manage its risks must advance just as fast. Today we're sharing our vision...

OpenAI安全/对齐行业动态

05:54

ginobefun@hongming731

74

Anthropic 提交 S-1 草案，为 IPO 做准备

Anthropic: Anthropic has confidentially submitted a draft S-1 registration statement to the Securities and Exchange Commission. Pen...

Anthropic行业动态

05:47

OpenAI Developers@OpenAIDevs

46

投票结果已出。 @isausmanov 的手机智能体操作系统获得语音黑客松人民选择奖。一款语音优先的移动操作系统。用户说话，智能体响应并在手机上执行操作。祝贺团队赢得 50，000 美元 API 额度。

OpenAI Developers: 🤳 Agentic OS for a Phone A voice-first mobile OS. Users talk, agents answer, and they can take action across the phone....

智能体OpenAI行业动态语音

05:47

OpenAI Developers@OpenAIDevs

73

OpenAI前沿模型和Codex现已在AWS上全面可用。企业可以通过Amazon Bedrock服务，利用其已有的安全、合规与治理工作流，来构建基于OpenAI的AI应用及软件工程工作流。此次上线是OpenAI能力在AWS上更广泛扩展的开始，未来还将包括Daybreak等网络安全功能的可用性。

OpenAI: OpenAI frontier models and Codex are now generally available on AWS, giving enterprises a new way to build on Amazon Bed...

OpenAI产品更新部署/工程

关联讨论 1 条

05:37

jason@jxnlco

30

我们希望有人能帮助我们发布 Python Codex SDK，并希望能与 PyPI 的相关人员沟通。有人能帮我们吗？

OpenAI编码行业动态

05:17

Lee Robinson@leerob

71

帮助AI智能体理解代码库的四点建议

文章分享了四条让AI智能体有效理解代码库的实用建议。1. 确保源代码是唯一真实来源，或通过MCP、CLI等方式让外部内容对智能体可读。2. 智能体需具备自我验证能力，这依赖于使用类型语言、高质量测试和配置良好的linter。3. 编写简洁有效的AGENTS.md文件，并融入符合模型预期的直观命名，可借助Cursor等工具自定义智能体。4. 配置自动化流程，用于代码重构建议、安全问题检查和持续文档生成，以实现一个能自我改进的“自动驾驶”代码库。

智能体MCP/工具教程/实践编码

05:08

Krea@krea_ai

62

Krea 2 LoRAs 现已向所有人开放。试试下面这个 👇

产品更新图像生成

04:48

jason@jxnlco

52

你将构建什么？【引用 @jxnlco】：哇，我们刚刚发布了 Codex 的 Python 应用服务器感谢 @ah20im

jason: wow we just shipped codex app server for python shoutouts to @ah20im

OpenAI产品更新开源/仓库部署/工程

04:40

Rohan Paul@rohanpaul_ai

78

OpenAI在美国密歇根州破土动工，启动名为"The Barn"的Stargate Michigan项目，这是一座规模达1GW的AI数据中心。该数据中心将采用闭环冷却技术，耗水量仅与普通办公楼相当，并承诺自身承担能源基础设施成本，不增加当地用户负担。项目预计创造数千个工会岗位。此外，OpenAI将为密歇根州所有大学、社区学院和技术学校的学生提供超过4000万美元的免费Codex额度。

OpenAI Newsroom: We're breaking ground on Stargate Michigan-a 1GW data center utilizing closed-loop cooling that uses water at the rate o...

OpenAI行业动态部署/工程

关联讨论 1 条

04:30

宝玉@dotey

40

明天 Codex 和 OpenAI platform 会有什么重要更新呢？

Derrick Choi: Come join our livestream tomorrow where we'll preview some exciting updates to the Codex and the OpenAI platform. Tuesda...

OpenAI行业动态

04:23

Replit ⠕@Replit

75

你能用单个提示词免费构建一个真正的业务吗？从今天起，在 Replit 上，答案是肯定的。从单个提示词开始，获得一个网站、移动应用、幻灯片和发布视频。此外，还能解锁来自 @stripe @atlas、@QuickBooks、@mercury 和 @doolaHQ 的福利。

智能体产品更新部署/工程

04:16

🚨 AI News | TestingCatalog@testingcatalog

53

XAI 🔥：SuperGrok 和 X Premium+ 用户现在可以通过 Grok Build 使用 Cursor 的 Composer 2.5 模型！ Grokposer 🤖

xAI产品更新编码

03:53

Replit ⠕@Replit

精选73

你能用单个提示词免费构建一个真实的业务吗？从今天起，在 Replit 上，答案是肯定的。从一个提示词开始，获得一个网站、移动应用、幻灯片和发布视频。此外，还能解锁使用 @stripe @atlas， @QuickBooks， @mercury & @doolaHQ 运营业务的福利。

产品更新编码部署/工程

推荐理由：Replit 从写代码进化到了‘一个提示生成网站+App+PPT+视频’，还串起了 Stripe 和 QuickBooks，‘建个生意玩玩’的成本降到史低，产品人和独立开发者值得试。

03:49

AYi@AYi_AInotes

65

NVIDIA RTX Spark发布，3nm SoC整合ARM CPU、Blackwell GPU及128GB统一内存

NVIDIA发布RTX Spark，一款3nm制程的SoC，整合了ARM CPU、Blackwell GPU及128GB统一内存。它被应用于超薄笔记本，可本地运行120B大模型，并在1440p分辨率下满帧运行3A游戏，拔电后性能不降。此举被视为PC行业竞争规则的转变，从比拼CPU性能转向比拼AI算力与CUDA软件生态，标志着NVIDIA对Wintel王朝的挑战。该方案绕开了苹果对CUDA的限制，并抢先在Windows平台复刻了ARM架构加完整GPU生态的路径，旨在争夺未来三十年的PC行业主导权。

推理现象/趋势端侧

03:48

MiniMax (official)@MiniMax_AI

61

MiniMax M3 模型现已登陆 AI/ML API 平台。平台方通过 one-shot Doodle Jump 游戏对多个模型进行了测试，结果显示各模型输出效果相近，但价格差异显著：MiniMax M3 价格为 $0.05，Qwen 3.7 Max 为 $0.08，DeepSeek V4 Pro 为 $0.10，GPT-5.5 为 $0.42。MiniMax 方面以此强调其高性价比，并宣布该模型目前提供限时 50% 折扣。

AI/ML API: MiniMax M3 is now available on AI/ML API! To test it, we asked several leading models to oneshot Doodle Jump from the sc...

产品更新推理

关联讨论 11 条