AI HOT 日报 · 2026-06-04

1模型发布/更新

Grok Imagine 1.5 预览版已发布，即日起可在 API 中体验。SpaceXAI 正在发力。

X：cb_doge (@cb_doge)

15.6× faster decoding at 1M tokens 🔥 感谢 @FireworksAI_HQ 为 M3 提供推理支持。立即尝试 👇

X：MiniMax (@MiniMax_AI)

Miso One 正式发布，一个 8B 参数的开源权重语音模型（TTS），旨在模拟真实人类朗读的温暖与节奏。它支持一次语音克隆（只需短样本），推理延迟仅 110ms。模型权重已开源至 GitHub，无需 API 即可自托管，音频数据不离开本地。API 访问即将推出。演示已上线，可先试听再克隆仓库。

X：Kim (@kimmonismus)

Ideogram v4.0 发布：2K 分辨率和 JSON 提示支持

介绍 Ideogram v4.0。原生 2K 分辨率，出色的文字渲染，支持 JSON 提示词。立即在 Krea 中体验。

X：Krea AI (@krea_ai)

2产品发布/更新

Meta 面向 WhatsApp Business 的 AI 智能体现已全球上线

Meta 为 WhatsApp Business 打造的 AI 智能体面向全球商家开放，将按照模型 token 使用量向企业收费。

TechCrunch：AI（RSS）

NousResearch 发布 Hermes Agent 桌面应用公测版

官方 Hermes Agent 桌面应用现已推出！

X：硅基流动 SiliconFlow (@SiliconFlowAI)

xAI Grok语音模型上线Vapi平台

试试 @Vapi_AI 上最自然的TTS和性价比最高的STT API。来自 @xai 的Grok STT和Grok TTS现已在企业语音AI平台Vapi上线。基于Vapi构建自定义语音智能体，可让它们用客户的语言交流、在受监管的工作流中捕捉重要细节，并在每次通话中明显更具人性化。

X：xAI (@xai)

Grok模型登陆Cloudflare AI Gateway

在 @Cloudflare 的 AI Gateway 上尝试 Grok 模型！

X：xAI (@xai)

OpenShell v0.0.55 发布：新增 Vertex AI 推理支持

OpenShell v0.0.55 🧩 Google Vertex AI 推理提供者 🔒 基于配置文件的策略可见性 🐳 网关中更好的 Podman 检测 🖥️ 恢复 GPU procfs 基准行为 🔧 CI 与文档修复运行智能体对接 Vertex AI，同时拥有改进的策略可见性以及更可靠的 Podman 和 GPU 沙箱行为。 https://github.com/NVIDIA/OpenShell/releases/tag/v0.0.55

X：NVIDIA AI (@NVIDIAAI)

Replit上线SEO Agent助应用被发现

你发布了你的应用。然后呢？你的应用可能看起来很棒，但如果没人能找到它，它就依然不可见。发布只是开始。认识一下SEO Agent。它会为你运行一次扫描，并建议修复措施，帮助你的应用在网页搜索和AI搜索中被发现。

X：Replit (@Replit)

OpenClaw 2026.6.1发布：新增Windows节点与技能工坊

OpenClaw 2026.6.1 已上线 🦞 🪟 原生 Windows 节点主机 🛠️ 用于自主学习型智能体的技能工坊（Skill Workshop） 📋 工作板（Workboard）编排 🧠 支持 MiniMax M3 Windows 加入集群。无需企鹅服。 https://github.com/openclaw/openclaw/releases/tag/v2026.6.1

X：OpenClaw (@openclaw)

黄仁勋与纳德拉共议智能体AI时代

智能体AI时代来了。从台北，黄仁勋与@satyanadella共同出席#MSBuild，展示NVIDIA与@Microsoft如何携手构建，从Windows设备到规模化AI工厂。 ▶️ 观看对话：https://nvda.ws/4uefQbs

X：NVIDIA (@nvidia)

3行业动态

微软与OpenAI分道扬镳——如今双方准备正面交锋

微软与OpenAI的合作关系已彻底破裂，双方进入正面竞争态势。前DeepMind高管、现任微软AI主管Mustafa Suleyman明确表示，微软现在必须从头证明自己能独立完成所有必需的任务。这标志着两家科技巨头从紧密合作伙伴转变为直接竞争对手。

The Verge：订阅版科技（RSS）

Satya Nadella 谈微软 Build 大会主旨演讲

与我们共同构建前沿智能生态系统。今早我在 Microsoft Build 上的主旨演讲亮点。

X：Satya Nadella (@satyanadella)

欧盟公布全面技术主权计划，推动芯片与AI自主发展

欧盟公布一项全面技术主权计划，旨在扩大本土半导体、人工智能和云计算供应链，以减少对美国和亚洲的依赖。该计划覆盖芯片制造、AI基础设施及云计算服务等多个关键领域，目标是增强欧洲在核心技术上的自主能力。

Bloomberg：Technology（RSS）

Sensor Tower：OpenAI 旗下 ChatGPT 月活已破 10 亿，史上最快

据市场情报机构 Sensor Tower 估计，OpenAI 旗下 ChatGPT 全球月活跃用户在 2025 年 5 月突破 10 亿，成为达成此里程碑最快的应用，增速超过 Google Maps、TikTok 等。同期，其竞争对手 Anthropic 的 Claude 月活达 5600 万，同比增幅约 640%，增长势头迅猛。数据显示，部分用户已开始在 Claude 与 ChatGPT 间切换使用。在达成用户里程碑之际，Anthropic 已秘密递交 IPO 申请，OpenAI 也计划筹备上市。

IT之家（RSS）

消息称 DeepSeek 首轮融资拟筹集 500 亿元，腾讯、宁德时代等参投

DeepSeek 计划在首轮融资中从腾讯、宁德时代等投资方处筹集约 500 亿元人民币。融资落地后，其投后估值预计在 3500 亿至 4000 亿元。创始人梁文峰将出资 200 亿元，腾讯和宁德时代分别拟投资 100 亿元和 50 亿元，成为最大外部投资者。DeepSeek 去年凭借 V3 大模型与 R1 推理模型获得广泛认可。此次融资凸显了中国正打造从大模型到算力能源基建的全链条 AI 产业。

IT之家（RSS）

Suno完成4亿美元D轮融资

我们激动地宣布Suno的新篇章：4亿美元D轮融资，估值54亿美元！🚀 我们的使命一直很简单：让更多人能体验制作音乐的乐趣。非常感谢我们不可思议的社区和投资者与我们共同建设。点击此处阅读Mikey的博客：https://suno.com/blog/series-d-announcement

X：Suno (@suno)

Qwen Cloud全球AI黑客马拉松启动

4论文研究

斯坦福大学法学院研究：人工智能的表现优于法学教授

斯坦福大学法学院的一项研究表明，人工智能的表现优于法学教授。该发现引发了广泛关注，在Hacker News平台获得了104个Points。

Hacker News 热门（buzzing.cc 中文翻译）

NVIDIA Research 在 CVPR 2026 发表三篇论文：规模化训练实现抓取、自动驾驶与智能体泛化

NVIDIA Research 在 CVPR 2026 上发表三篇论文，展示规模化训练带来的泛化能力。GraspGen-X 是首个零样本抓取基础模型，基于 20 亿次模拟抓取训练，可为任意末端执行器生成抓取姿态。LCDrive 用紧凑潜在表示替代文本推理，让自动驾驶在嵌入式硬件上更快推理。NitroGen 基于 Isaac GR00T 架构，在大量虚拟环境中训练具身智能体。此外还发布了新的物理 AI 智能体技能，以及配合 GraspGen-X 使用的 CUDA 加速运动规划库 curoboV2 和闭环抓取论文 Grasp-MPC。

NVIDIA AI Blog

Anthropic 分析 832 个 AI 恶意账户：中高风险攻击者半年从 33% 跃至 56%

Anthropic 分析 2025 年 3 月至 2026 年 3 月间 832 个被封禁的恶意账户，映射至 MITRE ATT&CK 框架。67.3% 使用 AI 编写恶意软件，6.5% 用于横向移动。六个月间中高风险攻击者占比从 33% 升至 56%。AI 用于账户发现增长 8.9%，AI 辅助钓鱼下降 8.6%。传统基于技术数量或平台（Claude Code、API、聊天界面）的威胁评估失效，而 MITRE ATT&CK 框架尚未收录此类智能体编排行为。

Anthropic：Research（发表成果 · 网页）

微软研究：装瓶厂AI从聊天到决策

一份在中西部装瓶厂进行的三个月试点显示，当AI超越聊天进入决策领域时会发生什么——约束条件变化、风险真实、答案必须可靠。 https://msft.it/6015vjYUN

X：Microsoft Research (@MSFTResearch)

5技巧与观点

世界模型的功能分类

World Labs团队与李飞飞发文，梳理“世界模型”这一被滥用的术语。对比语言模型学习文本统计，世界模型学习空间与时间统计（如光照、物理规律）。基于部分可观马尔可夫决策过程（POMDP）框架，智能体通过动作影响世界状态，观测是部分视图。当前被称为“世界模型”的不同系统本质上是同一循环的不同投影：第一类为渲染器，输出给人眼看的像素，以视觉保真度为核心。文章着重于概念分层，未给出具体模型名、参数或基准分数。

X：Fei-Fei Li (@drfeifei, World Labs)

智能体工程实战窍门全录

该内容源自@mvanhorn的分享，介绍了“智能体工程”如何重塑软件开发。其核心是从“人主导编码”转向“人主导方向、智能体执行”，中心从IDE变为终端与计划文件。方法论遵循Research → Plan → Work循环，核心是让plan.md约束智能体行为。分享者总结了22条实战技巧，涵盖规划、并行执行、输入方式、远程控制等方面，并列出了完整的工具栈。

X：邵猛 (@shao__meng)

优步每月 1,500 美元的 AI 使用上限为 AI 工具定价提供参考

优步将 AI 工具每月使用上限定为 1500 美元，这一做法为行业 AI 工具定价提供了有价值的参考信号。

Hacker News 热门（buzzing.cc 中文翻译）

Anthropic 用 Claude 赋能自助数据分析

Anthropic 使用 Claude 自动化了 95% 的业务分析查询，整体准确率约 95%。其关键在于构建智能体分析栈（agentic analytics stack），通过数据基础层、维护验证流程和技能（skills）分别解决概念-实体歧义、数据过时和检索失败三大错误来源。相比编码场景，数据分析的难点在于将用户问题映射到正确的数据实体，而执行 SQL 反而是简单的。Anthropic 的数据科学团队因此得以专注于因果建模、预测和机器学习等战略工作。

Claude：Blog（网页）

洪水韧性新篇章：Google 开源水文建模框架

Google Research 在 GitHub 开源了其水文建模框架，这是一个基于 PyTorch 的 Python 包，采用与 Flood Hub 河段洪水预报相同的模型架构和训练数据。该框架允许研究者和预报员训练 AI 洪水预报模型、添加新模型与数据，并已与捷克水文气象研究所（CHMI）等合作测试。开放模型架构和训练管线旨在让各国气象水文部门在保留数据完全控制权的同时，整合基于 AI 的洪水预报。

Google Research：Blog（网页）

Karpathy 的 llm-wiki 项目获超五千星

@karpathy 的 llm-wiki 在几周内获得了 5,000+ 颗星。其理念是：停止在每个会话中重新发现知识。让一个大语言模型构建并维护一个维基，每次使用时它都会变得更智能。以下是如何使用 @opencode + @justsisyphus OMO + SiliconFlow 构建你自己的版本 🧵

X：硅基流动 SiliconFlow (@SiliconFlowAI)

32今日事件

20一手报道

4新模型

26信源