1模型发布/更新
15.6× faster decoding at 1M tokens 🔥 感谢 @FireworksAI_HQ 为 M3 提供推理支持。 立即尝试 👇
Miso One 正式发布,一个 8B 参数的开源权重语音模型(TTS),旨在模拟真实人类朗读的温暖与节奏。它支持一次语音克隆(只需短样本),推理延迟仅 110ms。模型权重已开源至 GitHub,无需 API 即可自托管,音频数据不离开本地。API 访问即将推出。演示已上线,可先试听再克隆仓库。
介绍 Ideogram v4.0。 原生 2K 分辨率,出色的文字渲染,支持 JSON 提示词。 立即在 Krea 中体验。
2产品发布/更新
Meta 为 WhatsApp Business 打造的 AI 智能体面向全球商家开放,将按照模型 token 使用量向企业收费。
试试 @Vapi_AI 上最自然的TTS和性价比最高的STT API。 来自 @xai 的Grok STT和Grok TTS现已在企业语音AI平台Vapi上线。基于Vapi构建自定义语音智能体,可让它们用客户的语言交流、在受监管的工作流中捕捉重要细节,并在每次通话中明显更具人性化。
OpenShell v0.0.55 🧩 Google Vertex AI 推理提供者 🔒 基于配置文件的策略可见性 🐳 网关中更好的 Podman 检测 🖥️ 恢复 GPU procfs 基准行为 🔧 CI 与文档修复 运行智能体对接 Vertex AI,同时拥有改进的策略可见性以及更可靠的 Podman 和 GPU 沙箱行为。 https://github.com/NVIDIA/OpenShell/releases/tag/v0.0.55
你发布了你的应用。然后呢? 你的应用可能看起来很棒,但如果没人能找到它,它就依然不可见。 发布只是开始。 认识一下SEO Agent。它会为你运行一次扫描,并建议修复措施,帮助你的应用在网页搜索和AI搜索中被发现。
OpenClaw 2026.6.1 已上线 🦞 🪟 原生 Windows 节点主机 🛠️ 用于自主学习型智能体的技能工坊(Skill Workshop) 📋 工作板(Workboard)编排 🧠 支持 MiniMax M3 Windows 加入集群。无需企鹅服。 https://github.com/openclaw/openclaw/releases/tag/v2026.6.1
智能体AI时代来了。 从台北,黄仁勋与@satyanadella共同出席#MSBuild,展示NVIDIA与@Microsoft如何携手构建,从Windows设备到规模化AI工厂。 ▶️ 观看对话:https://nvda.ws/4uefQbs
3行业动态
微软与OpenAI的合作关系已彻底破裂,双方进入正面竞争态势。前DeepMind高管、现任微软AI主管Mustafa Suleyman明确表示,微软现在必须从头证明自己能独立完成所有必需的任务。这标志着两家科技巨头从紧密合作伙伴转变为直接竞争对手。
与我们共同构建前沿智能生态系统。 今早我在 Microsoft Build 上的主旨演讲亮点。
欧盟公布一项全面技术主权计划,旨在扩大本土半导体、人工智能和云计算供应链,以减少对美国和亚洲的依赖。该计划覆盖芯片制造、AI基础设施及云计算服务等多个关键领域,目标是增强欧洲在核心技术上的自主能力。
据市场情报机构 Sensor Tower 估计,OpenAI 旗下 ChatGPT 全球月活跃用户在 2025 年 5 月突破 10 亿,成为达成此里程碑最快的应用,增速超过 Google Maps、TikTok 等。同期,其竞争对手 Anthropic 的 Claude 月活达 5600 万,同比增幅约 640%,增长势头迅猛。数据显示,部分用户已开始在 Claude 与 ChatGPT 间切换使用。在达成用户里程碑之际,Anthropic 已秘密递交 IPO 申请,OpenAI 也计划筹备上市。
DeepSeek 计划在首轮融资中从腾讯、宁德时代等投资方处筹集约 500 亿元人民币。融资落地后,其投后估值预计在 3500 亿至 4000 亿元。创始人梁文峰将出资 200 亿元,腾讯和宁德时代分别拟投资 100 亿元和 50 亿元,成为最大外部投资者。DeepSeek 去年凭借 V3 大模型与 R1 推理模型获得广泛认可。此次融资凸显了中国正打造从大模型到算力能源基建的全链条 AI 产业。
我们激动地宣布Suno的新篇章:4亿美元D轮融资,估值54亿美元!🚀 我们的使命一直很简单:让更多人能体验制作音乐的乐趣。非常感谢我们不可思议的社区和投资者与我们共同建设。 点击此处阅读Mikey的博客:https://suno.com/blog/series-d-announcement
4论文研究
斯坦福大学法学院的一项研究表明,人工智能的表现优于法学教授。该发现引发了广泛关注,在Hacker News平台获得了104个Points。
NVIDIA Research 在 CVPR 2026 上发表三篇论文,展示规模化训练带来的泛化能力。GraspGen-X 是首个零样本抓取基础模型,基于 20 亿次模拟抓取训练,可为任意末端执行器生成抓取姿态。LCDrive 用紧凑潜在表示替代文本推理,让自动驾驶在嵌入式硬件上更快推理。NitroGen 基于 Isaac GR00T 架构,在大量虚拟环境中训练具身智能体。此外还发布了新的物理 AI 智能体技能,以及配合 GraspGen-X 使用的 CUDA 加速运动规划库 curoboV2 和闭环抓取论文 Grasp-MPC。
Anthropic 分析 2025 年 3 月至 2026 年 3 月间 832 个被封禁的恶意账户,映射至 MITRE ATT&CK 框架。67.3% 使用 AI 编写恶意软件,6.5% 用于横向移动。六个月间中高风险攻击者占比从 33% 升至 56%。AI 用于账户发现增长 8.9%,AI 辅助钓鱼下降 8.6%。传统基于技术数量或平台(Claude Code、API、聊天界面)的威胁评估失效,而 MITRE ATT&CK 框架尚未收录此类智能体编排行为。
一份在中西部装瓶厂进行的三个月试点显示,当AI超越聊天进入决策领域时会发生什么——约束条件变化、风险真实、答案必须可靠。 https://msft.it/6015vjYUN
5技巧与观点
World Labs团队与李飞飞发文,梳理“世界模型”这一被滥用的术语。对比语言模型学习文本统计,世界模型学习空间与时间统计(如光照、物理规律)。基于部分可观马尔可夫决策过程(POMDP)框架,智能体通过动作影响世界状态,观测是部分视图。当前被称为“世界模型”的不同系统本质上是同一循环的不同投影:第一类为渲染器,输出给人眼看的像素,以视觉保真度为核心。文章着重于概念分层,未给出具体模型名、参数或基准分数。
该内容源自@mvanhorn的分享,介绍了“智能体工程”如何重塑软件开发。其核心是从“人主导编码”转向“人主导方向、智能体执行”,中心从IDE变为终端与计划文件。方法论遵循Research → Plan → Work循环,核心是让plan.md约束智能体行为。分享者总结了22条实战技巧,涵盖规划、并行执行、输入方式、远程控制等方面,并列出了完整的工具栈。
优步将 AI 工具每月使用上限定为 1500 美元,这一做法为行业 AI 工具定价提供了有价值的参考信号。
Anthropic 使用 Claude 自动化了 95% 的业务分析查询,整体准确率约 95%。其关键在于构建智能体分析栈(agentic analytics stack),通过数据基础层、维护验证流程和技能(skills)分别解决概念-实体歧义、数据过时和检索失败三大错误来源。相比编码场景,数据分析的难点在于将用户问题映射到正确的数据实体,而执行 SQL 反而是简单的。Anthropic 的数据科学团队因此得以专注于因果建模、预测和机器学习等战略工作。
Google Research 在 GitHub 开源了其水文建模框架,这是一个基于 PyTorch 的 Python 包,采用与 Flood Hub 河段洪水预报相同的模型架构和训练数据。该框架允许研究者和预报员训练 AI 洪水预报模型、添加新模型与数据,并已与捷克水文气象研究所(CHMI)等合作测试。开放模型架构和训练管线旨在让各国气象水文部门在保留数据完全控制权的同时,整合基于 AI 的洪水预报。
@karpathy 的 llm-wiki 在几周内获得了 5,000+ 颗星。 其理念是:停止在每个会话中重新发现知识。让一个大语言模型构建并维护一个维基,每次使用时它都会变得更智能。 以下是如何使用 @opencode + @justsisyphus OMO + SiliconFlow 构建你自己的版本 🧵