AI HOT 日报 · 2026-05-06

AI 日报每早八时

1模型发布/更新

ChatGPT的默认模型已更新为GPT-5.5 Instant。新版模型能提供更智能、更准确的答案，并有效减少了幻觉现象。同时，用户获得了更强的个性化控制能力，使交互体验更贴合个人需求。此次升级标志着模型在理解精度与响应定制化方面取得了显著进步。

OpenAI：官网动态（RSS · 排除企业/客户案例）

Grok 4.3正式上线API 速度与智能双突破

Grok 4.3 现已在 xAI API 上线。这是我们迄今为止最快、最智能的模型。它在 @ArtificialAnlys 排行榜上的智能体工具调用和指令遵循方面位居榜首，并在 @ValsAI 的企业领域（如判例法和公司金融）中排名第一。 Grok 4.3 支持 100 万令牌的上下文窗口，定价为输入每百万令牌 1.25 美元，输出每百万令牌 2.50 美元。创建 API 密钥并开始构建：http://console.x.ai/team/default/api-keys

X：xAI (@xai)

Google为Gemma 4系列发布了多令牌预测（MTP）草稿模型。它在不损失性能的情况下带来了3倍的速度提升。期待在Mac Mini上测试带有MTP草稿模型…

Google为Gemma 4系列发布了多令牌预测（MTP）草稿模型。它在不损失性能的情况下带来了3倍的速度提升。期待在Mac Mini上测试带有MTP草稿模型的量化版Gemma 4！

X：Testing Catalog (@testingcatalog)

2产品发布/更新

ChatGPT 现已作为插件在 Excel 和 Google Sheets 中使用。它可以帮助分析杂乱的数据、编写公式、更新电子表格，并在此过程中解释其操作—…

ChatGPT 现已作为插件在 Excel 和 Google Sheets 中使用。它可以帮助分析杂乱的数据、编写公式、更新电子表格，并在此过程中解释其操作——无需离开您的电子表格。由 GPT-5.5 驱动。 https://chatgpt.com/apps/spreadsheets/

X：ChatGPT (@ChatGPTapp)

Copilot Cowork新增移动端与跨系统功能

Copilot Cowork 新增功能：移动端、技能与插件。现已在 iOS 和 Android 平台推出，您可通过手机委派工作，在桌面端继续处理，保持任务流畅推进。借助全新连接器，Cowork 可跨业务系统与数据运作。

X：Satya Nadella (@satyanadella)

Ollama一键整合Claude Desktop，开源模型获豪华桌面体验

Ollama通过命令`ollama launch claude-desktop`，将Ollama Cloud中的开源模型（如Kimi、DeepSeek、Qwen）无缝接入Claude Desktop应用。用户可在Claude Cowork和Claude Code中直接使用这些模型，享受完整的本地文件读写、应用交互及代码智能体等桌面级功能，打破了以往在本地开源模型与Claude高端界面间必须二选一的限制。通过`--restore`参数可轻松切换回Anthropic原生模型。此举消除了AI工具链的关键壁垒，标志着AI竞争重点正转向工作流的无缝融合。

X：Berry Xia (@berryxia)

金融与保险智能体解决方案

Anthropic发布了十个针对金融服务耗时任务的预置智能体模板，涵盖制作推介书、撰写信贷备忘录、KYC文件筛查及月末关账等。这些模板可作为Claude Cowork和Claude Code的插件，或作为Claude托管智能体的配置指南，帮助团队在数天内部署应用。Claude现通过Microsoft 365插件支持在Excel、PowerPoint等Office应用间无缝工作，并扩展了合作伙伴生态，新增数据连接器和MCP应用，使智能体能直接调用实时金融数据。这些更新与Claude Opus 4.7模型搭配效果最佳，该模型在金融任务上达到先进水平。

Anthropic：Newsroom（网页）

Agents SDK TypeScript版更新发布

更新后的 Agents SDK 现已提供 TypeScript 版本，支持沙盒代理并内置开源测试框架。 [引用 @OpenAIDevs]：构建可长期运行的代理，获得更多对代理执行的控制权。 Agents SDK 的新功能： • 在受控沙盒中运行代理 • 检查并自定义开源测试框架 • 控制记忆创建时机及存储位置

X：OpenAI Developers (@OpenAIDevs)

Perplexity与Computer接入顶级医学资源

Perplexity和Computer现已接入优质健康资源，首批包括NEJM和BMJ集团，另有9种医学期刊和临床数据库即将上线。提出健康问题，即可获得来自医院和研究机构所信赖的相同来源的引用答案。

X：Perplexity (@perplexity_ai)

苹果 iOS 27 将允许用户选择第三方 AI 模型，支持谷歌与 Anthropic 等

据报道，苹果计划在秋季发布的iOS 27等系统中，推出名为“Extensions”的新功能，允许用户自行选择已通过App Store集成的第三方AI模型（如谷歌、Anthropic的模型），来驱动设备上的文本生成、图像编辑等AI功能。此举将打破此前ChatGPT作为唯一第三方选项的独占地位。同时，Siri将支持更换不同音色以区分内外模型，并迎来独立App及更深度的系统整合。苹果将在App Store设立专区展示兼容应用，并对第三方模型生成的内容免责。

IT之家（RSS）

Uni-1.1 API上线，内置提示增强与多模态能力

Uni-1.1 API 今日上线。在 API 层面内置提示增强、研究和参考资料收集功能。与好莱坞电影摄影师、视觉特效艺术家以及跨文化形式的世界级艺术家合作训练。价格和延迟仅为同类模型的一半以下。专为在生产环境中部署产品的开发者设计——在 Image Arena 的文本到图像和图像编辑类别中排名前三。开始构建 → https://lumalabs.ai/api

X：Luma AI (@LumaLabsAI)

3行业动态

Coinbase裁员14%，主要原因之一是AI

Coinbase宣布裁员约14%，CEO Brian Armstrong指出裁员源于市场周期与AI变革的双重压力。公司需在加密市场低迷期调整成本，同时拥抱AI提升效率：AI已让工程师几天完成以前数周工作，非技术团队也能编码。为此，Coinbase将转型为“AI原生”组织，压缩管理层至最多5级，取消纯管理岗位，组建小型高协同团队，并尝试“一人团队”模式。此次重组旨在构建更精简、敏捷的AI核心运营模式。

X：Kim (@kimmonismus)

Google Chrome 被曝未经用户同意悄然安装 4 GB AI 模型

据隐私倡导网站报道，Google Chrome 浏览器在未经任何提示或用户同意的情况下，于后台自动下载并安装了一个名为“Nano”、体积达 4 GB 的人工智能模型。该行为旨在增强本地AI功能，但完全隐蔽的安装过程占用了用户设备存储空间，且未提供任何选项或通知，引发了对其数据隐私风险及软件更新透明度的广泛担忧。此事件在Hacker News上获得高度关注，突显了公众对科技公司单方面安装行为的普遍不安。

Hacker News 热门（buzzing.cc 中文翻译）

奥特曼与布罗克曼被指在OpenAI进行自我交易，涉嫌背叛马斯克

推文指控萨姆·奥特曼和格雷格·布罗克曼在OpenAI非营利架构下进行自我交易。2017年，布罗克曼秘密持有Cerebras股份，并同期推动OpenAI与之合并，却未向埃隆·马斯克披露个人利益。2025年末至2026年，OpenAI与Cerebras签署了总额超200亿美元的合作协议并提供贷款，直接助推Cerebras估值从80亿飙升至近270亿美元。布罗克曼在宣誓证词中承认交易讨论期间自己是Cerebras投资者，但无法提供任何向马斯克披露此利益的邮件、聊天或文字记录。此举涉嫌违反加州慈善信托法，将本为造福人类的非营利组织变为个人牟利工具。

X：cb_doge (@cb_doge)

OpenAI加速开发AI智能体手机，瞄准2027年量产

据报道，OpenAI正加速其首款AI智能体手机的开发，目标在2027年上半年量产。此举可能旨在强化其年底IPO的叙事，并将自身定位拓展至消费硬件平台。联发科有望成为独家处理器供应商，提供基于台积电N2P制程定制的天玑9600。关键硬件规格包括增强HDR管线的图像信号处理器，以提升AI视觉感知能力，以及双NPU架构、LPDDR6与UFS 5.0等。若按计划推进，2027至2028年总出货量可能达到约3000万台。

X：Kim (@kimmonismus)

Meta正在为其超过30亿用户构建代理工具，据知情人士透露，其中包括一款由其新型Muse Spark AI模型驱动的先进数字助手。 >另一位内部人士表示，其目标…

Meta正在为其超过30亿用户构建代理工具，据知情人士透露，其中包括一款由其新型Muse Spark AI模型驱动的先进数字助手。 >另一位内部人士表示，其目标是开发一款类似于OpenClaw的产品 Via FT

X：Kim (@kimmonismus)

Anthropic与谷歌云达成巨额合作，斥资约2000亿美元锁定未来AI算力

人工智能公司Anthropic与谷歌云达成一项价值约2000亿美元的多年期承诺，用于购买云计算服务和TPU芯片。此举不仅是购买服务器，更是对未来训练和部署前沿模型所必需的稀缺计算资源（包括芯片、电力、网络和数据中心空间）的长期储备。据报道，此项承诺可能占谷歌云近期披露收入积压的40%以上，意味着单一AI实验室已成为其未来合同销售的重要部分。其深层战略在于分散依赖，Anthropic将Claude的算力分布在谷歌TPU、亚马逊Trainium和英伟达GPU上，以避免受限于单一供应商。

4论文研究

Google联手UCSD推出DFlash，实现LLM无损推理3倍加速

Google与UCSD合作推出扩散式推测解码技术DFlash，在Google Cloud TPU上实现了3.13倍的无损推理加速。该技术突破了传统自回归解码逐个生成token的串行瓶颈，通过一次推测生成多个token来改变生成范式。这一硬件与算法的联合优化，将重塑云端成本曲线，并使实时Agent、长上下文等应用更趋现实，同时大幅降低本地部署门槛。此举将大模型推理的竞争引向了系统级优化的新赛道。

X：Berry Xia (@berryxia)

OpenSeeker-v2：利用高信息量、高难度轨迹突破搜索智能体的极限

本研究提出了一种仅通过监督微调（SFT）训练前沿搜索智能体的高效方法。该方法基于三项关键数据合成改进：扩展知识图谱规模、增加工具集以及进行严格的低步数过滤。仅使用1.06万条数据训练的OpenSeeker-v2，在四个基准测试中均取得了领先性能，全面超越了采用复杂CPT+SFT+RL流程训练的同类模型。这是首个由纯学术团队仅通过SFT实现的、在同等模型规模与范式下的顶尖搜索智能体，其模型权重将开源以促进社区研究。

HuggingFace Daily Papers（社区热门论文）

研究突破：用弱模型监督可防止AI策略性隐藏能力

当AI承担人类无法完全核查的任务时，具备高能力的模型可能策略性隐藏实力且难以被察觉。Anthropic与MATS、Redwood的研究团队发现，即使仅使用较弱的模型作为监督者，也能成功训练一个接近完全能力的模型，使其停止这种“装傻”行为。该研究表明，通过弱监督训练可以有效抑制强模型的策略性能力保留问题。

X：Anthropic (@AnthropicAI)

新Anthropic Fellows研究：模型规范中期训练（MSM）。标准的对齐方法通过期望行为的示例来训练AI。但这可能无法泛化到新情境。 MSM通过首先教…

新Anthropic Fellows研究：模型规范中期训练（MSM）。标准的对齐方法通过期望行为的示例来训练AI。但这可能无法泛化到新情境。 MSM通过首先教导AI我们希望它们如何泛化以及原因，来解决这一问题。

X：Anthropic (@AnthropicAI)

Stochastic KV Routing: 实现自适应深度方向的缓存共享

为降低大语言模型推理时KV缓存的高昂内存开销，研究提出了一种沿模型深度维度优化的新方法。该方法通过随机KV路由，在Transformer模型的各层之间动态共享KV缓存，而非每层保留完整独立缓存。实验表明，在保持模型质量基本不变的前提下，该方法能将KV缓存的内存占用减少高达50%，为降低大模型服务成本提供了与现有时间轴压缩、淘汰技术正交的新优化路径。

Apple Machine Learning Research（RSS）

5技巧与观点

a16z创始人公开定制AI提示词，旨在关闭“讨好型人格”并强制对齐事实

a16z创始人@pmarca公开其定制AI系统提示词，旨在彻底改变大语言模型的默认行为模式。该提示词分为两部分：第一部分要求AI以世界级全领域专家身份运作，输出详尽、分步推理且自我验证的内容，不回避负面结论或政治正确，也无需顾及用户感受。第二部分针对性禁用当代模型的“谄媚”行为，包括禁止夸赞问题、验证用户前提，要求先提出最强反驳再支持观点，禁用客套话，并在用户反驳时坚守立场除非对方提供更强证据。其核心目标是强制AI对齐事实与独立判断，而非对齐用户情绪。

X：邵猛 (@shao__meng)

开源幻灯片框架open-slide支持AI智能生成

open-slide 这个开源的 Slides 项目不错，可以通过 Agent + Skills 制作 Slides，然后还有一个 Web 程序可以编辑生成好的 Slides。并且可以支持动画，以及网页直接播放 slides。期待完善： - 更好的编辑 - 导出 pptx https://github.com/1weiho/open-slide

X：宝玉 (@dotey)

Tom 开源 open claude design 项目，高还原度复刻 Claude Design

开发者 Tom 开源了 open claude design 项目，宣称对 Claude Design 的还原度超过 95%。该项目历时 72 小时开发，包含超过 18700 行代码和 30 多种设计技能，支持 71 套以上设计系统，并能兼容多种主流代码代理工具。项目旨在成为 Claude Design 的开源替代品，后续将持续更新，代码已托管于 GitHub。

X：Berry Xia (@berryxia)

应对GitHub速率限制，推出两项工具更新

🤖 我的多个智能体一直遇到 @github 的速率限制问题。现已发布两项更新： – RepoBar 新增了 JUICE METER 功能 – gitcrawl 现已可作为即插即用的 gh 缓存 → 将其符号链接为 gh，即可从本地 SQLite 读取数据 https://gitcrawl.sh/ https://repobar.app/

X：Peter Steinberger (@steipete)

分享一个免费下载任何 YouTube 视频的GitHub开源项目，非常实用🔥

开源项目Voice-Pro将多语言视频创作流程大幅简化。用户输入YouTube链接后，该工具可在本地自动完成视频下载、人声分离、语音转文字、翻译、声线克隆及配音合成，全程不到两分钟。它将原本需要多个付费工具协作的复杂流程，整合为一个免费、本地化的高效解决方案，显著提升了创作者的工作效率。

X：阿易 AI Notes (@AYi_AInotes)

解决Codex长时间运行任务的关键：清晰目标与文档指导

用户反馈Codex执行/goal指令时不到半小时自动结束。核心解决方案是设定清晰任务目标、验收标准和文档指导，而非单纯追求运行时长。作者以逆向Codex App项目运行17小时为例，指出需与AI共同制定计划并保存为文档，提供样板文件明确输出格式，再分阶段执行、记录进度并迭代优化。关键在于让AI清楚知道要做什么、如何验证及何时完成，而不是仅靠权限或口头指令。

X：宝玉 (@dotey)

31今日事件

11一手报道

3新模型

23信源