AIHOT

全部动态一手 · 2393 条

5月23日周六

5月22日周五

5月23日

17:46

Mistral AI：News（网页）

Mistral AI宣布与物理AI先驱Emmi AI达成最终收购协议，旨在加强其在工业AI领域的领导地位。通过整合Emmi AI在物理仿真与数字孪生方面的专长，Mistral AI将提升其工程解决方案能力，并加速科学研发路线。Emmi AI的30余名研究员与工程师将加入Mistral AI团队，共同构建由物理AI驱动的综合技术栈。此次合作将为航空航天、汽车等高风险行业提供实时仿真与复杂问题解决平台，推动工业研发的突破性进展。

行业动态部署/工程

关联讨论 1 条

12:30

Claude Code：GitHub Releases（RSS）

v2.1.150版本更新

v2.1.150版本包含内部基础设施优化。此次更新主要聚焦于后台系统的改进，未引入任何用户可见的功能、界面或体验变更。

Anthropic产品更新

12:14

美团 LongCat：HuggingFace 新模型

美团-LongCat/WBench权重模型

美团开源了用于WBench评估框架的预训练模型权重仓库，将这些权重整合至单一仓库，旨在方便社区快速部署WBench评估环境。该权重仅重新分发用于学术研究和评估用途，所有权利归属原作者。用户可参考WBench GitHub获取安装与评估指南，具体模型许可证详见LICENSE_NOTICE.md文件。

Hugging Face开源/仓库数据/训练

11:00

公众号：可灵AI（快手·视频）

亮相戛纳|可灵AI戛纳论坛精彩回顾

行业动态视频

08:16

Hugging Face：Blog（RSS）

精选63

NVIDIA 发布 Nemotron-Labs Diffusion 系列模型，支持三种生成模式

NVIDIA 发布 Nemotron-Labs Diffusion 系列，含 3B、8B、14B 文本模型和 8B 视觉-语言模型（VLM），均采用商用友好的 NVIDIA Nemotron Open Model License 或 NVIDIA Source Code License。模型支持自回归、扩散（逐块并行生成后逐步精炼）和自推测（扩散草拟候选 token 再自回归验证）三种模式。8B 模型平均准确率比 Qwen3 8B 提升 1.2%，扩散模式每次前向传递的 token 数（TPF）达自回归的 2.6 倍，自推测达 6–6.4 倍。模型在 1.3T tokens 上预训练、45B tokens 上微调，代码与模型已发布于 HuggingFace 和 GitHub，推理将获 SGLang 支持。

多模态推理模型发布

推荐理由：自推测模式让文本生成速度飙到AR模型的4倍，而且输出质量无损。NVIDIA这次开源的不仅是个新模型，更是一套能直接用在现有流程里的加速方案。

06:38

OpenAI：官网动态（RSS · 排除企业/客户案例）

Virgin Atlantic 如何使用 Codex 更快地交付产品

Virgin Atlantic 采用 Codex 工具，在固定的假期旅行截止日期前成功交付了其重新设计的移动应用。通过 Codex 的辅助，开发团队实现了接近完整的单元测试覆盖率，有效降低了风险，并确保了零个 P1 级别缺陷。这一过程显著提升了交付速度，缩短了开发周期，同时提高了应用的稳定性和用户体验，展示了 AI 在加速软件开发中的实际价值。

OpenAI教程/实践编码

06:30

Claude Code：GitHub Releases（RSS）

精选64

v2.1.149 更新摘要

本次 v2.1.149 更新包含功能增强、企业设置和多项修复。新增 `/usage` 命令的使用量分类显示功能，可区分技能、子代理、插件及每个 MCP 服务器的消耗；`/diff` 详情视图支持键盘滚动；Markdown 输出兼容 GFM 任务列表。企业版新增 `allowAllClaudeAiMcps` 设置以加载云 MCP 连接器。修复了 PowerShell 权限绕过、Git 工作树沙盒写入白名单越界、脚本路径含空格时 `otelHeadersHelper` 静默失败等安全问题。改进了 `/feedback` 报告，包含上下文压缩前的对话内容，便于排查长会话中的早期问题。

AnthropicMCP/工具产品更新编码

推荐理由：Claude Code 这次把 /usage 拆到每个技能和子代理的用量，排查成本不再是猜谜，/diff 终于能键盘滚动，修了一堆权限坑，日常靠 Claude Code 写代码的人值得秒升。

03:57

Anthropic：Research（发表成果 · 网页）

Project Glasswing项目阶段性进展

上月启动的Project Glasswing项目旨在利用AI能力保护关键软件安全。在约50家合作伙伴参与下，通过使用Claude Mythos Preview模型，已在全球最重要的系统软件中发现超过一万个高危或严重漏洞。Cloudflare等合作伙伴报告其漏洞发现效率提升超十倍，其中仅Cloudflare就在关键系统中发现了2000个漏洞。该模型在多个独立安全测试中表现突出，被评测为网络攻击模拟领域的首个全通关模型。当前的挑战已从快速发现漏洞，转向了如何快速验证、披露和修补海量漏洞。

智能体Anthropic安全/对齐开源生态

关联讨论 5 条

03:57

Anthropic：Newsroom（网页）

精选90

Project Glasswing：初步更新

上月启动的Project Glasswing项目，旨在利用先进AI模型保障关键软件安全。通过约50家合作伙伴使用Claude Mythos Preview模型，已在全球关键系统中发现超过10,000个高危或严重漏洞。多家合作伙伴报告漏洞发现效率提升超过十倍。例如，Cloudflare在关键路径系统发现2,000个漏洞；Mozilla在Firefox 150中发现并修复271个漏洞，数量远超前代模型。项目还扫描了千余个支撑互联网的开源项目，独立验证准确率达90.6%。这标志着AI网络安全能力进入新阶段，漏洞发现速度已远超人工。

Anthropic安全/对齐开源生态

关联讨论 5 条

推荐理由：Mythos Preview用一个月找到的漏洞比过去一年还多，网络安全从「发现难」变成「修不过来」，这个转折点所有安全从业者都得读。

02:18

Google Blog：AI（RSS）

精选56

回顾Google I/O 2026对话环节

在2026年Google I/O开发者大会上，对话环节聚焦于未来科技趋势。行业领导者围绕人工智能、量子计算、机器人学以及创造力等核心议题展开了深入探讨，旨在勾勒这些前沿领域的技术演进路径与发展蓝图。

Google行业动态

推荐理由：Google I/O 对话环节的官方摘要，话题覆盖 AI、量子与机器人，但短短几句话没有实质内容，当成新闻简报可以一瞥，不值得细看。

01:30

Apple Machine Learning Research（RSS）

精选66

VSAS-Bench：视觉流式辅助模型的实时评估基准

现有视觉语言模型框架主要在离线场景下评估性能，但实时视觉助手所依赖的流式模型还需考量额外指标，如反映响应时效性的“主动性”和捕捉随时间推移响应稳定性的“一致性”。为此，研究团队提出了VSAS-Bench，这是一个新的评估基准，专门针对流式视觉语言模型在实时交互任务中的表现，填补了当前评估方法在动态、持续生成场景下的空白。

多模态论文/研究评测/基准

推荐理由：苹果搞了个实时视觉助手的评估基准，把离线评测拉到了流式场景，多模态 agent 和实时 VLM 方向的研究者值得跟进一下评估方法。

01:21

Claude：Blog（网页）

Anthropic财务团队的Claude应用实践

Anthropic公司金融与战略团队的Alice Fong分享了使用Claude优化财务工作的经验。她需要为CFO和董事会维护一套连贯的财务叙事，但过去常因数据频繁更新和协作修改而耗费大量时间核对一致性。现在，她通过Claude Cowork自动校验文档中的数字与叙述是否统一、是否连贯，并利用Claude for Excel直接在财务模型中进行诊断。这帮助她将每月约10-20小时的重复性核对工作，转化为专注于前瞻分析、场景规划等更高价值的判断性工作，确保了公司快速变化背景下财务叙事的准确性与一致性。

Anthropic教程/实践

01:04

Cursor Blog

精选66

Cursor 被评为 2026 年 Gartner 企业级 AI 编码代理魔力象限领导者

Gartner 在 2026 年魔力象限报告中，将 Cursor 评为企业级 AI 编码代理领域的领导者，并在愿景完整性上领先。超过 70% 的财富 500 强企业使用 Cursor 部署和管理编码代理。未来一年，Cursor 将聚焦于三个方向：提升前沿模型智能；自动化软件开发全生命周期的任务（如代码审查、漏洞修复）；以及通过新的管理工具和控制面板，增强企业级的控制力、协作性与部署灵活性，以拓展至更多行业和地区。

编码行业动态

推荐理由：Gartner 的象限向来是企业采购的风向标，Cursor 在 vision 上做到最远，对瞄准 AI coding agent 的团队是个重要信号，但别被 PR 冲昏头，完整报告更值得细读。

00:30

Dwarkesh Patel：Podcast & Blog（RSS）

Reiner Pope - 从底层构建芯片设计

Reiner Pope 讲解了芯片设计如何从最基础的逻辑门开始，逐步构建并解释了GPU、TPU、FPGA以及人脑这几种计算架构在形态与功能上存在差异的根本原因。内容以自下而上的视角，剖析不同硬件的设计逻辑与演化路径。

教程/实践部署/工程

00:30

GitHub Blog

精选62

GitHub 连续第三年被 Gartner® 魔力象限TM 评为企业级 AI 编程代理领域的领导者

Gartner 最新发布的魔力象限报告中，GitHub 连续第三年被列为“领导者”象限，该评估专注于企业级 AI 编程代理领域。GitHub 表示，其致力于构建一个开放、安全且由 AI 驱动的平台，以赋能每一位开发者并定义软件开发的未来。此次评选进一步巩固了 GitHub 在 AI 辅助开发工具市场的领先地位。

智能体GitHub编码行业动态

推荐理由：Gartner 连续三年把 GitHub 放企业 AI 编码代理领导者象限，对选型团队是个硬参考，没有新功能但行业地位再次夯实。

00:28

Tomer Tunguz 博客（VC 分析）

精选70

可塑界面：AI驱动的未来软件形态

Salesforce已采用无头架构，允许销售人员通过AI直接更新数据，许多公司正通过MCPs跟进。同时，AI专家们正推动超越纯文本、更丰富的界面（如HTML），支持图表与交互。AI能根据场景动态生成定制化界面。无头系统并非移除前端，而是支持多种可塑化界面（如音频、网页）。未来软件的核心价值在于动态管理这些界面、确保其准确性，并将各类AI产物整合为可演化的上下文数据库与制品库。用户界面并未消失，而是变得“可塑”，能按需变形。

多模态现象/趋势

推荐理由：动态 UI 不是消灭界面，而是让界面变得可塑性。Airbnb CEO 和 Anthropic 工程师都在押注 HTML 输出，这篇文章把信号串了起来，做产品的人值得一看。

00:16

Hugging Face：Blog（RSS）

专业化胜过规模：Dharma 发布 DharmaOCR，3B 专用模型在 OCR 基准上超越商业前沿 API

4月，Dharma 发布 DharmaOCR——一对 3B 参数专用小语言模型，用于结构化 OCR，同时开源基准与论文。在巴西葡萄牙语 OCR 基准上，该 3B 专用模型通过全微调实现综合得分 0.911，超过所有测试的商业前沿 API（Claude Opus 4.6 0.833、Gemini 3.1 Pro 0.820、GPT-5.4 0.750）。每百万页成本仅为 Claude Opus 4.6 的约 1/52，质量与成本均占据 Pareto 前沿。结果表明：当训练数据与部署任务充分对齐时，参数规模不再是决定性变量，专业化微调能以极低代价实现更高性能。

arXivHugging Face数据/训练现象/趋势

5月22日

23:52

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选62

OpenAI被Gartner评为企业AI编码代理领域领导者

Gartner发布2026年企业AI编码代理魔力象限报告，OpenAI被列为领导者。其产品Codex因在技术创新和企业级部署方面的突出表现获得认可，反映了OpenAI在AI辅助编程工具领域的领先地位。

智能体OpenAI编码行业动态

推荐理由：Gartner第一次给AI编程Agent出报告就把OpenAI拉到了领导者象限，企业选型可以少绕点弯路，虽然这类报告看的是市场执行力，不完全等于技术实力。

23:16

Hugging Face：Blog（RSS）

Text Degeneration： A Production Failure Mode That Most Benchmarks Do Not Track

22:00

Gary Marcus：The Road to AI We Can Trust（RSS）

这个奇怪操作可能让你的养老基金损失数十亿美元

国会当前推进的某项政策调整，可能导致美国养老基金遭受数十亿美元的巨额损失。该政策变更被指存在重大漏洞，将直接影响数百万退休人员的资产安全。有专家发出警告，呼吁民众立即联系所在选区的国会议员，要求其重新评估并阻止这一潜在损害养老金储备的决策。

大佬观点政策/监管

21:21

公众号：百度智能云（文心）

给电力行业装上"地理大脑"：百度智能云图云做了一次"地址大模型"变革

百度智能云图云推出面向电力行业的“地址大模型”，将地理信息与AI能力深度融合，为电力业务装上“地理大脑”，实现地址数据管理与应用的智能化变革。该模型旨在提升电网规划、运维、应急等场景中地址解析与匹配的准确性。

行业动态

21:21

公众号：百度智能云（文心）

百度智能云走进文博会：四方战略合作开启AI+IP新叙事

百度智能云在文博会上宣布四方战略合作，聚焦AI+IP领域，开启新叙事。

行业动态

15:55

公众号：面壁智能（MiniCPM）

面壁智能首届实训营收官！学生也能玩转大模型应用开发

面壁智能首届实训营圆满结束，参与学生从大模型使用者转变为应用构建者。

行业动态

15:02

公众号：月之暗面（Kimi）

Kimi 原生视频理解能力已登陆 TRAE 中国版，分享体验得 Labubu！

产品更新多模态视频

14:02

公众号：龙猫LongCat（美团）

丹佛有约，CVPR 2026 美团北斗计划主题活动邀请函

其他行业动态

14:02

公众号：龙猫LongCat（美团）

美团跑腿 Skill：一句话，骑手来帮忙

美团跑腿推出Skill功能，用户通过一句话指令即可让骑手执行任务，标志着从教AI说话到教AI做事的转变。

智能体MCP/工具产品更新

14:02

公众号：龙猫LongCat（美团）

从高拟真到真可用，LongCat-Video-Avatar 1.5 正式开源

美团技术团队正式开源 LongCat-Video-Avatar 1.5，该版本从高拟真走向真可用，将视频头像生成从室内彩排演练推向千人千面的真实应用场景。

图像生成模型发布视频

09:41

公众号：智谱（GLM）

滴滴与智谱AI联合成立"DiDi-Z.AI Universe Lab"探索实验室，以真实场景驱动Agent前沿探索

滴滴与智谱AI联合成立“滴滴-智谱AI探索实验室”（DiDi–Z.AI Universe Lab），该实验室旨在利用真实业务场景驱动AI智能体（Agent）的前沿技术探索与应用，推动Agent技术在实际场景中的落地。

智能体行业动态

09:41

公众号：智谱（GLM）

精选63

智谱推出GLM-5.1高速版

智谱发布GLM-5.1高速版，推理速度达400 tokens/s，在顶尖模型中生成速度最快。

推理模型发布部署/工程

关联讨论 1 条

推荐理由：智谱把GLM-5.1做到了400 tokens/s，虽然发布已半个月，但这是国产模型在推理速度上的新标杆，做实时应用的可以看看。

09:30

Claude Code：GitHub Releases（RSS）

v2.1.148

版本 v2.1.148 发布，主要修复了一个影响部分用户的严重问题。该修复解决了 Bash 工具在执行任何命令时均返回 127 退出码的故障。此问题被确认为在上一版本 2.1.147 中引入的回归性缺陷。

Anthropic产品更新部署/工程

05:30

Claude Code：GitHub Releases（RSS）

精选73

v2.1.147版本更新

本次更新引入了`Workflow`工具，支持确定性多智能体编排（默认关闭）。将`/simplify`命令重命名为`/code-review`，现可报告代码正确性问题并支持生成GitHub PR内联评论。改进了自动更新器（增加重试与错误报告）、大文件diff渲染性能，并优化了提示历史记录以避免重复条目。修复了多个关键问题，包括企业登录限制未生效、Windows下的PowerShell工具与终端闪烁问题、插件系统及shell快照的bug，并增强了沙箱安全性与终端兼容性。

智能体Anthropic产品更新编码

推荐理由：Claude Code 这次更新不止修 bug，Workflow 工具让多 agent 编排有了确定性模式，虽然默认关闭但值得尝鲜，做复杂工程的开发者可以关注。

04:38

Google DeepMind：Blog（RSS）

精选64

谷歌DeepMind在亚太启动AI气候加速器

亚太地区经济增长迅速，但极易受到气候变化影响，且现有绿色技术发展速度跟不上环境风险的增长。为此，Google DeepMind宣布启动首届专注于“AI for the Planet”的加速器计划。该计划为期三个月，面向亚太地区的初创企业、研究团队和非营利组织，旨在利用前沿人工智能技术解决自然、气候、农业和能源等领域的挑战。入选组织将获得专家指导、定制化支持，并可集成Google AI的前沿模型。计划将从新加坡的线下训练营开始，现已开放注册。

Google行业动态

推荐理由：亚太区做气候 AI 的团队多了一个直接对接 DeepMind 的机会，三周新加坡 bootcamp 能蹭到的前沿模型集成支持比钱值钱。

03:28

Tomer Tunguz 博客（VC 分析）

精选69

SpaceX的无限野心：AI企业集团

SpaceX在提交S-1文件后，展现为一家AI时代的企业集团。公司由三大业务构成：Starlink（星链）、太空业务与AI业务。2025年总营收达187亿美元。其中，星链是绝对的核心与现金引擎，贡献了61%的营收并实现39%的营业利润率。太空业务收入占比22%，而AI业务（含X平台与xAI）虽仅占17%且处于巨额投入阶段，但代表了未来的战略方向。整体上，星链的强劲盈利为公司的太空探索与AI雄心提供了关键的资金支持。

xAI行业动态部署/工程

关联讨论 1 条

推荐理由：SpaceX的S-1文件罕见披露了AI业务的财务底牌，Tunguz的拆解很精炼，让你看懂Starlink怎么为烧钱的AI和Starship供血，太空AI算力这个叙事值得关注。

02:45

Runway：News（网页）

Runway发布Aleph 2.0视频编辑模型及Edit Studio应用

Runway于2026年5月21日发布了视频编辑模型Aleph 2.0及其新产品Edit Studio。Aleph 2.0支持编辑最长30秒的1080p视频，具备精准局部编辑能力，可只改变指定内容而完全保留原视频其余部分。该模型引入了基于单帧图像的精确控制，并支持一次性跨多个镜头应用编辑。Edit Studio是基于这些新能力构建的应用，旨在帮助用户高效地将现有视频素材转化为所需版本，例如更换产品、调整背景或修复拍摄瑕疵。该功能现已向所有付费Runway桌面网页端用户开放，使用优惠码可享受套餐折扣。

模型发布视频

关联讨论 1 条

02:36

Runway：Changelog（网页）

精选63

Aleph 2.0 与 Edit Studio

Runway 推出 Aleph 2.0 与 Edit Studio，支持用户通过自然语言指令编辑视频，并在生成前预览效果。同时上线的还有 Multi-Shot Video（单提示生成多镜头视频）、Scene Builder（分步构建多镜头场景）、Upscale Video（结合 Topaz AI 提升分辨率）以及 Act-Two 人物动画等功能。

产品更新多模态视频

关联讨论 1 条

推荐理由：Runway 这次不只是发模型，而是把生成到剪辑的链条补上了，用自然语言直接调视频片段，这个方向比单纯出片更靠近创作者的真正工作流。

02:08

xAI：News（网页）

精选67

在OpenCode中使用Grok

xAI宣布，其SuperGrok或X Premium订阅用户现可在开源编程工具OpenCode中使用Grok模型。OpenCode提供终端或独立桌面应用两种形式，用户连接Grok账户后，即可调用驱动xAI终端编程代理的Grok Build模型进行开发。该集成通过xAI Grok OAuth实现认证接入，官方表示未来将推出更多开源代理及集成方案。

xAI产品更新编码

关联讨论 2 条

推荐理由：把 Grok 搬进 OpenCode 不是啥大新闻，但如果你正好有 SuperGrok 或 X Premium，直接就能在终端里用，算是个挺干净的集成。

02:00

Cloudflare Blog

宣布 Cloudflare CASB 支持 Claude Compliance API

Cloudflare 宣布现已集成 Claude Compliance API，安全团队可直接在 Cloudflare 仪表盘中监控 Claude 企业版的活动。这一集成使得企业能够将 Claude 的合规管理与 Cloudflare 的云访问安全代理功能相结合，实现集中化的安全监控与策略管理。

Anthropic产品更新安全/对齐

02:00

Gary Marcus：The Road to AI We Can Trust（RSS）

精选72

核算OpenAI和Anthropic最新动态背后的数学

OpenAI与Anthropic近期相继发布重要产品更新。Claude 3.5 Sonnet在多项基准测试中超越GPT-4o，同时宣布API价格下调50%。Anthropic披露其模型训练成本年均增长约3.2倍，而OpenAI被曝已通过企业服务实现单季度超10亿美元营收。两家公司在技术突破与商业化竞赛中，正通过精密的成本核算与性能权衡重塑行业格局。

AnthropicOpenAI大佬观点推理

推荐理由：Gary Marcus 直接拉出 OpenAI 和 Anthropic 最新声明的原始数据，用小学数学拆穿他们有意无意藏起来的假设，所有拿这些数字做决策的产品人和投资人最好看一遍。

01:43

Claude：Blog（网页）

精选74

合作伙伴如何运用Opus强化网络安全

多家企业正利用Claude Opus模型强化网络安全防御。Wiz通过其Red Agent，每周对超过15万个生产资产进行持续渗透测试，发现数千个高风险漏洞且误报率为零。Palo Alto Networks在不到三周内完成了相当于一年的渗透测试工作量。埃森哲将安全测试覆盖率从约10%提升至80%以上，涉及1600个应用和50万+个API，扫描周期从3-5天缩短至1小时内。应用主要围绕三个方向：开展大规模攻击性测试、缩短漏洞发现与修复的间隔，以及将受控AI系统部署到生产环境。

Anthropic产品更新安全/对齐

推荐理由：Wiz一周扫15万资产零误报，Palo Alto三周完成一年渗透测试量——这些不是蓝图，是Claude Opus正在真实防御中跑出的数字，安全团队值得逐字看完。

01:43

Claude：Blog（网页）

精选65

Claude现已支持更多安全合规工具

Anthropic宣布为Claude企业版及平台新增28项安全与合规工具集成。这些集成均通过Claude Compliance API实现，允许企业安全团队统一获取Claude的对话内容与活动事件，从而将其纳入现有的DLP、SIEM等监控与合规流程。新增合作伙伴包括Cloudflare、CrowdStrike、Microsoft Purview等28家供应商，覆盖数据安全、身份验证等多个关键领域，帮助企业快速将Claude接入现有安全平台，实现跨组织工具的统一治理与可视化监控。

Anthropic产品更新部署/工程

推荐理由：企业安全团队终于能像治理其他SaaS一样治理Claude了，28个主流安全工具集成，说明Anthropic认真在打企业牌，CSO们可以打开文档了。