AIHOT

全部动态一手 · 2393 条

5月30日周六

5月29日周五

5月30日

18:39

公众号：小米 MiMo

小米发布 MiMo-V2.5 系列模型（含 MiMo-V2.5、MiMo-V2.5-Pro），采用 Hybrid Sliding Window Attention（Hybrid SWA）架构，KVCache 存储与计算量均降至 Full Attention 的约 1/7。以 MiMo-V2.5-Pro 为例，70 层中仅 10 层为 Full Attention，60 层为 SWA（窗口大小 128）。团队围绕 KVCache 系统重构（双池管理、按层异步拉取、SWA-aware 前缀缓存树）及分布式缓存 GCache 等环节优化，使存储效率提升约 7×，显著降低长上下文推理成本。

推理教程/实践部署/工程

10:42

Claude Code：GitHub Releases（RSS）

v2.1.158

Claude Code 发布 v2.1.158 更新，将 Auto mode 的可用范围扩展至 Bedrock、Vertex 和 Foundry 平台，支持 Claude Opus 4.7 和 Opus 4.8 模型。用户可通过设置环境变量 `CLAUDE_CODE_ENABLE_AUTO_MODE=1` 来启用该功能。

Anthropic产品更新编码部署/工程

关联讨论 2 条

07:19

OpenRouter：Announcements（RSS）

精选73

Guardrails：保护你的智能体、数据与成本

Guardrails 是一套可配置的安全与治理工具，提供预算执行、零数据保留、模型与提供商限制、提示词注入防御及数据丢失预防等功能，旨在保护智能体（Agents）、数据与控制成本。

智能体产品更新安全/对齐

推荐理由：给 agent 加安全护栏这件事，OpenRouter 把它做进了控制台，预算限制、防注入、数据不落盘都能开箱即用，做生产级 agent 的可以少写一堆胶水代码。

04:42

Claude Code：GitHub Releases（RSS）

精选67

v2.1.157 更新

此版本主要改进了插件系统，现可自动加载 `.claude/skills` 目录中的插件，并通过 `claude plugin init` 创建；`/plugin` 命令增加了自动补全。`claude agents` 现在会应用 `settings.json` 中的 `agent` 字段，并支持 `--agent` 参数覆盖。更新修复了多个具体问题，包括处理不可用图片导致的崩溃、在 tmux 中的剪贴板复制失效（2.1.153 回归）、后台会话恢复后日期不正确等。此外，优化了长对话及恢复对话的性能，并改进了在 VS Code、Cursor 和 Windsurf 等 IDE 中的体验。

智能体AnthropicMCP/工具产品更新

关联讨论 2 条

推荐理由：Claude Code 这个版本把插件从市场限制中解放出来，自动加载本地 skills 目录，对喜欢自己鼓捣定制工作流的开发者是个实实在在的便利。

03:08

Google Blog：AI（RSS）

精选55

参与我们的 I/O 2026 测验：该测验由 Google AI Studio 氛围编程生成

Google 使用其开发工具 Google AI Studio，通过氛围编程（vibe coding）方式，创建了一个关于 Google I/O 2026 主要公告的在线测验。

Google教程/实践

推荐理由：Google 用 AI Studio 自己 vibe code 了个 I/O 测验，是想展示普通人也玩得转，但 quiz 本身信息量不大，想体验 vibe coding 的可以顺手玩玩。

02:52

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选64

Braintrust如何用Codex将客户请求转化为代码

Braintrust的工程师正在使用Codex结合GPT-5.5模型，以加速其实验运行与代码编写的流程。

智能体OpenAI教程/实践编码

推荐理由：真正的工程团队实操，不是 PPT 演示，如果你想了解 Codex 在生产环境中的落地效果，这篇比任何评测都实在。

02:12

Gary Marcus：The Road to AI We Can Trust（RSS）

Token至上时代结束之后会怎样？

文章简要指出，在“Token至上”的时代可能告一段落之后，对于人工智能（AI）的未来，存在两组截然不同的预测。

大佬观点现象/趋势

02:03

Steve Yegge：Medium（RSS）

技术面试的终结

作者基于超过35年的技术面试经验指出，该流程存在根本性缺陷。面试结果极不可靠，面试官意见高度不一致，且评分无法有效预测候选人实际表现。亚马逊的“Bar Raiser”和谷歌的“Hiring Committee”等补救机制并未从本质上解决问题。作者认为，当前的人才评估方式亟需一场根本性的变革。

大佬观点现象/趋势

02:00

OpenRouter：Announcements（RSS）

精选63

OpenRouter融合预算模型性能超越GPT-5.5与Claude Opus 4.7

一组预算模型通过OpenRouter平台进行模型融合，在包含100个复杂研究任务的评估中，得分超过了GPT-5.5与Claude Opus 4.7。

产品更新推理评测/基准

推荐理由：用一组便宜模型通过OpenRouter融合就能干翻GPT-5.5和Claude Opus 4.7，如果数据真实，这对推理成本的冲击太大了。不过只有100个任务，测试范围窄，先别急着冲。

01:38

Google Blog：AI（RSS）

精选74

Gemini Omni 与 Gemini 3.5 的 11 个实战展示

Google 在 2026 年 Google I/O 大会上发布了新一代多模态模型 Gemini Omni 与 Gemini 3.5，并同步提供了 11 个视频，集中演示了这两款模型在实际场景中的能力。

Google多模态模型发布视频

关联讨论 4 条

推荐理由：Google 官方放出的这组视频演示，直接展示了 Gemini Omni 和 3.5 的实际表现，比参数和 benchmark 更直观，做多模态应用的可以逐帧研究。

01:07

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选56

可信第三方评估的共享操作手册

OpenAI 发布了一份关于第三方 AI 评估的指导框架，内容涵盖如何评估前沿系统的能力、安全防护措施及评估本身的有效性。

OpenAI安全/对齐教程/实践评测/基准

推荐理由：OpenAI 首次把模型评估的方法论打包共享，这份指南是给第三方评估者的操作手册，比零散的论文更落地，做评测的团队可以直接抄作业。

00:33

Tomer Tunguz 博客（VC 分析）

精选65

技能提炼

“技能提炼”是一种知识转移方法，由前沿大模型（如 Opus 4.7、GPT-5.1、Gemini 3 Pro）负责撰写并优化标准化的 SKILL.md 流程文件。然后，本地运行的小模型（如 Qwen 35B、Gemma 26B）直接执行这些文件。此过程不同于压缩模型权重的知识蒸馏、训练权重的指令微调或检索事实的 RAG，其核心是提取并转移操作流程，让小模型按步骤执行，从而形成前沿模型作教师、小模型作执行者的循环。

智能体MCP/工具大佬观点

推荐理由：Tomer 把个人代理的完整工作流摆了出来，用大模型写 skill 小模型执行，这条蒸馏思路比调 prompt 高级，想认真跑本地代理的人该盯一下。

00:07

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选56

波士顿儿童医院利用AI解锁新诊断

波士顿儿童医院通过部署OpenAI技术，用于改善患者护理并减轻运营负担，成功帮助诊断了超过40种罕见病病例。

OpenAI行业动态

推荐理由：波士顿儿童医院用 OpenAI 揪出了 40 多个罕见病，这种 AI 辅助诊断的案例正在从概念验证转向真实落地，医疗 AI 的进度条往前拖了一小格。

5月29日

23:13

Qwen：Blog Retrieval（API）

精选65

Qwen-VLA：从理解世界到付诸行动

通义千问推出通用视觉-语言-动作模型Qwen-VLA，基于Qwen多模态骨干，将视觉感知、语言理解与空间推理扩展至连续动作生成和轨迹预测。训练分四阶段：文本到动作预训练（T2A）、持续预训练（CPT）、监督微调（SFT）和强化学习（RL）。在LIBERO上达97.9%，Simpler-WidowX达73.7%，RoboTwin-Easy/Hard达86.1%/87.2%，匹配或超越专精模型。数据涵盖超10,000小时公共机器人轨迹、1,000+小时内部真实轨迹及800万+合成仿真轨迹。

具身智能多模态模型发布

推荐理由：一条模型同时搞定机械臂操控、视觉导航、跨形态控制，在LIBERO上97.9%，比专用模型还高，虽然离AGI尚远，但“从看懂世界到动手干活”这一步迈得比想象中大。

22:53

公众号：通义实验室（千问）

精选61

Qwen-VLA：迈向通用具身智能的统一动作框架

通义实验室提出Qwen-VLA，以Qwen3.5-4B视觉语言主干与1.15B参数DiT动作解码器构建统一视觉-语言-动作模型。通过文本到动作DiT预训练和本体感知提示，将操作、导航与轨迹预测统一在同一框架下，支持11种机器人平台。在5个仿真基准中，单一通用模型在3个上超越最佳专用模型；ALOHA真机in-domain成功率83.6%，OOD泛化76.9%，分别超越π₀.₅超35和40个百分点；DOMINO动态操作零样本达26.6%；VLN-CE导航R2R和RxR分别达57.5%和59.6%，均超越专用模型。

具身智能模型发布

推荐理由：通义把操作、导航和轨迹预测塞进一个脑子，在11种机器人上通用，这是具身智能从'专家'走向'通才'的关键一步，做机器人的值得翻翻论文。

21:41

公众号：可灵AI（快手·视频）

可灵AI联动多所高校开启AI创作实践，诚征作品共赴创意之约

可灵AI启动高校AI创作实践活动，面向多所高校征集作品，诚征创作者共赴创意之约。

行业动态视频

20:08

Google Blog：AI（RSS）

滑铁卢大学未来实验室展示AI原型

滑铁卢大学未来实验室的学生开发了用于重塑教育和工作未来的AI原型，其中包括手语辅导工具。

Google行业动态

20:00

OpenRouter：Announcements（RSS）

精选63

OpenRouter 推出 Guardrails：保护你的 AI 智能体、数据与成本

OpenRouter 发布 Guardrails 可配置安全与治理工具，支持预算执行、零数据保留、模型和提供商限制、提示词注入防御以及数据丢失防护，帮助用户保护 AI 智能体、数据与成本。

智能体产品更新安全/对齐

推荐理由：OpenRouter 这一套护栏对经常拼 agent 的开发者很实用，预算封顶、防注入、零留存都直接解决生产环境的痛点，接入门槛也低。

20:00

OpenRouter：Announcements（RSS）

精选56

OpenRouter Guardrails 发布：可配置安全与治理工具，保护 AI 智能体、数据与成本

OpenRouter 推出 Guardrails，一套可配置的安全与治理工具，支持预算执行、零数据保留、模型与提供商限制、提示词注入防御及数据丢失防护等策略，用于保护 AI 智能体、数据和成本。

智能体产品更新安全/对齐

推荐理由：这波更新给Agent加了安全带，预算控制和数据保留策略是刚需，如果你的产品依赖OpenRouter，别等收到天价账单才去配。

19:30

Hugging Face：Blog（RSS）

精选71

PyTorch 性能分析系列（一）：torch.profiler 入门指南

本文是 PyTorch profiling 系列的开篇，从最简单的矩阵乘法加偏置操作出发，逐步讲解如何使用 `torch.profiler` 进行性能分析。涵盖 profiler 设置、导出统计表格与 Chrome trace、解读 CPU 和 GPU 活动的时序关系，以及 `torch.compile` 对底层 CUDA kernel 调用链的影响。实验基于 NVIDIA A100-SXM4-80GB GPU 运行，面向基本掌握 PyTorch 但缺乏 profiling 经验的读者。

Hugging Face教程/实践部署/工程

推荐理由：PyTorch profiling 的陡峭学习曲线劝退了很多人，这篇用从零开始的方式把 trace 拆解得明明白白，想做性能优化的同学该收藏。

18:50

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选58

用 Rosalind Biodefense 增强社会韧性

OpenAI 推出 Rosalind Biodefense，为通过审核的开发者和美国政府伙伴提供 GPT-Rosalind 的可信访问，以推动前沿 AI 在生物防御、公共卫生和大流行病准备方面的应用。

OpenAI产品更新

关联讨论 3 条

推荐理由：又一个OpenAI限定合作伙伴的产品发布，GPT-Rosalind聚焦生物防御，普通开发者暂时用不上，但给前沿AI在公共健康领域的落地开了扇窗。

17:44

公众号：通义实验室（千问）

精选64

通义实验室发布教程：在 Android 手机部署 MCP 感知服务器

通义实验室发布教程，演示如何在 Android 手机上部署 MCP 感知服务器，使手机具备本地视觉与听觉分析能力。核心基于端侧 MNN 推理引擎和 Qwen3-VL 2B 模型（约 1.3GB），摄像头与麦克风采集的音视频在本地实时转化为结构化 JSON，再通过 MCP Tool 供 Claude Code 等云端 Agent 远程调用。整个过程不上传原始数据，仅传输语义提取结果。项目已开源，实测可识别红绿灯状态等场景。

MCP/工具多模态教程/实践端侧

推荐理由：如果你做Agent总觉得AI对物理世界是瞎子，这篇教程就是解药。把Qwen3-VL塞进手机当本地眼睛，不传原始视频只给结构化文字，隐私友好又能被Claude直接调用。