HuggingFace Daily Papers（社区热门论文）

Flash-WAM：面向世界动作模型的模态感知蒸馏

2026-06-03 08:00·12天前

AI 摘要

世界动作模型（WAMs）通过迭代扩散联合生成未来视频与机器人动作，但数十步去噪成本阻碍实时控制。Flash-WAM 提出模态感知步蒸馏：为动作流低噪声区采用线性梯度缩放参数化，为视频流高噪声区采用方差保持参数化，将推理压缩至单步。在 LingBot-VA 上实例化后，RoboTwin 2.0 每块延迟从 8.1 秒降至 348 ms（NVIDIA L40S），23 倍加速。仿真基准成功率保持（RoboTwin 2.0 85.5%，LIBERO 95.7%），真实世界 Unitree G1 人形机器人平均 60%，而朴素一致性蒸馏仅 24%。

该来源未收录可展示正文，站内仅提供摘要。

具身智能推理论文/研究部署/工程

阅读原文

HuggingFace Daily Papers（社区热门论文）

Flash-WAM：面向世界动作模型的模态感知蒸馏

2026-06-03 08:00·12天前

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文arxiv.org

具身智能推理论文/研究部署/工程