Qwen-VLA：统一跨任务、环境与机器人形态的视觉-语言-动作建模

2026-05-28 08:00·18天前

精选理由

Qwen-VLA 让一个模型同时搞定操作、导航和轨迹，在具身智能统一化上迈出了关键一步。虽然还停在实验室阶段，但 97.9% LIBERO 和真实世界泛化结果证明这条路走得通，做机器人的值得认真读。

AI 摘要

Qwen-VLA是一个统一的具身基础模型，将Qwen的视觉-语言建模从感知、理解与推理扩展至连续动作和轨迹生成。它通过基于DiT的动作解码器实现，使用包含机器人操作轨迹、人类第一人称示范、仿真及导航数据等在内的大规模数据进行联合预训练。为支持多种平台，引入了感知载体感知的提示条件机制，并将操作、导航与轨迹预测统一到一个框架中。实验显示，Qwen-VLA-Instruct在多个基准上表现优异，例如在LIBERO达到97.9%，在真实世界ALOHA实验中平均分布外成功率为76.9%。

该来源未收录可展示正文，站内仅提供摘要。

具身智能多模态论文/研究

HuggingFace Daily Papers（社区热门论文）

精选70

Qwen-VLA：统一跨任务、环境与机器人形态的视觉-语言-动作建模

2026-05-28 08:00·18天前

精选理由

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文arxiv.org

具身智能多模态论文/研究