HuggingFace Daily Papers(社区热门论文)
精选70
Qwen-VLA:统一跨任务、环境与机器人形态的视觉-语言-动作建模
精选理由
Qwen-VLA 让一个模型同时搞定操作、导航和轨迹,在具身智能统一化上迈出了关键一步。虽然还停在实验室阶段,但 97.9% LIBERO 和真实世界泛化结果证明这条路走得通,做机器人的值得认真读。
AI 摘要
Qwen-VLA是一个统一的具身基础模型,将Qwen的视觉-语言建模从感知、理解与推理扩展至连续动作和轨迹生成。它通过基于DiT的动作解码器实现,使用包含机器人操作轨迹、人类第一人称示范、仿真及导航数据等在内的大规模数据进行联合预训练。为支持多种平台,引入了感知载体感知的提示条件机制,并将操作、导航与轨迹预测统一到一个框架中。实验显示,Qwen-VLA-Instruct在多个基准上表现优异,例如在LIBERO达到97.9%,在真实世界ALOHA实验中平均分布外成功率为76.9%。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org