HuggingFace Daily Papers(社区热门论文)
49
AR-VLA:视觉语言动作模型的真正自回归动作专家
AI 摘要
本文提出AR-VLA,一种独立的自回归动作专家模型。它通过可刷新的视觉-语言前缀生成连续的动作序列,并维护长期记忆以保持上下文感知,克服了传统模型每次观测都重置时序的局限。该架构解决了快速控制与慢速推理间的频率失配问题,实现了运动学语法的独立预训练,并可与复杂感知网络模块化集成。通过重锚定机制处理感知延迟,实验证明AR-VLA能生成更平滑的动作轨迹,其任务成功率保持或超越现有最优反应式模型,为机器人策略训练提供了可扩展的上下文感知框架。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org