HuggingFace Daily Papers（社区热门论文）

AR-VLA：视觉语言动作模型的真正自回归动作专家

2026-05-11 08:00·34天前

AI 摘要

本文提出AR-VLA，一种独立的自回归动作专家模型。它通过可刷新的视觉-语言前缀生成连续的动作序列，并维护长期记忆以保持上下文感知，克服了传统模型每次观测都重置时序的局限。该架构解决了快速控制与慢速推理间的频率失配问题，实现了运动学语法的独立预训练，并可与复杂感知网络模块化集成。通过重锚定机制处理感知延迟，实验证明AR-VLA能生成更平滑的动作轨迹，其任务成功率保持或超越现有最优反应式模型，为机器人策略训练提供了可扩展的上下文感知框架。

该来源未收录可展示正文，站内仅提供摘要。

智能体具身智能论文/研究

阅读原文

HuggingFace Daily Papers（社区热门论文）

AR-VLA：视觉语言动作模型的真正自回归动作专家

2026-05-11 08:00·34天前

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文arxiv.org

智能体具身智能论文/研究