HuggingFace Daily Papers(社区热门论文)
51
基于残差潜在动作学习视觉特征世界模型
AI 摘要
本研究提出了一种新型的残差潜在动作表示,它能从DINO残差中学习,并具备预测性、泛化性与时序编码能力。基于此构建的RLA世界模型通过流匹配预测未来状态,在仿真与真实数据集上超越了当前最先进的基于特征的方法和视频扩散世界模型,且速度快数个数量级。此外,团队开发了两种利用该世界模型改进机器人策略学习的技术:一是从无动作演示视频中学习的极简世界动作模型;二是首个完全在仅从离线视频学习的世界模型内训练、使用视频对齐奖励且无需在线交互或手工奖励的视觉强化学习框架。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org