HuggingFace Daily Papers(社区热门论文)
60
强化学习中流策略的测试时梯度引导
AI 摘要
QGF(Q-Guided Flow)是一种完全在测试时执行策略优化的强化学习算法。它先通过标准行为克隆预训练参考流策略和价值函数批评家,然后在测试时利用价值梯度引导参考策略生成更高价值的动作。在单任务和目标条件离线RL基准测试中,QGF优于先前的测试时强化学习方法,与最先进的训练时算法性能相当但运行成本更低,且通过避免演员-评论家训练的不稳定性展现了良好的模型规模扩展性。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org