HuggingFace Daily Papers（社区热门论文）

强化学习中流策略的测试时梯度引导

2026-06-09 08:00·6天前

AI 摘要

QGF（Q-Guided Flow）是一种完全在测试时执行策略优化的强化学习算法。它先通过标准行为克隆预训练参考流策略和价值函数批评家，然后在测试时利用价值梯度引导参考策略生成更高价值的动作。在单任务和目标条件离线RL基准测试中，QGF优于先前的测试时强化学习方法，与最先进的训练时算法性能相当但运行成本更低，且通过避免演员-评论家训练的不稳定性展现了良好的模型规模扩展性。

该来源未收录可展示正文，站内仅提供摘要。

具身智能论文/研究

阅读原文

HuggingFace Daily Papers（社区热门论文）

强化学习中流策略的测试时梯度引导

2026-06-09 08:00·6天前

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文arxiv.org

具身智能论文/研究