HuggingFace Daily Papers(社区热门论文)
61
DistIL:基于分布化DAgger的丰富反馈强化学习方法
AI 摘要
现有RLVR仅用单比特反馈判断答案正误,忽略执行轨迹、工具输出等丰富信息。DistIL通过分布化DAgger算法,使学习器局部访问当前策略下状态的专家分布,优化前向交叉熵目标实现序列级信用分配。理论证明前向交叉熵保证单调策略改进和遗憾界,而反向KL或JS散度的自我蒸馏无法做到。DistIL在科学推理、编程和硬数学问题等领域优于RLVR和自我蒸馏基线,并提升Pass@N。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org