HuggingFace Daily Papers（社区热门论文）

DistIL：基于分布化DAgger的丰富反馈强化学习方法

2026-06-03 08:00·12天前

AI 摘要

现有RLVR仅用单比特反馈判断答案正误，忽略执行轨迹、工具输出等丰富信息。DistIL通过分布化DAgger算法，使学习器局部访问当前策略下状态的专家分布，优化前向交叉熵目标实现序列级信用分配。理论证明前向交叉熵保证单调策略改进和遗憾界，而反向KL或JS散度的自我蒸馏无法做到。DistIL在科学推理、编程和硬数学问题等领域优于RLVR和自我蒸馏基线，并提升Pass@N。

该来源未收录可展示正文，站内仅提供摘要。

arXiv推理数据/训练论文/研究

阅读原文

HuggingFace Daily Papers（社区热门论文）

DistIL：基于分布化DAgger的丰富反馈强化学习方法

2026-06-03 08:00·12天前

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文arxiv.org

arXiv推理数据/训练论文/研究