HuggingFace Daily Papers(社区热门论文)
49
中训练阶段使用自生成数据提升语言模型强化学习效果
AI 摘要
本文研究在中训练阶段引入自生成多样化数据对强化学习(RL)的增益。该方法基于波利亚解题策略,为每个问题生成多种正确答案变体并微调。理论分析表明,这种训练方式能通过策略梯度更新激励模型融合不同推理路径。实验验证,经此中训练初始化后再进行RL的模型,在数学推理、代码生成及叙事推理等任务上均取得稳定性能提升。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org