HuggingFace Daily Papers（社区热门论文）

中训练阶段使用自生成数据提升语言模型强化学习效果

2026-05-08 08:00·37天前

AI 摘要

本文研究在中训练阶段引入自生成多样化数据对强化学习（RL）的增益。该方法基于波利亚解题策略，为每个问题生成多种正确答案变体并微调。理论分析表明，这种训练方式能通过策略梯度更新激励模型融合不同推理路径。实验验证，经此中训练初始化后再进行RL的模型，在数学推理、代码生成及叙事推理等任务上均取得稳定性能提升。

该来源未收录可展示正文，站内仅提供摘要。

推理数据/训练论文/研究

阅读原文

HuggingFace Daily Papers（社区热门论文）

中训练阶段使用自生成数据提升语言模型强化学习效果

2026-05-08 08:00·37天前

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文arxiv.org

推理数据/训练论文/研究