中训练阶段使用自生成数据提升语言模型强化学习效果 · AI HOT