HuggingFace Daily Papers(社区热门论文)
51
SEIF:用于指令跟随的自进化强化学习
AI 摘要
指令跟随是大语言模型的基本能力,但持续提升面临挑战。现有方法依赖昂贵的外部监督或静态指令自训练。为此,研究团队提出SEIF框架,通过自进化循环提升指令跟随能力。SEIF包含四个角色:生成难度递增指令的Instructor、过滤低质量指令的Filter、学习跟随指令的Follower,以及提供强化学习奖励信号的Judger。Instructor与Follower交替训练、协同进化,使指令难度与模型能力相互促进。实验显示,SEIF在不同规模和架构的模型上均能稳定提升性能。分析发现,有效训练策略是在早期充分训练以打下基础,后期适度训练以避免过拟合。相关代码与数据已开源。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org