SEIF：用于指令跟随的自进化强化学习

2026-05-08 08:00·37天前

AI 摘要

指令跟随是大语言模型的基本能力，但持续提升面临挑战。现有方法依赖昂贵的外部监督或静态指令自训练。为此，研究团队提出SEIF框架，通过自进化循环提升指令跟随能力。SEIF包含四个角色：生成难度递增指令的Instructor、过滤低质量指令的Filter、学习跟随指令的Follower，以及提供强化学习奖励信号的Judger。Instructor与Follower交替训练、协同进化，使指令难度与模型能力相互促进。实验显示，SEIF在不同规模和架构的模型上均能稳定提升性能。分析发现，有效训练策略是在早期充分训练以打下基础，后期适度训练以避免过拟合。相关代码与数据已开源。

该来源未收录可展示正文，站内仅提供摘要。

开源/仓库推理数据/训练论文/研究

HuggingFace Daily Papers（社区热门论文）

SEIF：用于指令跟随的自进化强化学习

2026-05-08 08:00·37天前

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文arxiv.org

开源/仓库推理数据/训练论文/研究