HuggingFace Daily Papers(社区热门论文)
50
基于点互信息的推理强化学习反自蒸馏方法
AI 摘要
研究发现现有自蒸馏方法在数学推理中效果不稳定,其根源在于“特权上下文”会过度强化解中已确定的结构化信息,同时削弱驱动多步推理的“思考性词元”权重。为此,本文提出反自蒸馏方法(AntiSD),通过反转优化方向,使学生模型主动远离教师分布,并结合熵触发门控机制,形成即插即用的改进方案。实验表明,在4B至30B参数模型上,AntiSD仅需更少训练步骤即可达到GRPO基线准确度,最终性能提升最高达11.5个百分点,为语言模型利用自身训练信号实现推理能力规模化提升提供了可行路径。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org