HuggingFace Daily Papers(社区热门论文)
55
大语言模型推理中的自适应教师暴露自我蒸馏方法
AI 摘要
研究发现,在LLM推理的自我蒸馏中,教师模型始终看到完整参考答案会导致师生能力不匹配,使学习目标过强。固定教师暴露程度并非最优,且不匹配性随教师所见信息增加而增长。为此,研究者提出自适应教师暴露方法(ATESD),通过一个轻量级Beta策略控制器,基于训练状态动态采样教师暴露比例,并使用基于未来改进的延迟学习进度奖励来优化控制器。在AIME 24/25和HMMT 25基准测试中,ATESD在Qwen3系列模型上均优于现有自我蒸馏和强化学习方法,取得了显著提升。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org