HuggingFace Daily Papers（社区热门论文）

大语言模型推理中的自适应教师暴露自我蒸馏方法

2026-05-12 08:00·33天前

AI 摘要

研究发现，在LLM推理的自我蒸馏中，教师模型始终看到完整参考答案会导致师生能力不匹配，使学习目标过强。固定教师暴露程度并非最优，且不匹配性随教师所见信息增加而增长。为此，研究者提出自适应教师暴露方法（ATESD），通过一个轻量级Beta策略控制器，基于训练状态动态采样教师暴露比例，并使用基于未来改进的延迟学习进度奖励来优化控制器。在AIME 24/25和HMMT 25基准测试中，ATESD在Qwen3系列模型上均优于现有自我蒸馏和强化学习方法，取得了显著提升。

该来源未收录可展示正文，站内仅提供摘要。

推理数据/训练论文/研究

阅读原文

HuggingFace Daily Papers（社区热门论文）

大语言模型推理中的自适应教师暴露自我蒸馏方法

2026-05-12 08:00·33天前

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文arxiv.org

推理数据/训练论文/研究