HuggingFace Daily Papers（社区热门论文）

基于控制变量基线的大语言模型在线蒸馏稳定化方法

2026-05-08 08:00·37天前

AI 摘要

针对在线蒸馏训练中单样本蒙特卡洛估计器方差高导致不稳定的问题，本研究提出vOPD方法。该方法将在线蒸馏构建为策略梯度强化学习问题，并引入一个控制变量基线（即价值函数）来稳定训练。该价值函数具有闭式解，即学生与教师模型间的逐令牌反向KL散度，无需额外计算。通过减去该基线，vOPD在保持梯度无偏的同时显著降低了方差。实验表明，在数学与科学推理任务上，vOPD性能持续优于原始在线蒸馏，并能匹配计算成本更高的全词表基线方法，实现了高效且稳定的训练。

该来源未收录可展示正文，站内仅提供摘要。

arXiv推理数据/训练论文/研究

阅读原文

HuggingFace Daily Papers（社区热门论文）

基于控制变量基线的大语言模型在线蒸馏稳定化方法

2026-05-08 08:00·37天前

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文arxiv.org

arXiv推理数据/训练论文/研究