HuggingFace Daily Papers(社区热门论文)
56
近确定性结构化输出在策略蒸馏中的外推悬崖
AI 摘要
策略蒸馏(OPD)广泛用于大语言模型后训练。当奖励外推系数λ>1时,学生模型能在特定领域超越教师模型,但超过阈值λ*会违反结构化输出任务的格式契约。研究在伯努利简化中推导出闭式阈值λ*(p,b,c),由教师模态概率、预热启动质量和重要性采样裁剪强度决定。超过λ*,外推固定点退出裁剪安全区域,训练从格式保持转变为格式崩溃。在亚马逊时尚数据集上,三项预先注册测试(细网格悬崖区间、预算扩展测试和小裁剪交叉预测)均落在预测区间内。将λ控制在略低于λ*,1.7B参数的Qwen3学生模型能达到8B参数SFT基线的领域内性能,参数量仅为五分之一。性能提升主要源于格式遵循:解析输出的NDCG@1指标在λ变化时保持平稳,而解析有效性在预测边界处发生剧变。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org