近确定性结构化输出在策略蒸馏中的外推悬崖

2026-05-09 08:00·36天前

AI 摘要

策略蒸馏（OPD）广泛用于大语言模型后训练。当奖励外推系数λ>1时，学生模型能在特定领域超越教师模型，但超过阈值λ*会违反结构化输出任务的格式契约。研究在伯努利简化中推导出闭式阈值λ*(p,b,c)，由教师模态概率、预热启动质量和重要性采样裁剪强度决定。超过λ*，外推固定点退出裁剪安全区域，训练从格式保持转变为格式崩溃。在亚马逊时尚数据集上，三项预先注册测试（细网格悬崖区间、预算扩展测试和小裁剪交叉预测）均落在预测区间内。将λ控制在略低于λ*，1.7B参数的Qwen3学生模型能达到8B参数SFT基线的领域内性能，参数量仅为五分之一。性能提升主要源于格式遵循：解析输出的NDCG@1指标在λ变化时保持平稳，而解析有效性在预测边界处发生剧变。

该来源未收录可展示正文，站内仅提供摘要。

数据/训练论文/研究

HuggingFace Daily Papers（社区热门论文）

近确定性结构化输出在策略蒸馏中的外推悬崖

2026-05-09 08:00·36天前

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文arxiv.org

数据/训练论文/研究