HuggingFace Daily Papers(社区热门论文)
64
基于量规的在线策略蒸馏
AI 摘要
针对在线策略蒸馏依赖教师模型逻辑概率、局限于白盒场景的问题,本研究提出了ROPD框架。该方法利用结构化语义量规替代教师逻辑概率,仅需教师生成的响应即可工作,实现了黑盒兼容。ROPD通过对比师生响应差异,自动生成针对特定提示的量规,并据此对学生模型输出进行评分与在线策略优化。实验证明,该方法在多数场景下超越了先进的基于逻辑概率的在线策略蒸馏方法,样本效率最高可提升10倍,为在专有与开源大模型间进行可扩展的蒸馏提供了一个灵活且强大的基线方案。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org