HuggingFace Daily Papers(社区热门论文)
62
Flow-OPD:面向流匹配模型的在线策略蒸馏框架
AI 摘要
针对流匹配文本到图像模型在多任务对齐中面临的奖励稀疏与梯度干扰问题,本研究提出首个统一后训练框架Flow-OPD。该框架采用两阶段策略:先通过单奖励微调培养领域专家教师模型,再利用基于流匹配的冷启动方案建立初始策略,并通过在线采样、任务路由标注和密集轨迹监督三步整合异构专业知识。引入的流形锚点正则化技术,借助任务无关教师提供全数据监督,有效缓解了纯强化学习对齐常见的美学质量下降。实验表明,Flow-OPD显著提升了多项性能指标,并保持了图像保真度与人类偏好对齐。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org