HuggingFace Daily Papers(社区热门论文)
55
自动准则即奖励:从隐式偏好到显式多模态生成准则
AI 摘要
研究提出Auto-Rubric as Reward框架,将多模态模型对齐问题从隐式权重优化转为基于显式准则的分解。该方法先将视觉语言模型内化的偏好知识外化为针对特定提示的结构化评估准则,将整体意图分解为可独立验证的质量维度,有效抑制位置偏差等评估偏见。为实现生成训练,进一步提出Rubric Policy Optimization方法,将多维评估提炼为稳健的二元奖励,用基于准则的偏好决策替代不透明的标量回归以稳定策略梯度。在文生图和图像编辑任务上的实验表明,该框架优于主流奖励模型,证明将隐式偏好显式化为结构化准则能实现更可靠、高效的多模态对齐。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org