HuggingFace Daily Papers(社区热门论文)
66
MARBLE:面向扩散模型强化学习的多维度奖励平衡框架
AI 摘要
针对扩散模型基于人类偏好进行强化学习微调时多奖励难以协同优化的问题,研究团队提出MARBLE框架。该框架摒弃了传统加权求和方法,为每个奖励维护独立优势估计器,并通过求解二次规划问题,在梯度空间将各奖励策略梯度协调为单一更新方向,无需手动调整权重。结合摊销化计算与平滑技术,其单步计算成本降至接近单奖励基线水平。实验表明,MARBLE能同时提升所有奖励维度,显著改善最差对齐奖励的优化方向,且训练速度接近基线方法。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org