HuggingFace Daily Papers(社区热门论文)
48
HölderPO:一种基于Hölder均值的政策优化框架
AI 摘要
针对Group Relative Policy Optimisation (GRPO)中固定聚合机制导致的训练崩溃问题,本文提出HölderPO框架。该框架利用Hölder均值统一token级概率聚合,通过参数p连续控制梯度集中与方差界限。理论分析表明,较大的p集中梯度以增强稀疏信号,较小的p则限制方差。为克服静态配置的局限,我们设计了动态退火算法,在训练中自适应调整p。实验显示,HölderPO在多个数学基准测试中平均准确率达54.9%,相对GRPO提升7.2%,并在ALFWorld任务中实现93.8%的成功率,显著提高了稳定性和收敛性。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org