HuggingFace Daily Papers（社区热门论文）

HölderPO：一种基于Hölder均值的政策优化框架

2026-05-12 08:00·33天前

AI 摘要

针对Group Relative Policy Optimisation (GRPO)中固定聚合机制导致的训练崩溃问题，本文提出HölderPO框架。该框架利用Hölder均值统一token级概率聚合，通过参数p连续控制梯度集中与方差界限。理论分析表明，较大的p集中梯度以增强稀疏信号，较小的p则限制方差。为克服静态配置的局限，我们设计了动态退火算法，在训练中自适应调整p。实验显示，HölderPO在多个数学基准测试中平均准确率达54.9%，相对GRPO提升7.2%，并在ALFWorld任务中实现93.8%的成功率，显著提高了稳定性和收敛性。

该来源未收录可展示正文，站内仅提供摘要。

推理数据/训练论文/研究

阅读原文

HuggingFace Daily Papers（社区热门论文）

HölderPO：一种基于Hölder均值的政策优化框架

2026-05-12 08:00·33天前

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文arxiv.org

推理数据/训练论文/研究