HuggingFace Daily Papers(社区热门论文)
61
A^2TGPO:具有自适应轮次裁剪的智能体轮次组策略优化
AI 摘要
针对智能体大语言模型强化学习中稀疏结果奖励难以评估单轮贡献的问题,A^2TGPO方法优化了信息增益这一内在过程信号的利用。其核心改进包括:采用轮次组归一化,使同深度轮次间可比;通过方差重缩放的折扣累积,保持不同位置优势幅度的可比性;引入自适应轮次裁剪,根据各轮次信息增益动态调整策略更新范围。这些设计旨在更精确地进行过程信用分配,无需依赖外部奖励模型。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org