HuggingFace Daily Papers(社区热门论文)
54
AEM:面向多轮智能体强化学习的自适应熵调制方法
AI 摘要
针对多轮任务中稀疏奖励导致的信用分配难题,本研究提出无监督方法AEM。它将熵动态分析从令牌级提升至响应级,以对齐LLM智能体的动作粒度并降低令牌采样噪声的敏感性。该方法推导出响应级不确定性代理,并利用其重新缩放优势函数,通过正负样本的动态平衡实现从探索到利用的自然过渡。在ALFWorld等多个基准上的实验表明,AEM能持续提升多种强RL基线性能,集成至先进软件工程训练框架时可实现+1.4%的性能增益。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org