HuggingFace Daily Papers（社区热门论文）

AEM：面向多轮智能体强化学习的自适应熵调制方法

2026-05-08 08:00·37天前

AI 摘要

针对多轮任务中稀疏奖励导致的信用分配难题，本研究提出无监督方法AEM。它将熵动态分析从令牌级提升至响应级，以对齐LLM智能体的动作粒度并降低令牌采样噪声的敏感性。该方法推导出响应级不确定性代理，并利用其重新缩放优势函数，通过正负样本的动态平衡实现从探索到利用的自然过渡。在ALFWorld等多个基准上的实验表明，AEM能持续提升多种强RL基线性能，集成至先进软件工程训练框架时可实现+1.4%的性能增益。

该来源未收录可展示正文，站内仅提供摘要。

智能体数据/训练论文/研究

阅读原文

HuggingFace Daily Papers（社区热门论文）

AEM：面向多轮智能体强化学习的自适应熵调制方法

2026-05-08 08:00·37天前

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文arxiv.org

智能体数据/训练论文/研究