HuggingFace Daily Papers（社区热门论文）

StraTA：通过战略轨迹抽象激励智能体强化学习

2026-05-07 08:00·38天前

AI 摘要

研究提出战略轨迹抽象（StraTA）框架，将显式的轨迹级策略引入智能体强化学习，以优化大语言模型在长时决策中的表现。该方法从初始任务状态采样紧凑策略，使后续动作基于该策略执行，并通过分层GRPO式训练设计联合优化策略生成与动作执行，辅以多样化策略推进与关键自评判机制。在ALFWorld、WebShop和SciWorld上的实验表明，StraTA在样本效率和最终性能上均稳定超越基线模型，在ALFWorld上达到93.1%的成功率，在WebShop上取得84.2%的成功率，在SciWorld上以63.5%的综合得分超越前沿闭源模型。

该来源未收录可展示正文，站内仅提供摘要。

智能体数据/训练论文/研究

阅读原文

HuggingFace Daily Papers（社区热门论文）

StraTA：通过战略轨迹抽象激励智能体强化学习

2026-05-07 08:00·38天前

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文arxiv.org

智能体数据/训练论文/研究