HuggingFace Daily Papers(社区热门论文)
精选73
Learning Agentic Policy from Action Guidance
精选理由
Agent RL长期被基础策略的探索能力卡脖子,这篇论文用人类日常交互的动作数据做引导,不用重型SFT就追平现有pipeline,是训练范式层面一次务实创新。
AI 摘要
针对大型语言模型的智能体强化学习提出新方法ActGuide-RL,通过引入日常人类交互产生的海量动作数据作为规划式参考指引,帮助策略克服难以抵达奖励状态的探索障碍。该方法采用最小干预原则,仅在必要时自适应启用指引以匹配任务难度,同时通过混合策略训练将探索收益内化回无指引策略。在搜索智能体基准测试中,ActGuide-RL相比零强化学习基线在GAIA和XBench上分别提升10.7和19个百分点,性能与需要大量监督微调数据的流程相当,为智能体强化学习提供了减少对繁重监督微调依赖的新范式。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org