Learning Agentic Policy from Action Guidance

2026-05-12 08:00·33天前

精选理由

Agent RL长期被基础策略的探索能力卡脖子，这篇论文用人类日常交互的动作数据做引导，不用重型SFT就追平现有pipeline，是训练范式层面一次务实创新。

AI 摘要

针对大型语言模型的智能体强化学习提出新方法ActGuide-RL，通过引入日常人类交互产生的海量动作数据作为规划式参考指引，帮助策略克服难以抵达奖励状态的探索障碍。该方法采用最小干预原则，仅在必要时自适应启用指引以匹配任务难度，同时通过混合策略训练将探索收益内化回无指引策略。在搜索智能体基准测试中，ActGuide-RL相比零强化学习基线在GAIA和XBench上分别提升10.7和19个百分点，性能与需要大量监督微调数据的流程相当，为智能体强化学习提供了减少对繁重监督微调依赖的新范式。

该来源未收录可展示正文，站内仅提供摘要。

智能体arXiv推理论文/研究

HuggingFace Daily Papers（社区热门论文）

精选73

Learning Agentic Policy from Action Guidance

2026-05-12 08:00·33天前

精选理由

Agent RL长期被基础策略的探索能力卡脖子，这篇论文用人类日常交互的动作数据做引导，不用重型SFT就追平现有pipeline，是训练范式层面一次务实创新。

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文arxiv.org

智能体arXiv推理论文/研究