HuggingFace Daily Papers(社区热门论文)
精选70
Learning to Explore: 通过探索感知策略优化扩展智能体推理能力
精选理由
让 Agent 拥有了「感知自己不知道什么」的能力,只在信息不足时才探索,而不是盲目试错,是 Agent 训练方法的一个重要转向,做强化学习或 Agent 的值得认真看下。
AI 摘要
研究提出了一种探索感知的强化学习框架,使LLM智能体能够在不确定性高时才进行自适应探索。该方法通过变分推理设计了细粒度奖励函数,评估探索性行动对改善未来决策的潜力,并引入探索感知分组机制,在优化过程中将探索行动与任务完成行动分离。实验表明,该方法在一系列基于文本和GUI的智能体基准测试中取得了持续的性能提升。相关代码与模型已在GitHub和HuggingFace平台开源。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org