Learning to Explore：通过探索感知策略优化扩展智能体推理能力

2026-05-12 08:00·33天前

精选理由

让 Agent 拥有了「感知自己不知道什么」的能力，只在信息不足时才探索，而不是盲目试错，是 Agent 训练方法的一个重要转向，做强化学习或 Agent 的值得认真看下。

AI 摘要

研究提出了一种探索感知的强化学习框架，使LLM智能体能够在不确定性高时才进行自适应探索。该方法通过变分推理设计了细粒度奖励函数，评估探索性行动对改善未来决策的潜力，并引入探索感知分组机制，在优化过程中将探索行动与任务完成行动分离。实验表明，该方法在一系列基于文本和GUI的智能体基准测试中取得了持续的性能提升。相关代码与模型已在GitHub和HuggingFace平台开源。

该来源未收录可展示正文，站内仅提供摘要。

智能体arXiv推理论文/研究

HuggingFace Daily Papers（社区热门论文）

精选70

Learning to Explore：通过探索感知策略优化扩展智能体推理能力

2026-05-12 08:00·33天前

精选理由

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文arxiv.org

智能体arXiv推理论文/研究

Learning to Explore： 通过探索感知策略优化扩展智能体推理能力

Learning to Explore： 通过探索感知策略优化扩展智能体推理能力

Learning to Explore：通过探索感知策略优化扩展智能体推理能力

Learning to Explore：通过探索感知策略优化扩展智能体推理能力