HuggingFace Daily Papers(社区热门论文)
55
Skill1:通过强化学习实现技能增强智能体的协同进化
AI 摘要
Skill1 是一个统一训练单一策略的框架,旨在协同进化技能选择、使用与提炼三项能力,以共同优化任务完成目标。该策略通过查询技能库、重排序候选技能、在选定技能条件下执行任务,并从轨迹中提炼新技能。所有学习仅源于单一的任务结果反馈信号:其低频趋势为技能选择提供反馈,高频变化则指导技能提炼。在 ALFWorld 和 WebShop 环境上的实验表明,Skill1 超越了现有基于技能的方法和强化学习基线。训练动态证实了三项能力的协同进化,消融实验显示移除任一反馈信号都会损害整体进化效果。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org