HuggingFace Daily Papers(社区热门论文)
61
SePO:自演化提示智能体用于系统提示优化
AI 摘要
SePO提出自指设计,单个提示智能体同时优化任务智能体及自身的系统提示,通过开放式演化搜索维护候选提示档案。训练分两阶段:预训练(多任务池演化)与微调(目标任务)。在数学(AIME'25)、抽象推理(ARC-AGI-1)、研究生科学(GPQA)、代码生成(MBPP)和数独五个基准上,SePO一致超越Manual-CoT、TextGrad和MetaSPO,平均准确率较Manual-CoT提升4.49个百分点。预训练习得的提示优化技能可泛化至未见任务。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org