HuggingFace Daily Papers(社区热门论文)
51
自动化智能体评估的实证研究
AI 摘要
研究发现,直接使用前沿代码助手(如GPT、Claude)进行智能体评估效果不佳,其执行成功率仅为30%,且生成的评估指标平均超过12项,过于复杂。为此,研究者提出了EvalAgent,它能将评估领域知识编码为可组合的“评估技能”,自动化生成包含指标、可执行代码和报告的完整评估成果。通过新构建的AgentEvalBench基准和衡量首次运行成功率的Eval@1指标进行评估,EvalAgent将Eval@1从基线方法的17.5%大幅提升至65%,并获得了79.5%的人类专家偏好。消融研究证实评估技能至关重要,移除后Eval@1会从65%骤降至30%。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org