HuggingFace Daily Papers（社区热门论文）

自动化智能体评估的实证研究

2026-05-12 08:00·33天前

AI 摘要

研究发现，直接使用前沿代码助手（如GPT、Claude）进行智能体评估效果不佳，其执行成功率仅为30%，且生成的评估指标平均超过12项，过于复杂。为此，研究者提出了EvalAgent，它能将评估领域知识编码为可组合的“评估技能”，自动化生成包含指标、可执行代码和报告的完整评估成果。通过新构建的AgentEvalBench基准和衡量首次运行成功率的Eval@1指标进行评估，EvalAgent将Eval@1从基线方法的17.5%大幅提升至65%，并获得了79.5%的人类专家偏好。消融研究证实评估技能至关重要，移除后Eval@1会从65%骤降至30%。

该来源未收录可展示正文，站内仅提供摘要。

智能体arXiv论文/研究评测/基准

阅读原文

HuggingFace Daily Papers（社区热门论文）

自动化智能体评估的实证研究

2026-05-12 08:00·33天前

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文arxiv.org

智能体arXiv论文/研究评测/基准