HuggingFace Daily Papers（社区热门论文）

CODS 2025 AssetOpsBench挑战赛结果与回顾分析

2026-05-08 08:00·37天前

AI 摘要

本研究对CODS 2025多智能体编排挑战赛进行了回顾分析。公开规划排行榜在72.73%准确率处饱和，隐藏评估则显著改变了结论：规划任务中公开与私有分数呈中度相关（0.69），而执行任务中呈负相关（-0.13），部分系统分数从45.45%提升至63.64%。官方评分中特定术语影响微弱，调整权重将改变前两名排序。竞赛注册队伍虽多，但仅24支获得有效公开分数，其中超半数为团队协作。成功的执行方法主要集中于改进响应选择、污染清理等护栏机制，而非创新智能体架构。

该来源未收录可展示正文，站内仅提供摘要。

智能体论文/研究评测/基准

阅读原文

HuggingFace Daily Papers（社区热门论文）

CODS 2025 AssetOpsBench挑战赛结果与回顾分析

2026-05-08 08:00·37天前

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文arxiv.org

智能体论文/研究评测/基准