HuggingFace Daily Papers(社区热门论文)
50
CODS 2025 AssetOpsBench挑战赛结果与回顾分析
AI 摘要
本研究对CODS 2025多智能体编排挑战赛进行了回顾分析。公开规划排行榜在72.73%准确率处饱和,隐藏评估则显著改变了结论:规划任务中公开与私有分数呈中度相关(0.69),而执行任务中呈负相关(-0.13),部分系统分数从45.45%提升至63.64%。官方评分中特定术语影响微弱,调整权重将改变前两名排序。竞赛注册队伍虽多,但仅24支获得有效公开分数,其中超半数为团队协作。成功的执行方法主要集中于改进响应选择、污染清理等护栏机制,而非创新智能体架构。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org