HuggingFace Daily Papers(社区热门论文)
55
WildClawBench:面向真实世界长周期智能体评估的基准
AI 摘要
WildClawBench是一个原生运行环境基准,包含60项人工编写的双语多模态任务,涵盖六大主题。任务平均耗时约8分钟,涉及超20次工具调用,并在可复现的Docker容器中运行真实的CLI智能体框架与工具。评估采用混合评分,结合规则检查、环境状态审计和LLM/VLM语义评判。在19个前沿模型中,表现最佳的Claude Opus 4.7在OpenClaw框架下总体得分仅62.2%,其余均低于60%,且仅更换框架就可使同一模型得分波动高达18分。结果表明,当前模型在长周期、原生环境的智能体任务上仍面临巨大挑战。研究已公开任务、代码及容器化工具以支持复现。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org