HuggingFace Daily Papers（社区热门论文）

WildClawBench：面向真实世界长周期智能体评估的基准

2026-05-11 08:00·34天前

AI 摘要

WildClawBench是一个原生运行环境基准，包含60项人工编写的双语多模态任务，涵盖六大主题。任务平均耗时约8分钟，涉及超20次工具调用，并在可复现的Docker容器中运行真实的CLI智能体框架与工具。评估采用混合评分，结合规则检查、环境状态审计和LLM/VLM语义评判。在19个前沿模型中，表现最佳的Claude Opus 4.7在OpenClaw框架下总体得分仅62.2%，其余均低于60%，且仅更换框架就可使同一模型得分波动高达18分。结果表明，当前模型在长周期、原生环境的智能体任务上仍面临巨大挑战。研究已公开任务、代码及容器化工具以支持复现。

该来源未收录可展示正文，站内仅提供摘要。

智能体arXiv论文/研究评测/基准

阅读原文

HuggingFace Daily Papers（社区热门论文）

WildClawBench：面向真实世界长周期智能体评估的基准

2026-05-11 08:00·34天前

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文arxiv.org

智能体arXiv论文/研究评测/基准