PawBench:给通用智能体一把可度量的尺
PawBench 把 Harness 从‘看不见的手’变成可诊断的变量,好 Harness 能让弱模型以下克上,这份评测对 Agent 框架开发者是一份必读的校验清单。
通义实验室推出全新评测基准PawBench v1.0,面向个人助理与通用智能体场景,将底座模型与运行框架Harness纳入同一体系进行交叉评测。评测矩阵包含9个模型与3个Harness(Hermes、OpenClaw、QwenPaw),覆盖150道真实任务共4050个测试单元。结果显示,QwenPaw(76.4分)、OpenClaw(75.4分)、Hermes(70.4分)之间存在显著分差,Harness环境对表现的影响甚至大于模型本身。PawBench还通过切片分析揭示了Harness在产物校验、Skill主动发现和Web搜索默认可用性等方面的关键差距。项目已开源。
公众号正文需在微信内阅读,站内仅提供摘要。
在微信中打开原文mp.weixin.qq.com