PawBench：给通用智能体一把可度量的尺

2026-06-05 17:54·10天前·通义实验室

精选理由

PawBench 把 Harness 从‘看不见的手’变成可诊断的变量，好 Harness 能让弱模型以下克上，这份评测对 Agent 框架开发者是一份必读的校验清单。

AI 摘要

通义实验室推出全新评测基准PawBench v1.0，面向个人助理与通用智能体场景，将底座模型与运行框架Harness纳入同一体系进行交叉评测。评测矩阵包含9个模型与3个Harness（Hermes、OpenClaw、QwenPaw），覆盖150道真实任务共4050个测试单元。结果显示，QwenPaw（76.4分）、OpenClaw（75.4分）、Hermes（70.4分）之间存在显著分差，Harness环境对表现的影响甚至大于模型本身。PawBench还通过切片分析揭示了Harness在产物校验、Skill主动发现和Web搜索默认可用性等方面的关键差距。项目已开源。

公众号正文需在微信内阅读，站内仅提供摘要。

智能体MCP/工具评测/基准

公众号：通义实验室（千问）

精选70

PawBench：给通用智能体一把可度量的尺

2026-06-05 17:54·10天前·通义实验室

精选理由

PawBench 把 Harness 从‘看不见的手’变成可诊断的变量，好 Harness 能让弱模型以下克上，这份评测对 Agent 框架开发者是一份必读的校验清单。

AI 摘要

公众号正文需在微信内阅读，站内仅提供摘要。

在微信中打开原文mp.weixin.qq.com

智能体MCP/工具评测/基准