PlanningBench：腾讯混元与人大高瓴开源LLM规划能力评测框架

Berryxia.AI@berryxia

2026-06-05 19:58·9天前

AI 摘要

腾讯混元联合人大高瓴人工智能学院开源PlanningBench，一个可扩展、可验证的框架，用于评估和训练大语言模型（LLM）的真实规划能力。该框架包含30多个来自调度、生产、旅行、资源分配、应急响应等六大类的真实世界规划任务，每项任务都有清晰的成功标准和全自动验证机制。用户既可用它评测当前最强模型在规划上的短板，也可直接用于微调，让模型从“会说”进化到“会干”。论文、代码和数据集已全部在GitHub和Hugging Face开源。

大模型都不再卷推理，都开始卷规划能力！

腾讯混元联合人大高瓴人工智能学院直接开源了PlanningBench，一个专门测、训LLM真实规划能力的框架。

里面塞了30多个来自真实世界的规划任务，覆盖调度、生产、旅行、资源分配、应急响应等六大类，每一个都有清晰的成功标准和全自动验证机制。

你既可以用它测出当前最强模型到底在规划上有多拉胯，也能直接拿来继续微调，让模型从"会说"真正进化到"会干"。

以前整个行业都在卷参数、卷上下文、卷工具调用，好像规划能力是自然就会长出来的。

现在PlanningBench用30多个可验证任务直接把真相摊开：规划才是agent从玩具走向生产力的真正分水岭。

腾讯这次把论文、代码、数据集全甩到GitHub和Hugging Face，等于把这个最难、最核心的能力从黑盒拉到了公开赛道。

Tencent HyPlanning is where LLMs move from "saying" to "doing." Tencent Hy, in collaboration with the Gaoling School of Artificial Intelligence at Renmin University of Ch...

智能体论文/研究评测/基准

在 X 查看原推

Berryxia.AI@berryxia · X