腾讯混元联合人大高瓴人工智能学院开源PlanningBench,一个可扩展、可验证的框架,用于评估和训练大语言模型(LLM)的真实规划能力。该框架包含30多个来自调度、生产、旅行、资源分配、应急响应等六大类的真实世界规划任务,每项任务都有清晰的成功标准和全自动验证机制。用户既可用它评测当前最强模型在规划上的短板,也可直接用于微调,让模型从“会说”进化到“会干”。论文、代码和数据集已全部在GitHub和Hugging Face开源。
大模型都不再卷推理,都开始卷规划能力!
腾讯混元联合人大高瓴人工智能学院直接开源了PlanningBench,一个专门测、训LLM真实规划能力的框架。
里面塞了30多个来自真实世界的规划任务,覆盖调度、生产、旅行、资源分配、应急响应等六大类,每一个都有清晰的成功标准和全自动验证机制。
你既可以用它测出当前最强模型到底在规划上有多拉胯,也能直接拿来继续微调,让模型从"会说"真正进化到"会干"。
以前整个行业都在卷参数、卷上下文、卷工具调用,好像规划能力是自然就会长出来的。
现在PlanningBench用30多个可验证任务直接把真相摊开:规划才是agent从玩具走向生产力的真正分水岭。
腾讯这次把论文、代码、数据集全甩到GitHub和Hugging Face,等于把这个最难、最核心的能力从黑盒拉到了公开赛道。