小块有大智慧？这下真成真了！

Berryxia.AI@berryxia

2026-05-11 19:07·33天前

AI 摘要

一项新研究证明，一个通过强化学习训练的7B语言模型能够有效指挥GPT-5、Claude Sonnet 4和Gemini 2.5 Pro等前沿大模型。该模型通过编写自然语言子任务、分配给不同大模型执行，并精确指定上下文信息，在GPQA Diamond、LiveCodeBench和AIME25等硬核基准测试中，其性能全面超越了单个前沿模型。该系统平均每个问题仅需调用约三次大模型，比手动设计的多代理流程更高效。该工作提供了关键证据，表明目前商业AI产品中依赖人工的提示工程和流程设计，完全可以仅通过奖励信号进行端到端学习。这揭示了AI发展的新方向：智能的差距可能不在于模型规模，而在于协调与指挥的能力。

小块有大智慧？这下真成真了！

7B小模型现在直接当上了GPT-5、Claude Sonnet 4、Gemini 2.5 Pro这些顶级大模型的老板。

一篇最新论文里，一个用强化学习训练的7B模型学会了写自然语言子任务、分配给不同大模型、精确指定上下文，最后在GPQA Diamond、LiveCodeBench、AIME25等硬核基准上全面超过单个前沿模型，而且平均每个问题只调用三次大模型，比手动设计的多代理系统还高效。

最狠的是：它证明了目前商业AI产品里那些靠人工手调的prompt engineering和pipeline设计，完全可以通过奖励信号端到端学会。

以前大家觉得智能拼的是模型大小，现在看来，真正拉开差距的是"谁更会指挥"。

这才是AI下一阶段最被低估的真相。

BURKOVIn this paper, a 7B language model trained with reinforcement learning learns to orchestrate larger frontier models like GPT-5, Claude Sonnet 4, and Gemini 2.5 ...

智能体arXivMCP/工具推理

在 X 查看原推

Berryxia.AI@berryxia · X

2026-05-11 19:07·33天前

AI 摘要

小块有大智慧？这下真成真了！

7B小模型现在直接当上了GPT-5、Claude Sonnet 4、Gemini 2.5 Pro这些顶级大模型的老板。

最狠的是：它证明了目前商业AI产品里那些靠人工手调的prompt engineering和pipeline设计，完全可以通过奖励信号端到端学会。

以前大家觉得智能拼的是模型大小，现在看来，真正拉开差距的是"谁更会指挥"。

这才是AI下一阶段最被低估的真相。

BURKOVIn this paper, a 7B language model trained with reinforcement learning learns to orchestrate larger frontier models like GPT-5, Claude Sonnet 4, and Gemini 2.5 ...

智能体arXivMCP/工具推理论文/研究

在 X 查看原推x.com