一项新研究证明,一个通过强化学习训练的7B语言模型能够有效指挥GPT-5、Claude Sonnet 4和Gemini 2.5 Pro等前沿大模型。该模型通过编写自然语言子任务、分配给不同大模型执行,并精确指定上下文信息,在GPQA Diamond、LiveCodeBench和AIME25等硬核基准测试中,其性能全面超越了单个前沿模型。该系统平均每个问题仅需调用约三次大模型,比手动设计的多代理流程更高效。该工作提供了关键证据,表明目前商业AI产品中依赖人工的提示工程和流程设计,完全可以仅通过奖励信号进行端到端学习。这揭示了AI发展的新方向:智能的差距可能不在于模型规模,而在于协调与指挥的能力。
小块有大智慧?这下真成真了!
7B小模型现在直接当上了GPT-5、Claude Sonnet 4、Gemini 2.5 Pro这些顶级大模型的老板。
一篇最新论文里,一个用强化学习训练的7B模型学会了写自然语言子任务、分配给不同大模型、精确指定上下文,最后在GPQA Diamond、LiveCodeBench、AIME25等硬核基准上全面超过单个前沿模型,而且平均每个问题只调用三次大模型,比手动设计的多代理系统还高效。
最狠的是:它证明了目前商业AI产品里那些靠人工手调的prompt engineering和pipeline设计,完全可以通过奖励信号端到端学会。
以前大家觉得智能拼的是模型大小,现在看来,真正拉开差距的是"谁更会指挥"。
这才是AI下一阶段最被低估的真相。