OpenRouter 的 dev rel @jjacky 构建了 Royale: Last Agent Stand——一个专门给 AI 智能体玩的大逃杀游戏,让 11 个 LLM 相互竞争并运行了 30 次。结果发现,在零和博弈中过于“友善”的模型输得最惨,而最意想不到的模型赢得了胜利。该实验揭示:模型的“友善”特质在某些任务(如竞争性场景)中可能成为劣势,传统基准测试无法体现这一点。
Can AI models be too nice for a given task?
It turns out, depending on the task, the answer is yes!
Our dev rel @jjacky built Royale: Last Agent Stand, a battle royale game just for agents, and let 11 LLMs go wild: https://x.com/jjacky/status/2064767118118117491?s=20