针对交互式视频生成世界模型多局限于单一智能体的现状,本文提出了Gamma-World,一个面向交互式模拟的生成式多智能体世界模型。模型设计了Simplex Rotary Agent Encoding,将AI智能体表示为旋转角空间中的正单形顶点,实现无参数扩展的独立可控制性与置换对称性。为降低计算开销,提出Sparse Hub Attention,通过可学习的枢纽token中介跨智能体交互,将注意力复杂度从二次降至线性。此外,通过将全上下文扩散模型蒸馏为因果模型,结合KV缓存实现了24 FPS的实时动作响应式生成。实验表明,该模型在视频保真度、动作可控性与智能体间一致性上优于基线方案,并能从双人场景泛化至四人场景而无需额外训练。