这是第一个真正把子二次方注意力用到前沿模型上的突破,12M 上下文窗口不再只是参数,而是能用起来的真窗口,长上下文场景的成本逻辑要重写了。
前沿模型SubQ基于创新的Subquadratic Sparse Attention架构,实现了1200万token的实用上下文窗口。其核心技术SSA通过内容依赖的选择机制,让每个查询仅动态计算与相关键的注意力,使计算和内存成本随序列长度线性增长,而非传统Transformer的二次方增长。实测在100万token时比FlashAttention-2快52.2倍,成本低于Opus的5%。该模型针对需要一次性处理完整代码库、长文档等企业真实长上下文场景优化,旨在弥合“名义上下文”与“功能上下文”窗口的差距。
全球首个基于 Subquadratic Sparse Attention (SSA) 架构的前沿 LLM ~「SubQ」,实现 12M token 的实用上下文窗口,同时在效率上大幅领先传统 Transformer,来自 @subquadratic
技术核心突破:SSA 机制 传统 Transformer 的标准注意力是全对全(all-pairs),计算复杂度为 O(n2),导致长上下文成本爆炸。大多数 token 间的交互实际无意义,却仍需全量计算。
SSA 的创新在于内容依赖的选择(content-dependent selection): · 每个 query 只动态挑选真正相关的 key 位置进行注意力计算。 · 实现线性缩放(linear scaling):计算与内存成本随序列长度线性增长,而非二次方。 · 同时保留内容驱动路由与任意位置精确检索能力,避免了固定模式稀疏注意力(位置无关)、RNN/SSM(状态压缩丢失细节)或 DeepSeek DSA(selector 仍为二次方)等方案的权衡。
实测效果(B200 GPU + FlashAttention-2 对比): · 128K token:7.2× 预填充加速 · 1M token:52.2× 加速 · 成本 < Opus 的 5%,支持 12M token 上下文。
训练与功能定位 SubQ 采用三阶段训练(预训练 → SFT → RL),特别强化长上下文下的可靠检索与多跳推理,针对企业真实场景(如完整代码库、长合同、跨文档研究)优化,而非仅追求基准分。
功能定位:解决"名义上下文窗口"(能塞多少 token) vs "功能上下文窗口"(能有效利用多少 token)的鸿沟。适用于 Coding Agent、长期 Agent 会话、企业知识库等需要"一次性看全"而非 RAG/分块的场景。
SubQ Code 也可以申请试用,我也刚刚申请,期待通过后再做具体分享。申请链接在这: https://subq.ai/request-early-access