全球首个基于SSA架构的模型SubQ实现1200万token上下文窗口，效率大幅领先

meng shao@shao__meng

精选77

2026-05-06 09:12·40天前

精选理由

这是第一个真正把子二次方注意力用到前沿模型上的突破，12M 上下文窗口不再只是参数，而是能用起来的真窗口，长上下文场景的成本逻辑要重写了。

AI 摘要

前沿模型SubQ基于创新的Subquadratic Sparse Attention架构，实现了1200万token的实用上下文窗口。其核心技术SSA通过内容依赖的选择机制，让每个查询仅动态计算与相关键的注意力，使计算和内存成本随序列长度线性增长，而非传统Transformer的二次方增长。实测在100万token时比FlashAttention-2快52.2倍，成本低于Opus的5%。该模型针对需要一次性处理完整代码库、长文档等企业真实长上下文场景优化，旨在弥合“名义上下文”与“功能上下文”窗口的差距。

全球首个基于 Subquadratic Sparse Attention （SSA）架构的前沿 LLM ~「SubQ」，实现 12M token 的实用上下文窗口，同时在效率上大幅领先传统 Transformer，来自 @subquadratic

技术核心突破：SSA 机制传统 Transformer 的标准注意力是全对全（all-pairs），计算复杂度为 O（n2），导致长上下文成本爆炸。大多数 token 间的交互实际无意义，却仍需全量计算。

SSA 的创新在于内容依赖的选择（content-dependent selection）： · 每个 query 只动态挑选真正相关的 key 位置进行注意力计算。 · 实现线性缩放（linear scaling）：计算与内存成本随序列长度线性增长，而非二次方。 · 同时保留内容驱动路由与任意位置精确检索能力，避免了固定模式稀疏注意力（位置无关）、RNN/SSM（状态压缩丢失细节）或 DeepSeek DSA（selector 仍为二次方）等方案的权衡。

实测效果（B200 GPU + FlashAttention-2 对比）： · 128K token：7.2× 预填充加速 · 1M token：52.2× 加速 · 成本 < Opus 的 5%，支持 12M token 上下文。

训练与功能定位 SubQ 采用三阶段训练（预训练 → SFT → RL），特别强化长上下文下的可靠检索与多跳推理，针对企业真实场景（如完整代码库、长合同、跨文档研究）优化，而非仅追求基准分。

功能定位：解决"名义上下文窗口"（能塞多少 token） vs "功能上下文窗口"（能有效利用多少 token）的鸿沟。适用于 Coding Agent、长期 Agent 会话、企业知识库等需要"一次性看全"而非 RAG/分块的场景。

SubQ Code 也可以申请试用，我也刚刚申请，期待通过后再做具体分享。申请链接在这： https：//subq.ai/request-early-access

Alexander WhedonIntroducing SubQ - a major breakthrough in LLM intelligence. It is the first model built on a fully sub-quadratic sparse-attention architecture (SSA), And the f...

数据/训练模型发布编码

在 X 查看原推

meng shao@shao__meng · X