现代LLM类似人脑,前馈层中超过95%的神经元对输入保持静默,呈现高度稀疏性。但GPU硬件专为密集计算设计,非结构化稀疏导致不规则内存访问,反而让计算更少的模型运行更慢。Sakana AI与NVIDIA合作解决了这一矛盾,开发了TwELL混合稀疏格式及定制CUDA内核,将稀疏性重塑为GPU易于处理的形式。该方案动态路由99%的稀疏token通过快速路径,并为密集token提供备用矩阵。在H100 GPU上,训练和推理速度提升超20%,同时降低内存占用和能耗。相关论文、博客和代码均已开源。
人类大脑最聪明的地方,就是大部分时间只激活极少部分神经元。
现在LLM其实也在自然地做同样的事。 前馈层里95%以上的激活值几乎为零。
但GPU却因为硬件设计,狠狠惩罚了这种"偷懒"行为,反而让模型跑得更慢。
Sakana AI这次和NVIDIA联手,把这个硬件矛盾彻底解决了。
他们发明了TwELL(Tile-wise ELLPACK)这种全新稀疏格式 + 定制CUDA内核,直接把稀疏性"重塑"成GPU最喜欢的样子。
结果在H100上,训练和推理速度直接提升超20%,同时还大幅降低了内存占用和能耗。
这不仅是理论上的小改进,也是真正将"让模型少算"变成了"让模型更快"的现实方案。
论文、博客和代码已经全部开源见评论区!