人类大脑最聪明的地方，就是大部分时间只激活极少部分神经元。

Berryxia.AI@berryxia

2026-05-09 07:51·36天前

AI 摘要

现代LLM类似人脑，前馈层中超过95%的神经元对输入保持静默，呈现高度稀疏性。但GPU硬件专为密集计算设计，非结构化稀疏导致不规则内存访问，反而让计算更少的模型运行更慢。Sakana AI与NVIDIA合作解决了这一矛盾，开发了TwELL混合稀疏格式及定制CUDA内核，将稀疏性重塑为GPU易于处理的形式。该方案动态路由99%的稀疏token通过快速路径，并为密集token提供备用矩阵。在H100 GPU上，训练和推理速度提升超20%，同时降低内存占用和能耗。相关论文、博客和代码均已开源。

现在LLM其实也在自然地做同样的事。前馈层里95%以上的激活值几乎为零。

但GPU却因为硬件设计，狠狠惩罚了这种"偷懒"行为，反而让模型跑得更慢。

Sakana AI这次和NVIDIA联手，把这个硬件矛盾彻底解决了。

他们发明了TwELL（Tile-wise ELLPACK）这种全新稀疏格式 + 定制CUDA内核，直接把稀疏性"重塑"成GPU最喜欢的样子。

结果在H100上，训练和推理速度直接提升超20%，同时还大幅降低了内存占用和能耗。

这不仅是理论上的小改进，也是真正将"让模型少算"变成了"让模型更快"的现实方案。

论文、博客和代码已经全部开源见评论区！

hardmaruThe human brain🧠 is incredibly efficient because it only activates the specific neurons needed for a thought. Modern LLMs naturally try to do this too (> 95% o...

arXiv推理论文/研究部署/工程

在 X 查看原推

Berryxia.AI@berryxia · X

2026-05-09 07:51·36天前

AI 摘要

人类大脑最聪明的地方，就是大部分时间只激活极少部分神经元。

现在LLM其实也在自然地做同样的事。前馈层里95%以上的激活值几乎为零。

但GPU却因为硬件设计，狠狠惩罚了这种"偷懒"行为，反而让模型跑得更慢。

Sakana AI这次和NVIDIA联手，把这个硬件矛盾彻底解决了。

他们发明了TwELL（Tile-wise ELLPACK）这种全新稀疏格式 + 定制CUDA内核，直接把稀疏性"重塑"成GPU最喜欢的样子。

结果在H100上，训练和推理速度直接提升超20%，同时还大幅降低了内存占用和能耗。

这不仅是理论上的小改进，也是真正将"让模型少算"变成了"让模型更快"的现实方案。

论文、博客和代码已经全部开源见评论区！

hardmaruThe human brain🧠 is incredibly efficient because it only activates the specific neurons needed for a thought. Modern LLMs naturally try to do this too (> 95% o...

arXiv推理论文/研究部署/工程

在 X 查看原推x.com