HuggingFace Daily Papers(社区热门论文)
69
高效内存循环Transformer:在循环语言模型中解耦计算与内存
AI 摘要
循环LLM架构(如Ouro)通过迭代更新内部表征进行推理,但其标准KV缓存导致内存消耗随推理深度线性增长,限制了可扩展性。本研究提出高效内存循环Transformer(MELT),通过每层共享一个跨循环的KV缓存,并利用可学习的门控机制更新缓存,从而将推理深度与内存消耗解耦。MELT采用分块训练的两阶段轻量级后训练方法:插值过渡与注意力对齐蒸馏。实验表明,基于预训练Ouro微调的MELT模型性能优于同等规模标准LLM,同时内存占用与标准模型相当,远低于Ouro,实现了不牺牲性能的恒定内存迭代推理。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org