HuggingFace Daily Papers（社区热门论文）

高效内存循环Transformer：在循环语言模型中解耦计算与内存

2026-05-08 08:00·37天前

AI 摘要

循环LLM架构（如Ouro）通过迭代更新内部表征进行推理，但其标准KV缓存导致内存消耗随推理深度线性增长，限制了可扩展性。本研究提出高效内存循环Transformer（MELT），通过每层共享一个跨循环的KV缓存，并利用可学习的门控机制更新缓存，从而将推理深度与内存消耗解耦。MELT采用分块训练的两阶段轻量级后训练方法：插值过渡与注意力对齐蒸馏。实验表明，基于预训练Ouro微调的MELT模型性能优于同等规模标准LLM，同时内存占用与标准模型相当，远低于Ouro，实现了不牺牲性能的恒定内存迭代推理。

该来源未收录可展示正文，站内仅提供摘要。

arXiv推理论文/研究部署/工程

阅读原文

HuggingFace Daily Papers（社区热门论文）

高效内存循环Transformer：在循环语言模型中解耦计算与内存

2026-05-08 08:00·37天前

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文arxiv.org

arXiv推理论文/研究部署/工程