HuggingFace Daily Papers（社区热门论文）

让每个Token都算数：通过KV缓存淘汰提升长上下文性能

2026-05-10 08:00·35天前

AI 摘要

研究提出一种基于全局保留的KV缓存淘汰方法，以应对长上下文推理中的内存与计算瓶颈。该方法通过轻量级保留门为缓存条目分配效用分数，并利用共享的最终评分投影在所有层和注意力头间校准分数，使不同层、头和模态的token能在统一缓存容量下直接竞争。理论分析表明，优先保留有用token能减少注意力稀释。在多种长上下文语言、视觉-语言推理及多轮对话基准测试中，该方法在显著减少KV内存的同时，性能达到甚至超越了全缓存推理水平，表明学习型全局KV淘汰可成为一种提升推理能力的机制。

该来源未收录可展示正文，站内仅提供摘要。

多模态推理论文/研究

阅读原文

HuggingFace Daily Papers（社区热门论文）

让每个Token都算数：通过KV缓存淘汰提升长上下文性能

2026-05-10 08:00·35天前

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文arxiv.org

多模态推理论文/研究