HuggingFace Daily Papers（社区热门论文）

EarlyTom：早期Token压缩实现快速视频理解

2026-05-28 08:00·18天前

AI 摘要

视频大语言模型在视频理解中能力强，但处理海量视觉token效率低下。现有方案多在预填充后期压缩，未优化视觉编码器本身。研究指出视觉编码对时间首token（TTFT）延迟贡献大，因此压缩应提前。为此提出EarlyTom，一个免训练的压缩框架，它在视觉编码器内部执行早期视觉token压缩，并引入解耦的空间token选择策略。在单卡A100 GPU上运行LLaVA-OneVision-7B时，EarlyTom将TTFT最高降低2.65倍，FLOPs减少高达61%，同时保持与全token基线相当的准确度，提升了部署实用性。

该来源未收录可展示正文，站内仅提供摘要。

多模态论文/研究部署/工程

阅读原文

HuggingFace Daily Papers（社区热门论文）

EarlyTom：早期Token压缩实现快速视频理解

2026-05-28 08:00·18天前

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文arxiv.org

多模态论文/研究部署/工程