HuggingFace Daily Papers(社区热门论文)
58
LLaVA-UHD v4:多模态大语言模型中高效视觉编码的关键
AI 摘要
针对高分辨率图像输入导致视觉编码成为多模态大语言模型主要计算瓶颈的问题,本研究提出了两项关键改进。在编码策略上,基于切片的编码优于全局编码,能通过局部视图更好地保留细节。在压缩方法上,引入了视觉Transformer内部的早期压缩,在浅层减少令牌数量以大幅降低计算量。结合这两项技术构建的LLaVA-UHD v4方案,在涵盖文档理解、OCR和通用视觉问答的多样化基准测试中,视觉编码计算量降低了55.8%,同时达到甚至超越了基线模型性能,为高效高分辨率多模态大语言模型提供了实用的设计方向。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org