HuggingFace Daily Papers(社区热门论文)
61
每项多模态证据仅用一个token:面向资源受限问答的Latent Memory
AI 摘要
Latent Memory提出一种潜在空间记忆范式,由小型压缩器LLM/VLM将每个原始文本或图像证据压缩为单个高维潜在token。查询时,将查询嵌入同一空间检索相关token并直接输入预训练LLM/VLM生成答案。通过统一端到端训练,结合重建、对比和蒸馏目标,使单个token同时携带重建、检索和生成信息。在HotpotQA等七个纯文本QA基准和多项多模态QA基准上,Latent Memory取得与先进RAG基线相当的问答性能,同时生成器token消耗减少3至10倍,并在WebQA上达到图像问答最强性能。代码已公开。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org