HuggingFace Daily Papers（社区热门论文）

每项多模态证据仅用一个token：面向资源受限问答的Latent Memory

2026-06-09 16:36·6天前

AI 摘要

Latent Memory提出一种潜在空间记忆范式，由小型压缩器LLM/VLM将每个原始文本或图像证据压缩为单个高维潜在token。查询时，将查询嵌入同一空间检索相关token并直接输入预训练LLM/VLM生成答案。通过统一端到端训练，结合重建、对比和蒸馏目标，使单个token同时携带重建、检索和生成信息。在HotpotQA等七个纯文本QA基准和多项多模态QA基准上，Latent Memory取得与先进RAG基线相当的问答性能，同时生成器token消耗减少3至10倍，并在WebQA上达到图像问答最强性能。代码已公开。

该来源未收录可展示正文，站内仅提供摘要。

arXiv检索增强多模态论文/研究

阅读原文

HuggingFace Daily Papers（社区热门论文）

每项多模态证据仅用一个token：面向资源受限问答的Latent Memory

2026-06-09 16:36·6天前

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文arxiv.org

arXiv检索增强多模态论文/研究