HuggingFace Daily Papers(社区热门论文)
62
个人相机胶卷视觉问答AI智能体(Camroll-Agent)
AI 摘要
研究个人相机胶卷视觉问答场景,AI助手可访问用户相机胶卷并检索相关照片回答事实性或开放性问题。构建camroll数据集,包含50名用户、31,476张图像和2,500个问答对。设计camroll-agent对话式智能体,配备层次化记忆和最小工具集以高效导航大规模个性化视觉记忆。实验表明其优于多种基线方法,揭示个性化视觉记忆需要不同于标准长上下文文本记忆的方法,尤其在一致性、视觉细节和用户特定上下文方面。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org