研究团队推出MEME基准,用于评估大语言模型智能体在多会话持久环境中的记忆能力。该基准定义了涵盖多实体与演化信息两个维度的六项任务,其中级联、缺失和删除推理三项为先前工作未涉及。在100个受控片段上对三种记忆范式的六个系统进行评估发现,所有系统在默认配置下对依赖关系的推理能力均严重不足(级联任务平均准确率3%,缺失任务1%),尽管其静态检索性能尚可。提示优化、深度检索、减少干扰信息乃至使用更强的模型均未能显著缩小差距。仅当基于文件的智能体配合Claude Opus时,差距被部分缩小,但成本约为基线的70倍,表明当前解决方案难以大规模应用。代码与数据已公开。