HuggingFace Daily Papers(社区热门论文)
60
大语言模型的上下文信念管理
AI 摘要
该研究指出大语言模型在长时程交互中需要管理累积信息,即上下文信念管理(CBM)。研究提出BeliefTrack基准进行精确评估,涵盖规则发现与电路诊断任务。发现普通大语言模型存在严重的CBM失败,包括无法保持状态、无法更新状态及无法隔离噪声。显式信念追踪提示收效有限,而采用信念状态奖励的强化学习将平均失败率降低了70.9%。进一步的表征层面引导将两项任务的失败率降低了46.1%。相关代码将在GitHub开源。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org