HuggingFace Daily Papers（社区热门论文）

大语言模型的上下文信念管理

2026-05-28 08:00·18天前

AI 摘要

该研究指出大语言模型在长时程交互中需要管理累积信息，即上下文信念管理（CBM）。研究提出BeliefTrack基准进行精确评估，涵盖规则发现与电路诊断任务。发现普通大语言模型存在严重的CBM失败，包括无法保持状态、无法更新状态及无法隔离噪声。显式信念追踪提示收效有限，而采用信念状态奖励的强化学习将平均失败率降低了70.9%。进一步的表征层面引导将两项任务的失败率降低了46.1%。相关代码将在GitHub开源。

该来源未收录可展示正文，站内仅提供摘要。

安全/对齐推理论文/研究

阅读原文

HuggingFace Daily Papers（社区热门论文）

大语言模型的上下文信念管理

2026-05-28 08:00·18天前

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文arxiv.org

安全/对齐推理论文/研究