HuggingFace Daily Papers(社区热门论文)
56
超越推理:强化学习解锁大语言模型中的参数化知识
AI 摘要
本研究在零样本、单跳、闭卷问答的严格设置下,探究强化学习能否提升大语言模型对参数化知识的直接回忆能力。实验表明,仅使用二元正确性奖励进行训练,即可在多个模型和事实问答基准上带来约27%的平均相对性能提升,超越多种基线方法。机制分析发现,强化学习主要重新分配模型已有知识的概率质量,将正确答案从低概率区域移至可靠生成范围,而非学习新事实。数据归因研究进一步揭示,约18%的最困难训练样本(其答案在强化学习前的多次采样中从未出现)贡献了约83%的性能增益。这些发现将强化学习的作用从推理扩展到了解锁潜在的参数化知识。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org