超越推理：强化学习解锁大语言模型中的参数化知识

2026-05-08 08:00·37天前

AI 摘要

本研究在零样本、单跳、闭卷问答的严格设置下，探究强化学习能否提升大语言模型对参数化知识的直接回忆能力。实验表明，仅使用二元正确性奖励进行训练，即可在多个模型和事实问答基准上带来约27%的平均相对性能提升，超越多种基线方法。机制分析发现，强化学习主要重新分配模型已有知识的概率质量，将正确答案从低概率区域移至可靠生成范围，而非学习新事实。数据归因研究进一步揭示，约18%的最困难训练样本（其答案在强化学习前的多次采样中从未出现）贡献了约83%的性能增益。这些发现将强化学习的作用从推理扩展到了解锁潜在的参数化知识。

该来源未收录可展示正文，站内仅提供摘要。

推理数据/训练论文/研究

HuggingFace Daily Papers（社区热门论文）

超越推理：强化学习解锁大语言模型中的参数化知识

2026-05-08 08:00·37天前

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文arxiv.org

推理数据/训练论文/研究