HuggingFace Daily Papers（社区热门论文）

超越数学与代码的可验证奖励：面向事实性问答的轻量级基于语料库的过程监督

2026-05-28 08:00·18天前

AI 摘要

针对强化学习提升事实性问答准确度时的奖励设计难题，本文提出CorVer方法。它用基于Wikipedia共现统计的轻量级语料库信号，替代了昂贵且不可靠的神经验证器（如NLI或LLM判断器）。CorVer为每个句子分配信用值，并通过简单对齐映射到token级优势，仅需一个0.5B的提取器和单次语料库查询。在覆盖六个指令微调模型和五个问答基准的30个测试组合中，CorVer使每个组合的性能均优于原始基线，其中TriviaQA平均提升+4.1个百分点。在可行配置下，它在20个组合中的18个超越了神经验证器基线，且训练速度快4.8至8.4倍。

该来源未收录可展示正文，站内仅提供摘要。

arXiv检索增强推理论文/研究

阅读原文

HuggingFace Daily Papers（社区热门论文）

超越数学与代码的可验证奖励：面向事实性问答的轻量级基于语料库的过程监督

2026-05-28 08:00·18天前

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文arxiv.org

arXiv检索增强推理论文/研究