HuggingFace Daily Papers（社区热门论文）

无监督过程奖励模型

2026-05-11 08:00·34天前

AI 摘要

本研究提出一种无需人类标注的无监督过程奖励模型（uPRM）训练方法。该方法基于大语言模型下一个token的概率设计评分函数，能够联合评估一批推理轨迹中首个错误步骤的可能位置，实现完全无监督训练。实验表明，uPRM在ProcessBench数据集上识别首个错误步骤的准确率比“LLM作为裁判”方法最高提升15%；作为测试时验证器，其性能与监督PRM相当，比多数投票基线高出最多6.9%；在强化学习中作为奖励信号，训练过程比使用真实标签的监督PRM更稳定。该工作为复杂推理任务的可扩展奖励建模提供了新途径。

该来源未收录可展示正文，站内仅提供摘要。

推理数据/训练论文/研究

阅读原文

HuggingFace Daily Papers（社区热门论文）

无监督过程奖励模型

2026-05-11 08:00·34天前

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文arxiv.org

推理数据/训练论文/研究