HuggingFace Daily Papers(社区热门论文)
55
无监督过程奖励模型
AI 摘要
本研究提出一种无需人类标注的无监督过程奖励模型(uPRM)训练方法。该方法基于大语言模型下一个token的概率设计评分函数,能够联合评估一批推理轨迹中首个错误步骤的可能位置,实现完全无监督训练。实验表明,uPRM在ProcessBench数据集上识别首个错误步骤的准确率比“LLM作为裁判”方法最高提升15%;作为测试时验证器,其性能与监督PRM相当,比多数投票基线高出最多6.9%;在强化学习中作为奖励信号,训练过程比使用真实标签的监督PRM更稳定。该工作为复杂推理任务的可扩展奖励建模提供了新途径。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org