HuggingFace Daily Papers(社区热门论文)
56
语言模型自为评判者:基于执行者内部状态价值估计的强化学习
AI 摘要
研究团队提出POISE方法,以极低成本为大型推理模型的强化学习提供基线估计。该方法通过一个轻量级探针,利用策略模型前向传播时已计算出的提示、生成轨迹的隐藏状态及词元熵统计,在线预测可验证奖励的期望值。其关键设计是跨轨迹构造,在保持梯度无偏的同时,仅需单次轨迹采样即可估计提示价值。这提升了固定计算预算下的提示多样性,降低了梯度方差,使学习更稳定,并省去了检测零优势提示的额外采样开销。在数学推理基准测试中,POISE以更少计算量达到了与DAPO相当的性能,其价值估计器性能接近独立的LLM规模价值模型,并能泛化至多种可验证任务。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org