语言模型自为评判者：基于执行者内部状态价值估计的强化学习

2026-05-08 08:00·37天前

AI 摘要

研究团队提出POISE方法，以极低成本为大型推理模型的强化学习提供基线估计。该方法通过一个轻量级探针，利用策略模型前向传播时已计算出的提示、生成轨迹的隐藏状态及词元熵统计，在线预测可验证奖励的期望值。其关键设计是跨轨迹构造，在保持梯度无偏的同时，仅需单次轨迹采样即可估计提示价值。这提升了固定计算预算下的提示多样性，降低了梯度方差，使学习更稳定，并省去了检测零优势提示的额外采样开销。在数学推理基准测试中，POISE以更少计算量达到了与DAPO相当的性能，其价值估计器性能接近独立的LLM规模价值模型，并能泛化至多种可验证任务。

该来源未收录可展示正文，站内仅提供摘要。

推理数据/训练论文/研究

HuggingFace Daily Papers（社区热门论文）

语言模型自为评判者：基于执行者内部状态价值估计的强化学习

2026-05-08 08:00·37天前

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文arxiv.org

推理数据/训练论文/研究