OpenAI:Alignment 研究博客(RSS)
精选72
研究强化学习中意外对思维链(CoT)评分的影响
精选理由
OpenAI 对齐团队发现部分模型 CoT 意外被奖励信号污染,已修复且确认没有引发监控降级。这件事不大,但对研究 RLHF 可扩展监督的人来说值得一瞥,提醒奖励模型工程比想象中更易出错。
AI 摘要
研究发现,部分已发布的模型存在有限的意外对思维链(CoT)进行评分的情况。团队已修复受影响的奖励通路,并确认没有明确证据表明模型的可监控性因此下降。这表明当前强化学习训练中对CoT的意外评分影响有限,且修复后未对监控能力产生负面影响。
原文 · 保持原样,未翻译
We found limited accidental CoT grading in some released models, fixed the affected reward pathways, and found no clear evidence that monitorability degraded.