研究强化学习中意外对思维链（CoT）评分的影响

2026-05-07 07:00·39天前·Micah Carroll, Tomek Korbak, Zehao Dou, Bowen Baker, Ian Kivlichan

精选理由

OpenAI 对齐团队发现部分模型 CoT 意外被奖励信号污染，已修复且确认没有引发监控降级。这件事不大，但对研究 RLHF 可扩展监督的人来说值得一瞥，提醒奖励模型工程比想象中更易出错。

AI 摘要

研究发现，部分已发布的模型存在有限的意外对思维链（CoT）进行评分的情况。团队已修复受影响的奖励通路，并确认没有明确证据表明模型的可监控性因此下降。这表明当前强化学习训练中对CoT的意外评分影响有限，且修复后未对监控能力产生负面影响。

原文 · 未翻译

We found limited accidental CoT grading in some released models, fixed the affected reward pathways, and found no clear evidence that monitorability degraded.

OpenAI安全/对齐推理论文/研究

OpenAI：Alignment 研究博客（RSS）

精选72

研究强化学习中意外对思维链（CoT）评分的影响

2026-05-07 07:00·39天前·Micah Carroll, Tomek Korbak, Zehao Dou, Bowen Baker, Ian Kivlichan

精选理由

AI 摘要

原文 · 保持原样，未翻译

We found limited accidental CoT grading in some released models, fixed the affected reward pathways, and found no clear evidence that monitorability degraded.

OpenAI安全/对齐推理论文/研究

阅读原文alignment.openai.com