OpenAI 难得公开了 agent 安全机制的内部设计,不是靠人肉审批也不是完全撒手,用独立 Agent 审批越界行为,数据惊人(干扰降低 200 倍)。做 Agent 产品的该读,因为给出了治理范式的第三种选择。
OpenAI Codex推出Auto-review新模式,解决传统人工审批与完全放权两种治理范式的缺陷。该模式在智能体越界时,由独立AI代理审批,评估用户意图、运行环境、安全策略和动作影响。拒绝时提供理由,超一半情况主智能体能自行找到更安全替代方案。效果上,自动批准率达99.1%,将打扰人类频率降低约200倍,有效拦截多数攻击。但团队坦承局限:非确定性安全保证,不能防御策略性欺骗,是安全与速度的折中。
OpenAI Codex 新模式 Auto-review:在"频繁打扰人类"和"完全放权"之间,引入第三种治理范式:用一个独立 AI Agent 替代人类,来审批越界行为。 https://alignment.openai.com/auto-review
# 要解决的真实痛点
传统的两种模式都有缺陷: · 默认模式:每次越出沙箱(如发起网络请求、运行 python 脚本)都要人工点击批准。结果是:用户疲劳、长时间后台任务无法运行。 · Full Access 模式:彻底关闭审批。沙箱完全失效,恶意代码、数据外泄、凭据探测都不会被拦截。
更糟的是审批摩擦本身反向制造了安全漏洞: · 用户干脆切到 Full Access; · 用户写出过度宽松的前缀规则(文中提到"相当一部分用户允许任何以 python 开头的命令"); · 出于疲劳或不懂,用户盲目点同意。
# Auto-review 的核心设计
当主智能体试图越出沙箱时,请求被转给另一个独立的 Codex 智能体审批。它评估四个维度:用户意图、运行环境、安全策略、动作的可能影响。
为什么必须是"独立的"智能体? 文章给出了一个很重要的对齐理由: · 主智能体的优化目标是"完成任务",因此天然有动机把审批边界视为"待克服的障碍"; · 把审批决策抽离到独立模型调用中,让审批策略可被单独评估、监控、迭代。 这其实是把单智能体的目标冲突,重构成了多智能体的角色分工。
它使用 GPT-5.4 Thinking(low reasoning),并发现:模型越强,既更善于发现风险,也更善于理解用户合理意图。
# 关键运行机制
被拒绝时,审查者不是简单说"不",而是返回拒绝理由和上下文信号。结果: · 内部部署中,超过一半被拒绝的情况下,主智能体能自行找到更安全的替代路径继续执行,无需打扰用户; · 如果智能体反复尝试"绕过审查者"(gaming),系统会自动终止该轨迹。
# 效果数据
越界请求的自动批准率 | 99.1% 全部动作的整体批准率 | 99.93% 相比手动模式,打扰人类的频率 | 降低约 200 倍 智能体过度热心场景的拦截率 | 90.3% Prompt 注入攻击的拦截率 | 99.3% MonitoringBench(Hard)拦截率 | 96.1%
文档中举例的 1 万动作分布:9280 次留在沙箱内;720 次需审查;其中 713 次自动通过;7 次被拒,其中 4 次智能体自找替代方案,仅 3 次真正打扰用户。
目前 OpenAI 内部 Codex Desktop 的 Token 使用量多数已来自 Auto-review 模式。
# 团队坦诚的局限
OpenAI 罕见地用一整节明确边界,而不是只讲成绩: · 不是确定性安全保证。红队测试中确实发现可以骗过 Auto-review 的案例,正在修复,但"这类系统不太可能成为确定性保证的来源"。 · 不能防御模型 Scheming(策略性欺骗)。如果模型本身在策略性隐藏意图,它可能构造一个看起来无害的越界请求,或干脆只在沙箱内做坏事--审查者根本看不到。这类风险需要"思维链监控"等互补机制。 · 本质是一个折中:相比传统安全系统牺牲了确定性,相比 Full Access 牺牲了速度。