OpenAI Codex 新模式 Auto-review：在"频繁打扰人类"和"完全放权"之间，引入第三种治理范式：用一

meng shao@shao__meng

精选70

2026-05-04 08:08·46天前

精选理由

OpenAI 难得公开了 agent 安全机制的内部设计，不是靠人肉审批也不是完全撒手，用独立 Agent 审批越界行为，数据惊人（干扰降低 200 倍）。做 Agent 产品的该读，因为给出了治理范式的第三种选择。

AI 摘要

OpenAI Codex推出Auto-review新模式，解决传统人工审批与完全放权两种治理范式的缺陷。该模式在智能体越界时，由独立AI代理审批，评估用户意图、运行环境、安全策略和动作影响。拒绝时提供理由，超一半情况主智能体能自行找到更安全替代方案。效果上，自动批准率达99.1%，将打扰人类频率降低约200倍，有效拦截多数攻击。但团队坦承局限：非确定性安全保证，不能防御策略性欺骗，是安全与速度的折中。

OpenAI Codex 新模式 Auto-review：在"频繁打扰人类"和"完全放权"之间，引入第三种治理范式：用一个独立 AI Agent 替代人类，来审批越界行为。 https：//alignment.openai.com/auto-review

# 要解决的真实痛点

传统的两种模式都有缺陷： · 默认模式：每次越出沙箱（如发起网络请求、运行 python 脚本）都要人工点击批准。结果是：用户疲劳、长时间后台任务无法运行。 · Full Access 模式：彻底关闭审批。沙箱完全失效，恶意代码、数据外泄、凭据探测都不会被拦截。

更糟的是审批摩擦本身反向制造了安全漏洞： · 用户干脆切到 Full Access； · 用户写出过度宽松的前缀规则（文中提到"相当一部分用户允许任何以 python 开头的命令"）； · 出于疲劳或不懂，用户盲目点同意。

# Auto-review 的核心设计

当主智能体试图越出沙箱时，请求被转给另一个独立的 Codex 智能体审批。它评估四个维度：用户意图、运行环境、安全策略、动作的可能影响。

为什么必须是"独立的"智能体？文章给出了一个很重要的对齐理由： · 主智能体的优化目标是"完成任务"，因此天然有动机把审批边界视为"待克服的障碍"； · 把审批决策抽离到独立模型调用中，让审批策略可被单独评估、监控、迭代。这其实是把单智能体的目标冲突，重构成了多智能体的角色分工。

它使用 GPT-5.4 Thinking（low reasoning），并发现：模型越强，既更善于发现风险，也更善于理解用户合理意图。

# 关键运行机制

被拒绝时，审查者不是简单说"不"，而是返回拒绝理由和上下文信号。结果： · 内部部署中，超过一半被拒绝的情况下，主智能体能自行找到更安全的替代路径继续执行，无需打扰用户； · 如果智能体反复尝试"绕过审查者"（gaming），系统会自动终止该轨迹。

# 效果数据

文档中举例的 1 万动作分布：9280 次留在沙箱内；720 次需审查；其中 713 次自动通过；7 次被拒，其中 4 次智能体自找替代方案，仅 3 次真正打扰用户。

目前 OpenAI 内部 Codex Desktop 的 Token 使用量多数已来自 Auto-review 模式。

# 团队坦诚的局限

OpenAI 罕见地用一整节明确边界，而不是只讲成绩： · 不是确定性安全保证。红队测试中确实发现可以骗过 Auto-review 的案例，正在修复，但"这类系统不太可能成为确定性保证的来源"。 · 不能防御模型 Scheming（策略性欺骗）。如果模型本身在策略性隐藏意图，它可能构造一个看起来无害的越界请求，或干脆只在沙箱内做坏事--审查者根本看不到。这类风险需要"思维链监控"等互补机制。 · 本质是一个折中：相比传统安全系统牺牲了确定性，相比 Full Access 牺牲了速度。

Maja TrebaczClicking the "Approve permission" button is difficult. We show that agents can do that for you. Check out our alignment blog: https://alignment.openai.com/auto-...

智能体MCP/工具OpenAI产品更新

在 X 查看原推

meng shao@shao__meng · X