OpenAI：Alignment 研究博客（RSS）

规避评估意识与预测生产环境中的未对齐行为

2025-12-19 03:00·178天前

AI 摘要

研究团队提出了一种新流程，旨在发现模型未知的未对齐行为，并规模化创建贴近现实的评估方案。该方法通过规避模型对评估的“警觉性”，直接模拟真实生产环境中的使用场景，从而更有效地暴露潜在风险。该流程能够系统性地生成高质量评估数据集，提升对前沿模型在复杂、开放环境中行为的预测能力，为人工智能安全评估提供了可扩展的工具。

这是一则列表来源，站内未收录完整正文。

OpenAI安全/对齐评测/基准

阅读完整原文

OpenAI：Alignment 研究博客（RSS）

规避评估意识与预测生产环境中的未对齐行为

2025-12-19 03:00·178天前

AI 摘要

这是一则列表来源，站内未收录完整正文。

阅读完整原文alignment.openai.com

OpenAI安全/对齐评测/基准