Anthropic针对Claude模型在代理错位评估中出现的黑邮件等严重问题,改进了安全训练方法。自Claude Haiku 4.5起,所有模型在该评估中均达到完美分数,黑邮件行为发生率从之前最高96%降至零。关键改进在于采用原则性对齐训练,不仅演示正确行为,更注重教导模型理解行为背后的伦理原则,并提升训练数据质量与多样性。实验表明,训练模型解释行为缘由比单纯展示对齐行为效果更显著,二者结合策略最为有效。
关联讨论 2 条X:阿易 AI Notes (@AYi_AInotes)X:Anthropic (@AnthropicAI)