OpenAI:Alignment 研究博客(RSS)
43
使用稀疏自编码器潜在归因调试未对齐的补全结果
AI 摘要
研究提出了一种利用稀疏自编码器进行潜在归因的方法,以高效识别导致模型行为偏差的特征根源。该方法能够定位语言模型生成未对齐或有害补全结果时的内部激活特征,通过分析稀疏特征贡献来追溯问题源头。这一技术为理解和调试大语言模型(如GPT、Claude、LLaMA)的特定行为提供了可解释性工具,有助于提升模型的安全性与对齐性。
这是一则列表来源,站内未收录完整正文。
阅读完整原文alignment.openai.com