HuggingFace Daily Papers(社区热门论文)
54
单个神经元足以绕过大型语言模型的安全对齐机制
AI 摘要
研究发现,语言模型的安全对齐依赖于两个机制不同的系统:阻止有害知识表达的“拒绝神经元”和编码有害知识本身的“概念神经元”。通过分别抑制一个拒绝神经元或放大一个概念神经元,即可在未经训练或提示工程的情况下,使涵盖1.7B至70B参数的七个模型出现安全失效。前者能让模型响应明确的有害请求,后者则能从无害提示中诱导出有害内容。这表明安全对齐并非广泛分布于模型权重中,而是由少数关键神经元介导,单个神经元的干预就足以在多类请求上绕过安全防护。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org