HuggingFace Daily Papers（社区热门论文）

单个神经元足以绕过大型语言模型的安全对齐机制

2026-05-08 08:00·37天前

AI 摘要

研究发现，语言模型的安全对齐依赖于两个机制不同的系统：阻止有害知识表达的“拒绝神经元”和编码有害知识本身的“概念神经元”。通过分别抑制一个拒绝神经元或放大一个概念神经元，即可在未经训练或提示工程的情况下，使涵盖1.7B至70B参数的七个模型出现安全失效。前者能让模型响应明确的有害请求，后者则能从无害提示中诱导出有害内容。这表明安全对齐并非广泛分布于模型权重中，而是由少数关键神经元介导，单个神经元的干预就足以在多类请求上绕过安全防护。

该来源未收录可展示正文，站内仅提供摘要。

安全/对齐论文/研究

阅读原文

HuggingFace Daily Papers（社区热门论文）

单个神经元足以绕过大型语言模型的安全对齐机制

2026-05-08 08:00·37天前

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文arxiv.org

安全/对齐论文/研究