HuggingFace Daily Papers（社区热门论文）

对比神经元归因实现语言模型可靶向行为调控

2026-05-12 08:00·33天前

AI 摘要

本研究针对语言模型拒绝有害指令机制不透明的问题，提出了对比神经元归因方法。该方法仅通过前向传播即可识别出仅占0.1%的、最能区分有害与良性提示的关键神经元。在指令微调模型中，对这些神经元进行干预可将标准越狱测试中的拒答率降低超过50%，同时保持输出流畅度。跨架构实验揭示，对齐微调将预训练模型中已有的鉴别结构，转化为了稀疏且可靶向的“拒绝门控”，从而实现了在无质量损耗的前提下，对模型行为进行可靠调控。

该来源未收录可展示正文，站内仅提供摘要。

安全/对齐论文/研究

阅读原文

HuggingFace Daily Papers（社区热门论文）

对比神经元归因实现语言模型可靶向行为调控

2026-05-12 08:00·33天前

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文arxiv.org

安全/对齐论文/研究