HuggingFace Daily Papers(社区热门论文)
49
对比神经元归因实现语言模型可靶向行为调控
AI 摘要
本研究针对语言模型拒绝有害指令机制不透明的问题,提出了对比神经元归因方法。该方法仅通过前向传播即可识别出仅占0.1%的、最能区分有害与良性提示的关键神经元。在指令微调模型中,对这些神经元进行干预可将标准越狱测试中的拒答率降低超过50%,同时保持输出流畅度。跨架构实验揭示,对齐微调将预训练模型中已有的鉴别结构,转化为了稀疏且可靶向的“拒绝门控”,从而实现了在无质量损耗的前提下,对模型行为进行可靠调控。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org