HuggingFace Daily Papers(社区热门论文)
66
LoRA适配器后门攻击中的Token级泛化:攻击刻画与行为检测
AI 摘要
研究表明,可通过训练数据投毒为微调大语言模型的主流分发格式LoRA适配器植入后门,同时保持基线任务性能。在通义千问(Qwen)2.5 1.5B提示注入分类器上,少量投毒样本即可触发一个保持清洁准确率的饱和后门。该后门在Token特征层面而非结构模式层面泛化。研究表征了攻击在模型规模、LoRA rank和触发字符串上的特性,并评估了两种互补的检测方法:一种是基于探针电池统计量的行为检测器;另一种是无需运行模型的权重级统计量(归一化Frobenius范数的跨模块标准差)。因果定位将后门定位于中后层MLP模块的down_proj投影。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org