HuggingFace Daily Papers（社区热门论文）

LoRA适配器后门攻击中的Token级泛化：攻击刻画与行为检测

2026-05-28 08:00·18天前

AI 摘要

研究表明，可通过训练数据投毒为微调大语言模型的主流分发格式LoRA适配器植入后门，同时保持基线任务性能。在通义千问（Qwen）2.5 1.5B提示注入分类器上，少量投毒样本即可触发一个保持清洁准确率的饱和后门。该后门在Token特征层面而非结构模式层面泛化。研究表征了攻击在模型规模、LoRA rank和触发字符串上的特性，并评估了两种互补的检测方法：一种是基于探针电池统计量的行为检测器；另一种是无需运行模型的权重级统计量（归一化Frobenius范数的跨模块标准差）。因果定位将后门定位于中后层MLP模块的down_proj投影。

该来源未收录可展示正文，站内仅提供摘要。

安全/对齐数据/训练

阅读原文

HuggingFace Daily Papers（社区热门论文）

LoRA适配器后门攻击中的Token级泛化：攻击刻画与行为检测

2026-05-28 08:00·18天前

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文arxiv.org

安全/对齐数据/训练