HuggingFace Daily Papers(社区热门论文)
50
稀疏自编码器即插即用防火墙:用于视觉-语言模型对抗攻击检测
AI 摘要
针对视觉-语言模型(VLM)易受对抗攻击的安全问题,本研究提出了一种轻量级检测框架SAEgis。该方法将稀疏自编码器(SAE)作为即插即用模块插入预训练VLM,通过标准重建目标训练,使稀疏潜在特征自然捕获攻击信号,从而可靠识别图像是否遭受对抗扰动。实验表明,SAEgis在域内、跨域及跨攻击场景中均表现强劲,其跨域泛化能力显著优于现有基线。该方法无需对抗训练,开销极小,为实际VLM系统提供了一种实用的安全增强方案。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org