HuggingFace Daily Papers（社区热门论文）

稀疏自编码器即插即用防火墙：用于视觉-语言模型对抗攻击检测

2026-05-08 08:00·37天前

AI 摘要

针对视觉-语言模型（VLM）易受对抗攻击的安全问题，本研究提出了一种轻量级检测框架SAEgis。该方法将稀疏自编码器（SAE）作为即插即用模块插入预训练VLM，通过标准重建目标训练，使稀疏潜在特征自然捕获攻击信号，从而可靠识别图像是否遭受对抗扰动。实验表明，SAEgis在域内、跨域及跨攻击场景中均表现强劲，其跨域泛化能力显著优于现有基线。该方法无需对抗训练，开销极小，为实际VLM系统提供了一种实用的安全增强方案。

该来源未收录可展示正文，站内仅提供摘要。

多模态安全/对齐论文/研究

阅读原文

HuggingFace Daily Papers（社区热门论文）

稀疏自编码器即插即用防火墙：用于视觉-语言模型对抗攻击检测

2026-05-08 08:00·37天前

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文arxiv.org

多模态安全/对齐论文/研究