HuggingFace Daily Papers（社区热门论文）

PASA：一种面向语义不变攻击的LLM生成文本嵌入空间水印方法

2026-05-09 08:00·36天前

AI 摘要

针对大型语言模型生成文本的水印技术易受语义不变攻击（如复述）的问题，研究团队提出了PASA。这是一种在潜在嵌入空间的语义簇上操作的、鲁棒且无失真的水印算法。其核心在于通过密钥和语义历史同步的共享随机性，在标记序列与辅助序列间构建分布依赖关系。理论分析证明该方法实现了检测准确性、鲁棒性与文本失真之间的根本性权衡。在多LLM和多种语义不变攻击下的评估表明，PASA即使在强复述攻击下仍保持高鲁棒性，同时维持文本质量，性能优于标准词汇空间基线方法。项目网页已公开。

该来源未收录可展示正文，站内仅提供摘要。

安全/对齐论文/研究

阅读原文

HuggingFace Daily Papers（社区热门论文）

PASA：一种面向语义不变攻击的LLM生成文本嵌入空间水印方法

2026-05-09 08:00·36天前

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文arxiv.org

安全/对齐论文/研究