HuggingFace Daily Papers(社区热门论文)
56
PASA:一种面向语义不变攻击的LLM生成文本嵌入空间水印方法
AI 摘要
针对大型语言模型生成文本的水印技术易受语义不变攻击(如复述)的问题,研究团队提出了PASA。这是一种在潜在嵌入空间的语义簇上操作的、鲁棒且无失真的水印算法。其核心在于通过密钥和语义历史同步的共享随机性,在标记序列与辅助序列间构建分布依赖关系。理论分析证明该方法实现了检测准确性、鲁棒性与文本失真之间的根本性权衡。在多LLM和多种语义不变攻击下的评估表明,PASA即使在强复述攻击下仍保持高鲁棒性,同时维持文本质量,性能优于标准词汇空间基线方法。项目网页已公开。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org