HuggingFace Daily Papers(社区热门论文)
44
激活引导的不可满射性
AI 摘要
本文研究了大型语言模型中的激活引导技术。这是一种白盒控制方法,通过修改模型内部激活来改变其抽象行为,广泛应用于可解释性与安全研究。核心理论发现证明,引导操作会将模型的残差流推离可通过自然文本提示所能到达的状态流形;几乎不存在任何提示能完全复现引导所产生的内部行为。这一结论在三个主流LLM上得到实证支持。因此,研究在白盒引导能力与黑盒提示能力之间建立了形式化分离,并强调不应将激活引导的有效性视为基于提示的可解释性或漏洞的证据,呼吁未来评估需明确区分这两类干预机制。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org