HuggingFace Daily Papers(社区热门论文)
56
WriteSAE:用于循环状态矩阵缓存写入的稀疏自编码器
AI 摘要
研究团队提出了WriteSAE,这是首个专门用于分解和编辑状态空间及混合循环语言模型矩阵缓存写入的稀疏自编码器,解决了传统残差SAE无法处理的领域。该方法将解码原子分解为原生写入形态,并提供每个token对数偏移的闭式解。在Qwen3.5-0.8B模型上的测试表明,原子替换在92.4%的触发案例中优于匹配范数消融,闭式解预测效果达R^2=0.98。在Mamba-2-370M模型上,替换成功率也达到88.1%。通过持续三位置安装,成功将贪婪解码下的中位目标延续率从33.3%提升至100%,首次实现了矩阵循环写入站点的行为级安装。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org