HuggingFace Daily Papers(社区热门论文)
62
UniSteer:基于文本引导的激活空间流匹配模型,用于通用大语言模型行为引导
AI 摘要
UniSteer是一种文本引导的激活空间流匹配模型,旨在统一控制冻结的大语言模型推理时的内部行为。该模型不依赖固定方向,而是基于自然语言条件学习残差流激活分布的通用条件速度场。推理时,它通过流反转将部分源激活输运至潜状态,并在目标文本条件下重新生成后注入模型。该统一模型同样支持通过选择重建能量最低的文本标签进行激活空间分类。实验表明,UniSteer在行为控制、真实性引导、细粒度概念引导、多约束指令遵循及激活空间分类等任务上提供了统一的接口。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org