HuggingFace Daily Papers(社区热门论文)
55
TIDE:让每一层都知晓上下文之下的令牌身份
AI 摘要
研究指出,现代大语言模型普遍存在“单次令牌注入”设计缺陷,即令牌索引仅在输入层使用一次后便被丢弃。这导致了“稀有令牌训练不足”和“上下文坍缩”两个结构性问题。为此,我们提出了TIDE方法,通过引入一个由K个独立记忆块组成的“嵌入记忆”模块来增强标准Transformer。该模块将令牌索引映射为上下文无关的语义向量,并通过一个深度条件软路由将其注入到每一层。理论与实验证明,TIDE能有效缓解上述问题,并在多种语言建模及下游任务中提升模型性能。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org