HuggingFace Daily Papers（社区热门论文）

TIDE：让每一层都知晓上下文之下的令牌身份

2026-05-07 08:00·38天前

AI 摘要

研究指出，现代大语言模型普遍存在“单次令牌注入”设计缺陷，即令牌索引仅在输入层使用一次后便被丢弃。这导致了“稀有令牌训练不足”和“上下文坍缩”两个结构性问题。为此，我们提出了TIDE方法，通过引入一个由K个独立记忆块组成的“嵌入记忆”模块来增强标准Transformer。该模块将令牌索引映射为上下文无关的语义向量，并通过一个深度条件软路由将其注入到每一层。理论与实验证明，TIDE能有效缓解上述问题，并在多种语言建模及下游任务中提升模型性能。

该来源未收录可展示正文，站内仅提供摘要。

数据/训练论文/研究

阅读原文

HuggingFace Daily Papers（社区热门论文）

TIDE：让每一层都知晓上下文之下的令牌身份

2026-05-07 08:00·38天前

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文arxiv.org

数据/训练论文/研究