HuggingFace Daily Papers(社区热门论文)
68
连续潜在扩散语言模型
AI 摘要
针对自回归范式在文本生成中的限制,研究团队提出Cola DLM,一种分层连续潜在扩散语言模型。该模型通过文本VAE学习文本到潜在映射,在连续潜在空间中用块因果DiT建模全局语义先验,再通过条件解码生成文本。其扩散过程执行潜在先验传输,而非词元级观测恢复,从而分离全局语义组织与局部文本实现,支持更灵活的非自回归生成。实验在严格匹配约20亿参数自回归基线和扩展到约2000 EFLOPs下进行,显示Cola DLM具有强大扩展性能,确立了分层连续潜在先验建模作为严格词元级语言建模的原则性替代方案。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org