HuggingFace Daily Papers(社区热门论文)
56
快速字节潜在变换器
AI 摘要
针对字节级语言模型自回归生成速度慢的问题,Byte Latent Transformer (BLT) 提出了新的训练与生成技术。其核心是最快的变体 BLT Diffusion (BLT-D),它结合块级扩散目标与下一个字节预测损失,能在每个解码步骤并行生成多个字节,大幅减少前向传播次数。此外,受推测解码启发,研究提出了两种在速度与质量间权衡的扩展:BLT Self-speculation (BLT-S) 让局部解码器起草超出常规边界的字节后进行单次验证;BLT Diffusion+Verification (BLT-DV) 则在扩散生成后增加自回归验证步骤。这些方法在生成任务上的预估内存带宽成本可比原始 BLT 降低超过 50%,共同为字节级模型的实际应用扫清了关键障碍。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org