HuggingFace Daily Papers(社区热门论文)
64
STARFlow2:连接语言模型与标准化流以实现统一多模态生成
AI 摘要
为构建真正统一的文本-图像序列生成模型,研究团队提出STARFlow2。该模型基于Pretzel架构,通过残差跳跃连接垂直交织预训练视觉语言模型流与TarFlow流,两者共享因果掩码。结合深浅流设计与统一的FAE潜在空间,STARFlow2实现了缓存友好的交错生成,文本与视觉输出可直接进入KV缓存而无需重新编码。实验证明,该模型在图像生成与多模态理解任务上均表现优异,验证了自回归标准化流作为统一多模态建模基础的可行性。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org