HuggingFace Daily Papers(社区热门论文)
69
SwiftI2V:通过条件分段生成实现高效高分辨率图像到视频生成
AI 摘要
SwiftI2V是一个针对高分辨率图像到视频生成的高效框架,旨在解决2K分辨率下的效率与保真度难题。它采用两阶段设计:首先生成低分辨率运动参考以降低计算负担,随后进行强图像条件的2K合成以恢复输入细节。其核心创新是条件分段生成技术,通过分段合成控制每步令牌预算,并利用双向上下文交互提升片段连贯性与输入保真度。在VBench-I2V基准测试中,该框架在2K分辨率下性能与端到端基线相当,同时将总GPU时间大幅减少202倍,使得在单张数据中心或消费级GPU上实现实用的2K图像到视频生成成为可能。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org