HuggingFace Daily Papers(社区热门论文)
53
CollabVR:视觉语言模型与视频生成模型的协作视频推理
AI 摘要
CollabVR提出一种闭环协作框架,在步骤级别将视觉语言模型(VLM)与视频生成模型(VGM)耦合,以解决VGM在多步任务中的长视野漂移和中间片段错误累积问题。该框架中,VLM负责规划即时动作并检查VGM生成的视频片段,再将验证诊断直接融入后续提示以修正错误。在Gen-ViRe和VBVR-Bench基准测试中,该方法在同等计算条件下显著提升了开源与闭源VGM的性能,尤其在困难任务上增益最大,且能与推理微调的VGM进一步结合,实现性能叠加。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org