HuggingFace Daily Papers（社区热门论文）

CollabVR：视觉语言模型与视频生成模型的协作视频推理

2026-05-09 08:00·36天前

AI 摘要

CollabVR提出一种闭环协作框架，在步骤级别将视觉语言模型（VLM）与视频生成模型（VGM）耦合，以解决VGM在多步任务中的长视野漂移和中间片段错误累积问题。该框架中，VLM负责规划即时动作并检查VGM生成的视频片段，再将验证诊断直接融入后续提示以修正错误。在Gen-ViRe和VBVR-Bench基准测试中，该方法在同等计算条件下显著提升了开源与闭源VGM的性能，尤其在困难任务上增益最大，且能与推理微调的VGM进一步结合，实现性能叠加。

该来源未收录可展示正文，站内仅提供摘要。

多模态推理视频论文/研究

阅读原文

HuggingFace Daily Papers（社区热门论文）

CollabVR：视觉语言模型与视频生成模型的协作视频推理

2026-05-09 08:00·36天前

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文arxiv.org

多模态推理视频论文/研究