MuSS：一个用于多镜头视频及主体视频生成的大规模数据集与电影叙事基准

2026-05-09 08:00·36天前

AI 摘要

研究团队发布了MuSS，一个专为多镜头视频及主体视频生成设计的大规模双轨数据集。该数据集源自3000多部电影，明确支持复杂的蒙太奇转场和以主体为核心的叙事。其构建采用了一种渐进式标注流程，先确保局部镜头级准确性，再强化全局叙事连贯性，以消除时空文本-视频对齐冲突。数据集还引入了跨镜头匹配机制，从根本上解决了S2V生成中常见的“复制-粘贴”难题。同时提出的电影叙事基准包含视觉-逻辑驱动的评估范式和一个新颖的抗复制-粘贴方差指标，用于严格评估连续叙事能力和3D结构一致性。实验表明，当前基线模型难以处理连续叙事逻辑或退化为简单的2D贴图生成器，而基于MuSS增强的模型在叙事效果和跨镜头身份保持上达到了最先进水平。

该来源未收录可展示正文，站内仅提供摘要。

多模态视频论文/研究

HuggingFace Daily Papers（社区热门论文）

MuSS：一个用于多镜头视频及主体视频生成的大规模数据集与电影叙事基准

2026-05-09 08:00·36天前

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文arxiv.org

多模态视频论文/研究