WorldReasonBench:面向未来世界状态预测的视频生成器人类对齐压力测试
视频生成越来越像真的,但逻辑和因果一塌糊涂,这个基准把问题量化了,想做世界模拟器的团队可以拿来测测自己的模型到底懂不懂世界。
研究团队发布WorldReasonBench基准,旨在直接评估视频生成模型作为“世界模拟器”的推理能力。该基准包含436个测试案例,涵盖物理、社会、逻辑和信息四大维度及22个子类,要求模型根据初始状态与动作生成状态演化一致的未来视频。评估采用人类对齐的双部分方法:过程感知推理验证通过结构化问答检测时序与因果错误;多维质量评估则对推理质量、时序一致性和视觉美学进行评分。测试发现,当前先进模型在视觉合理性与世界推理能力间存在显著差距,生成的视频可能看似逼真却违反动态、因果或信息守恒规律。相关资源已开源。
商用视频生成系统(如Seedance2.0和Veo3.1)已快速进步,强化了视频生成器可能正在演变为"世界模拟器"的观点。然而,社区仍然缺少一个能直接测试模型是否能够推理观测世界应如何随时间演化的基准测试。我们推出WorldReasonBench,它将视频生成评估重新定义为世界状态预测:给定一个初始状态和一个动作,模型能否生成一个未来视频,其状态演化在物理、社会、逻辑和信息层面保持一致?WorldReasonBench包含436个精心策划的测试用例,并配有结构化真实答案的问答标注,涵盖四个推理维度和22个子类别。我们采用一种与人类对齐的两部分方法对生成的视频进行评估:过程感知推理验证(Process-aware Reasoning Verification)利用结构化问答和推理阶段诊断来检测时间与因果层面的失败,而多维度质量评估(Multi-dimensional Quality Assessment)则对推理质量、时间一致性和视觉美感进行评分,用于排序和奖励建模。我们进一步引入WorldRewardBench,这是一个偏好基准测试,包含约6000个经专家标注的配对(覆盖1400多个视频),支持成对和单点奖励模型评估。在当代视频生成器上的测试结果显示,视觉合理性与世界推理之间持续存在差距:视频可能看起来逼真,却在动力学、因果关系或信息保留方面存在失败。我们将发布我们的基准测试和评估工具包,以支持社区对真正具有世界感知能力的视频生成的研究,地址为 https://github.com/UniX-AI-Lab/WorldReasonBench/。