HuggingFace Daily Papers(社区热门论文)
65
YOCAUSAL: 视频生成距世界模型有多远?一个因果关系的视角
AI 摘要
本文提出YOCAUSAL,一个受认知科学“违反期望”范式启发的两层级基准测试,用于评估视频扩散模型(VDMs)的因果理解能力。Level 1通过零成本的时间反转真实视频构建反事实样本,引入“反转惊奇指数”(RSI)量化模型对时间箭头的感知。Level 2引入“因果认知指数”(CCI),利用视觉语言模型将数据集分层,以区分真正的因果推理与时间偏差。对13个先进VDMs的评估表明,感知时间箭头并不等同于理解因果关系,当前模型在因果认知方面与人类水平仍存在显著差距。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org