HuggingFace Daily Papers(社区热门论文)
68
视觉状态追踪基准VSTAT:评估多模态大语言模型的视频理解能力
AI 摘要
研究者提出了视觉状态追踪基准VSTAT,用于诊断多模态大语言模型在视频理解中持续追踪实体与状态的能力。该基准包含834个来自合成与真实视频的片段,并配有1500个必须通过连续感知才能回答的问题。测试发现,现有顶尖多模态大语言模型在VSTAT上的表现远低于人类,仅略高于随机答案基线。分析表明,模型的文本推理能力尚可,但视觉感知所必需的事件追踪能力存在不足。初步评估也显示,包括智能体在内的现有方法也未能有效解决这一问题。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org