视觉状态追踪基准VSTAT:评估多模态大语言模型的视频理解能力 · AI HOT