HuggingFace Daily Papers(社区热门论文)
61
为何远处看向上方:探查视觉语言模型中的空间表征
AI 摘要
视觉语言模型(VLMs)在空间推理基准上表现优异,但其理解是否基于真正的3D结构尚不明确。研究通过构建对比嵌入对进行表征分析,发现多个模型族存在一致的“垂直距离纠缠”现象,即模型将图像垂直位置与空间距离混淆,这模仿了自然照片的透视偏差。该偏差导致模型在透视一致与反直觉案例间准确率差距显著,且随数据规模扩大而加剧,即使基准分数提升。分析还表明,基准分数相似的模型可能具有不同的内部表征,这能预测其在不同任务中的准确率与鲁棒性。为隔离数据集偏差,团队推出了合成基准SpatialTunnel,实验证实该纠缠是模型固有属性,空间轴分离度更高的模型表现更鲁棒。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org