为何远处看向上方：探查视觉语言模型中的空间表征

2026-05-28 08:00·18天前

AI 摘要

视觉语言模型（VLMs）在空间推理基准上表现优异，但其理解是否基于真正的3D结构尚不明确。研究通过构建对比嵌入对进行表征分析，发现多个模型族存在一致的“垂直距离纠缠”现象，即模型将图像垂直位置与空间距离混淆，这模仿了自然照片的透视偏差。该偏差导致模型在透视一致与反直觉案例间准确率差距显著，且随数据规模扩大而加剧，即使基准分数提升。分析还表明，基准分数相似的模型可能具有不同的内部表征，这能预测其在不同任务中的准确率与鲁棒性。为隔离数据集偏差，团队推出了合成基准SpatialTunnel，实验证实该纠缠是模型固有属性，空间轴分离度更高的模型表现更鲁棒。

该来源未收录可展示正文，站内仅提供摘要。

多模态推理论文/研究

HuggingFace Daily Papers（社区热门论文）

为何远处看向上方：探查视觉语言模型中的空间表征

2026-05-28 08:00·18天前

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文arxiv.org

多模态推理论文/研究