几何 matters： 3D基础先验用于学习语义对应

2026-05-28 08:00·18天前

AI 摘要

自监督视觉模型与扩散模型提取的2D基础特征在语义对应任务中有效，但缺乏显式3D意识，易混淆对称物体的两侧、重复部件及视觉相似结构。新框架引入3D基础模型先验，使用SAM3D估计物体几何与位姿，并通过渲染比较优化进行细化。随后，基于估计位姿将PartField描述符从重建几何渲染至图像平面，生成几何感知特征图以补充DINO与Stable Diffusion特征，同时利用重建形状上的测地距离可靠过滤候选对应。该方法以过滤后的匹配为监督，训练一个轻量级适配器。与以往依赖位姿标注和粗略几何的后训练方法不同，此框架自动获取实例级3D结构并用于指导对应学习。实验表明，该方法在减少人工几何监督的同时提升了语义对应性能。

该来源未收录可展示正文，站内仅提供摘要。

arXivGitHub多模态论文/研究

HuggingFace Daily Papers（社区热门论文）

几何 matters： 3D基础先验用于学习语义对应

2026-05-28 08:00·18天前

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文arxiv.org

arXivGitHub多模态论文/研究