HuggingFace Daily Papers(社区热门论文)
54
几何 matters: 3D基础先验用于学习语义对应
AI 摘要
自监督视觉模型与扩散模型提取的2D基础特征在语义对应任务中有效,但缺乏显式3D意识,易混淆对称物体的两侧、重复部件及视觉相似结构。新框架引入3D基础模型先验,使用SAM3D估计物体几何与位姿,并通过渲染比较优化进行细化。随后,基于估计位姿将PartField描述符从重建几何渲染至图像平面,生成几何感知特征图以补充DINO与Stable Diffusion特征,同时利用重建形状上的测地距离可靠过滤候选对应。该方法以过滤后的匹配为监督,训练一个轻量级适配器。与以往依赖位姿标注和粗略几何的后训练方法不同,此框架自动获取实例级3D结构并用于指导对应学习。实验表明,该方法在减少人工几何监督的同时提升了语义对应性能。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org