HuggingFace Daily Papers(社区热门论文)
38
CIPER:跨视角图像检索与位姿估计的统一框架
AI 摘要
现有跨视角地理定位方法将城市级检索和精确位姿估计分离,导致级联误差与特征不一致。CIPER提出单一架构同时完成两项任务:采用共享Transformer编码器配合任务专用token,分离全局检索特征与空间定位线索;引入双向Transformer位姿解码器,以地面特征作为空间查询进行双向交叉注意力,弥合地面与航拍视角的域差距。基于集合预测策略实现稳定3-DoF回归。在VIGOR、KITTI和Ford Multi-AV数据集上,CIPER在有限视场角和任意朝向条件下表现优越。代码已开源。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org