HuggingFace Daily Papers(社区热门论文)
69
迈向一致的视频几何估计
AI 摘要
ViGeo是一种前馈基础模型,用于从视频序列中恢复空间密集且时间一致的几何信息。它基于Transformer架构,支持流式、全序列和长视频推理。其核心设计为动态分块注意力机制,在训练时结合双向和因果时间上下文,并在测试时自适应调整。研究还引入基于补全的数据精炼框架,通过训练视频深度补全教师模型生成密集、时间连贯且可靠的训练目标。该模型在同一框架内同时预测深度、点图和表面法线,仅使用公开数据集训练,便在多个相关视频几何估计任务上达到了最先进水平。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org