HuggingFace Daily Papers（社区热门论文）

迈向一致的视频几何估计

2026-05-28 08:00·18天前

AI 摘要

ViGeo是一种前馈基础模型，用于从视频序列中恢复空间密集且时间一致的几何信息。它基于Transformer架构，支持流式、全序列和长视频推理。其核心设计为动态分块注意力机制，在训练时结合双向和因果时间上下文，并在测试时自适应调整。研究还引入基于补全的数据精炼框架，通过训练视频深度补全教师模型生成密集、时间连贯且可靠的训练目标。该模型在同一框架内同时预测深度、点图和表面法线，仅使用公开数据集训练，便在多个相关视频几何估计任务上达到了最先进水平。

该来源未收录可展示正文，站内仅提供摘要。

视频论文/研究

阅读原文

HuggingFace Daily Papers（社区热门论文）

迈向一致的视频几何估计

2026-05-28 08:00·18天前

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文arxiv.org

视频论文/研究