HuggingFace Daily Papers(社区热门论文)
62
TrackCraft3R:将视频扩散Transformer改造为前馈式密集3D跟踪器
AI 摘要
TrackCraft3R首次将预训练的视频扩散Transformer改造为前馈式密集3D跟踪器。该方法通过双潜在表征(几何潜在与跟踪潜在)和时序RoPE对齐两项核心设计,将视频DiT的逐帧生成范式转换为以参考帧为锚点的跟踪范式,仅需LoRA微调。给定单目视频及其逐帧重建点云图,模型能单次前向传播预测出以首帧为锚点的跟踪点云图及其可见性。该方法在标准3D跟踪基准上实现了最优性能,同时以1.3倍的速度和仅需1/4.6的峰值内存运行,并对大幅运动和长视频保持鲁棒性。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org