HuggingFace Daily Papers（社区热门论文）

TrackCraft3R：将视频扩散Transformer改造为前馈式密集3D跟踪器

2026-05-12 08:00·33天前

AI 摘要

TrackCraft3R首次将预训练的视频扩散Transformer改造为前馈式密集3D跟踪器。该方法通过双潜在表征（几何潜在与跟踪潜在）和时序RoPE对齐两项核心设计，将视频DiT的逐帧生成范式转换为以参考帧为锚点的跟踪范式，仅需LoRA微调。给定单目视频及其逐帧重建点云图，模型能单次前向传播预测出以首帧为锚点的跟踪点云图及其可见性。该方法在标准3D跟踪基准上实现了最优性能，同时以1.3倍的速度和仅需1/4.6的峰值内存运行，并对大幅运动和长视频保持鲁棒性。

该来源未收录可展示正文，站内仅提供摘要。

arXiv多模态视频论文/研究

阅读原文

HuggingFace Daily Papers（社区热门论文）

TrackCraft3R：将视频扩散Transformer改造为前馈式密集3D跟踪器

2026-05-12 08:00·33天前

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文arxiv.org

arXiv多模态视频论文/研究