NVIDIA Cosmos Predict 2.5 微调:使用 LoRA/DoRA 生成机器人视频
这篇教程把微调Cosmos Predict 2.5的方法从头到尾讲清楚了,做机器人合成数据的同行可以直接抄作业,LoRA/DoRA切换也很方便,值得收藏。
NVIDIA Cosmos Predict 2.5 是一个 2B 参数的世界模型,可根据文本、图像或视频片段生成物理合理的视频。通过 LoRA 或 DoRA 在 DiT 的注意力层(to_q, to_k, to_v, to_out.0)和前馈层注入可训练适配器,冻结全部基座权重,在单个 80GB GPU 上即可完成参数高效微调,避免了全量微调的高成本与灾难性遗忘。该流程使用 diffusers 和 accelerate 库,利用 92 个机器人操作视频训练集与 50 个 (prompt, image) 测试对进行微调,并展示如何用微调模型生成合成机器人轨迹以支持下游机器人学习任务。支持单 GPU 与多 GPU 训练,切换不同领域适配器无需重训。
这是一则列表来源,站内未收录完整正文。
阅读完整原文huggingface.co