Flow-DPPO：面向流匹配模型的散度近端策略优化

2026-06-09 08:00·6天前

精选理由

用 KL 散度代替比值裁剪来解决流匹配 RL 训练的不稳定，理论简洁，代码已开源，做图像/视频生成优化的同学可以跑一下。

AI 摘要

针对流匹配模型中在线强化学习比率裁剪策略约束不当的问题，Flow-DPPO 提出用散度近端约束替代。关键洞察是流模型每步策略为高斯分布，可精确计算新旧策略间的 KL 散度。Flow-DPPO 采用非对称散度掩码，仅在梯度更新偏离信任区域且超阈值时阻止更新。实验表明，Flow-DPPO 获得更高奖励，KL 近端效率更优，缓解了灾难性遗忘，促进多目标均衡，并能在比率裁剪失效时支持稳定的多轮训练。代码已开源。

该来源未收录可展示正文，站内仅提供摘要。

图像生成推理视频论文/研究

阅读原文

HuggingFace Daily Papers（社区热门论文）

精选73

Flow-DPPO：面向流匹配模型的散度近端策略优化

2026-06-09 08:00·6天前

精选理由

用 KL 散度代替比值裁剪来解决流匹配 RL 训练的不稳定，理论简洁，代码已开源，做图像/视频生成优化的同学可以跑一下。

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文arxiv.org

图像生成推理视频论文/研究

Flow-DPPO： 面向流匹配模型的散度近端策略优化

Flow-DPPO： 面向流匹配模型的散度近端策略优化

Flow-DPPO：面向流匹配模型的散度近端策略优化

Flow-DPPO：面向流匹配模型的散度近端策略优化