MARBLE:面向扩散模型强化学习的多维度奖励平衡框架 · AI HOT