ImageReward
ImageReward copied to clipboard
Question regarding the training loss of LDM
感谢你出色的开源工作!请问一下LDM训练过程的损失是把以下图中两个损失加起来吗?
好像代码只用了奖励模型的损失?