millioniron
Results
1
issues of
millioniron
如题,我们观察到在on-policy时,new_log_probs和old_log_probs不一致,exp后可能是1.002或0.997。如果只是这样也还好,但是有可能会变成巨大数值(5e+8),clip也没办法限制,pgloss巨大。 同时KL_los在训练过程中可能会有spike  ,与这个相似https://github.com/OpenRLHF/OpenRLHF/issues/525, 但没有这么频繁。 我们多次运行下spike会随机的出现,spike的出现不会导致模型训练失败,但是如果不出现spike(或尽可能少的出现),模型最终的效果会更好。