millioniron issues

Repositories
Issues
Comments

Results 1 issues of


                                            millioniron

make experience的ratio或kl_loss爆炸（GRPO）

如题，我们观察到在on-policy时，new_log_probs和old_log_probs不一致，exp后可能是1.002或0.997。如果只是这样也还好，但是有可能会变成巨大数值（5e+8），clip也没办法限制，pgloss巨大。同时KL_los在训练过程中可能会有spike ![Image](https://github.com/user-attachments/assets/1ed19c1b-739c-407b-b6b8-3d6827b3f572) ,与这个相似https://github.com/OpenRLHF/OpenRLHF/issues/525，但没有这么频繁。我们多次运行下spike会随机的出现，spike的出现不会导致模型训练失败，但是如果不出现spike（或尽可能少的出现），模型最终的效果会更好。