作者你好,谢谢你非常不错的工作, 在我训练时大约在60k个iter会出现loss都变成NAN的情况并且按照 issue#8 的解决办法选取checkpoint继续train 但是一段时间后还是会出现loss变为NAN的情况(如下图),似乎无法解决,想请教一下您怎么train让模型收敛到最终的结果的?
我也遇到这个问题,请问您解决了吗,就突然可能会nan
我也遇到了这个问题,请问您解决了吗