TensorFlow2.0-Examples icon indicating copy to clipboard operation
TensorFlow2.0-Examples copied to clipboard

跑到 40000 多个 epoch 时出现 loss: nan

Open DamageControlStudio opened this issue 6 years ago • 4 comments

TensorBoard 截图
=> STEP 46130 lr: 0.000270 giou_loss: 0.39 conf_loss: 0.02 prob_loss: 0.00 total_loss: 0.41
=> STEP 46131 lr: 0.000270 giou_loss: 0.37 conf_loss: 0.01 prob_loss: 0.00 total_loss: 0.38 => STEP 46132 lr: 0.000270 giou_loss: nan conf_loss: 0.88 prob_loss: 0.00 total_loss: nan
=> STEP 46133 lr: 0.000270 giou_loss: nan conf_loss: nan prob_loss: nan total_loss: nan
=> STEP 46134 lr: 0.000270 giou_loss: nan conf_loss: nan prob_loss: nan total_loss: nan

这样的情况也属于梯度爆炸吗?
我用的数据是 CCPD2019 车牌识别的图像集。
跑了几个小时,loss 从 1800 一直下降的很好,到 0.38。
46134 个 epoch,得到 8 万个 epoch 才跑完一遍数据集。

DamageControlStudio avatar Aug 18 '19 13:08 DamageControlStudio

你一轮还没跑完,不排除有脏数据的可能性,另外实在不行再调整下参数呢?

YunYang1994 avatar Aug 19 '19 12:08 YunYang1994

我也遇到了类似的问题,感觉这个是随机事件,大概和初始状态有关?重新跑一遍有时候就能过了

ckxz105 avatar Jan 24 '20 20:01 ckxz105

有时候nan之前的上个模型是可用的。。。

monoloxo avatar Mar 31 '20 08:03 monoloxo

我也遇到了总是giou_loss先变成nan的问题,而且总loss一直在大幅波动,该怎么解决呀

lichengxian avatar May 11 '20 06:05 lichengxian