TensorFlow2.0-Examples
TensorFlow2.0-Examples copied to clipboard
跑到 40000 多个 epoch 时出现 loss: nan

=> STEP 46130 lr: 0.000270 giou_loss: 0.39 conf_loss: 0.02 prob_loss: 0.00 total_loss: 0.41
=> STEP 46131 lr: 0.000270 giou_loss: 0.37 conf_loss: 0.01 prob_loss: 0.00 total_loss: 0.38
=> STEP 46132 lr: 0.000270 giou_loss: nan conf_loss: 0.88 prob_loss: 0.00 total_loss: nan
=> STEP 46133 lr: 0.000270 giou_loss: nan conf_loss: nan prob_loss: nan total_loss: nan
=> STEP 46134 lr: 0.000270 giou_loss: nan conf_loss: nan prob_loss: nan total_loss: nan
这样的情况也属于梯度爆炸吗?
我用的数据是 CCPD2019 车牌识别的图像集。
跑了几个小时,loss 从 1800 一直下降的很好,到 0.38。
46134 个 epoch,得到 8 万个 epoch 才跑完一遍数据集。
你一轮还没跑完,不排除有脏数据的可能性,另外实在不行再调整下参数呢?
我也遇到了类似的问题,感觉这个是随机事件,大概和初始状态有关?重新跑一遍有时候就能过了
有时候nan之前的上个模型是可用的。。。
我也遇到了总是giou_loss先变成nan的问题,而且总loss一直在大幅波动,该怎么解决呀