models icon indicating copy to clipboard operation
models copied to clipboard

SSD_loss 训练公开数据集在几个 epoch 后 loss 突然变 nan

Open xuzhm opened this issue 5 years ago • 7 comments

image
使用 object_detection 中的SSD 训练 deepfashion 数据集时,在经过几个 epoch 后会随机出现 loss nan 如图,(多次调整learning_rate, batch_size都会随机出现nan ),数据跑过一轮,应该不是数据标注问题, 猜测可能是 ssd_loss 中数值边界处理的问题
image

xuzhm avatar Apr 06 '19 07:04 xuzhm

@xuzhm 请问您加载预训练模型了吗?起始的learning rate多大?

qingqing01 avatar Apr 08 '19 06:04 qingqing01

@qingqing01 加载了预训练模型, learning rate 从 1e-04, 1e-05, 1e-06, 1e-07 都会出现 nan

xuzhm avatar Apr 08 '19 10:04 xuzhm

@xuzhm 之前Hi上已沟通,请问现在怎么样了?

qingqing01 avatar Apr 12 '19 11:04 qingqing01

现在还是会nan,我以为是我自己写的模型的有问题,后换成官方的源代码,官方提供的预训练模型,训练1轮以后开始出现nan。

huihuiustc avatar Aug 11 '19 06:08 huihuiustc

@qingqing01 是不是你们GPU和CPU版本有较大差异?我在做uniform剪枝的时候,当开启GPU的时候无论如何设置learning rate出来的loss始终是nan;当关闭GPU的时候loss就正常了。

zakai86 avatar Aug 14 '19 07:08 zakai86

同样复现这个问题。训练第一轮或几轮的时候没有问题,到了后面几轮就会出现 loss 为 nan 的情况。尝试了把ssd的分类数减少到20以内就没问题,分类数大于20就会稳定复现,调整learn rate也没法。加载了预训练模型

JiaoZiLang avatar Aug 25 '19 05:08 JiaoZiLang

@qingqing01 加载了预训练模型, learning rate 从 1e-04, 1e-05, 1e-06, 1e-07 都会出现 nan

层主问题解决了嘛?

errllxj avatar Aug 10 '21 02:08 errllxj