L1n111ya
Results
1
comments of
L1n111ya
> > > 我把accum_freq这个参数设置为1之后就莫名其妙好了,也可能和batch size有关,我把单卡batch size设置成了200 > > > > > > 请问你有用自己的数据集吗,我这边遇到的问题是使用自己的数据集,loss一直不收敛,和题主的还不太一样,不知道是不是我标签什么的做错了 > > 我用的是自己的数据,当时的情况是开始几个batch的loss正常,精度有七十多,后面loss就变为了non,精度变成三十多。 我之前怀疑是梯度爆炸,然后去代码里面加上了梯度裁剪,但是还是没什么用。 后面把学习率设置为0,发现还是会出现这样的情况 所以我怀疑这和硬件有关,我把单卡batch size设置成210 的时候,loss有时候正常有时候为non,它们交替出现,我单卡显存是32g 我的问题和你一样,有时候正常,有时候nan,正常的时候从整体来看,只看正常的话是在收敛的