YOWOv2 icon indicating copy to clipboard operation
YOWOv2 copied to clipboard

调大batchsize就会报错

Open LewisLeiyongsheng opened this issue 2 years ago • 4 comments

image 如图,当Batchsize为8的时候能够正常训练,但是当调大为16及以上后就会报错。使用的是特斯拉V100显存32G,理论上调到80都是够用的。

LewisLeiyongsheng avatar Jul 10 '23 07:07 LewisLeiyongsheng

调试后定位到错误,当调大Batchsize后,会出现数据为Nan的情况,定位到ShuffleNetv2的3D卷积的位置,在进行卷积运算之后就会报错 image

LewisLeiyongsheng avatar Jul 10 '23 07:07 LewisLeiyongsheng

发现现在batchsize为8的时候也会报错了,再定位发现有些输入数据非常多0,是我的数据加载有问题吗? a26d0bb1e7bdebe762783477ce0c0e0

LewisLeiyongsheng avatar Jul 10 '23 14:07 LewisLeiyongsheng

你好,请问,请问为什么进行DDP训练损失异常的大,但是进行单卡训练没有这种情况。谢谢解答

T-wow avatar Jul 01 '24 14:07 T-wow

我也不太清楚,那就尽量单卡训练呗,其实训练时间也不算长

LewisLeiyongsheng avatar Jul 02 '24 01:07 LewisLeiyongsheng