COSNet icon indicating copy to clipboard operation
COSNet copied to clipboard

out of memory during training

Open NoaHimesaka opened this issue 4 years ago • 5 comments

在训练阶段,我使用的是单个GPU 1080ti 显存是11GB 但是显示 RuntimeError: CUDA out of memory. 即使是把input size 从 473 调整到 378 ,依旧显示这个问题,请问有什么好的解决办法吗?

NoaHimesaka avatar Sep 03 '20 01:09 NoaHimesaka

使用2个1080ti的情况下 只有调整batch_size=4 input size=378*378 才不会出现这个问题。。 但是效果就不好

NoaHimesaka avatar Sep 03 '20 07:09 NoaHimesaka

有同样的问题,你是怎莫解决的

Starboy-at-earth avatar Sep 16 '20 07:09 Starboy-at-earth

有同样的问题,你是怎莫解决的

我就用了4个1080ti,把batchsize设置成8 但是效果还是比作者batchsize=16的模型差了约2% 顺便问一下你调整reference frame和使用crf结果会有差距吗?我测试的结果没有差距 很奇怪

NoaHimesaka avatar Sep 17 '20 03:09 NoaHimesaka

有同样的问题,你是怎莫解决的

我就用了4个1080ti,把batchsize设置成8 但是效果还是比作者batchsize=16的模型差了约2% 顺便问一下你调整reference frame和使用crf结果会有差距吗?我测试的结果没有差距 很奇怪

能加个qq交流一下吗,我猜是因为你的4路1080ti的问题。作者应该是用了两个24gram的Titan,因为你这样训练相当于每个GPU上只有两个在做BN,一般至少四个。没看见作者代码里写了跨GPU的BN。而且1080ti的图片size必须得限制到378以下。我的qq是2667004002

Starboy-at-earth avatar Sep 17 '20 12:09 Starboy-at-earth

@NoaHimesaka 您好,方便询问一些训练细节吗。我的qq是61758265

zhenghao977 avatar May 22 '21 12:05 zhenghao977