mmdetection icon indicating copy to clipboard operation
mmdetection copied to clipboard

MM-Grounding DINO训练过程中显存增加

Open zkyseu opened this issue 1 year ago • 8 comments

您好,我训练过程中发现MM-Grounding DINO显存在不断增加,我清楚Randomchoice resize可能是导致这个原因,但是为何batchsize=2,memory=12866,3090的24GB显存会溢出呢。我看训练过程中GPU的memory不断增加,这是什么原因?

zkyseu avatar Jan 25 '24 12:01 zkyseu

不会呀,我就是用的 3090 训练的,swin-t 的所有实验都是在 3090 上跑完的。

hhaAndroid avatar Jan 31 '24 02:01 hhaAndroid

你可以看一下我们发布的训练log

hhaAndroid avatar Jan 31 '24 02:01 hhaAndroid

@hhaAndroid 我看我这边训练log里mmdetection 输出显存占用为memory: 5951,为何用nvdia-smi查看时候GPU占用11959MB,这是为何

zkyseu avatar Feb 01 '24 02:02 zkyseu

@hhaAndroid 还有个不太理解的地方,当迭代到1000次迭代时候,显存会有一个明显的增加,这个是为何呢

zkyseu avatar Feb 01 '24 06:02 zkyseu

@zkyseu log 里面显示的 memory 是会偏小的,但是 nvdia-smi 中显示是最大能占用的,其实都不准确。3090 应该不会 OOM 的,我们模型就是 3090 上训练的。

hhaAndroid avatar Feb 05 '24 08:02 hhaAndroid

可能是torch版本原因吗? @hhaAndroid 训练的torch版本等环境信息可以发布吗

Baboom-l avatar Feb 07 '24 06:02 Baboom-l

应该和torch版本有关,高版本的pytorch为了提高训练速度可能会申请非常多的空间。我用的是torch2.1,batch_size为4时在A100上显存甚至会从18G增长到50G,但同样的容器在4090上训练了20个epoch也没有出错。

lanhas avatar Feb 07 '24 09:02 lanhas

您好,我训练过程中发现MM-Grounding DINO显存在不断增加,我清楚Randomchoice resize可能是导致这个原因,但是为何batchsize=2,memory=12866,3090的24GB显存会溢出呢。我看训练过程中GPU的memory不断增加,这是什么原因?

请问解决了吗,我是8张Tesla_V100_SXM2_32_GB,也显示显存溢出

KDgggg avatar Mar 18 '24 06:03 KDgggg