mmdetection MM-Grounding DINO训练过程中显存增加

MM-Grounding DINO训练过程中显存增加

Open zkyseu opened this issue 1 year ago • 8 comments

您好，我训练过程中发现MM-Grounding DINO显存在不断增加，我清楚Randomchoice resize可能是导致这个原因，但是为何batchsize=2，memory=12866，3090的24GB显存会溢出呢。我看训练过程中GPU的memory不断增加，这是什么原因？

Jan 25 '24 12:01 zkyseu

不会呀，我就是用的 3090 训练的，swin-t 的所有实验都是在 3090 上跑完的。

Jan 31 '24 02:01 hhaAndroid

你可以看一下我们发布的训练log

Jan 31 '24 02:01 hhaAndroid

@hhaAndroid 我看我这边训练log里mmdetection 输出显存占用为memory: 5951，为何用nvdia-smi查看时候GPU占用11959MB，这是为何

Feb 01 '24 02:02 zkyseu

@hhaAndroid 还有个不太理解的地方，当迭代到1000次迭代时候，显存会有一个明显的增加，这个是为何呢

Feb 01 '24 06:02 zkyseu

@zkyseu log 里面显示的 memory 是会偏小的，但是 nvdia-smi 中显示是最大能占用的，其实都不准确。3090 应该不会 OOM 的，我们模型就是 3090 上训练的。

Feb 05 '24 08:02 hhaAndroid

可能是torch版本原因吗？ @hhaAndroid 训练的torch版本等环境信息可以发布吗

Feb 07 '24 06:02 Baboom-l

应该和torch版本有关，高版本的pytorch为了提高训练速度可能会申请非常多的空间。我用的是torch2.1，batch_size为4时在A100上显存甚至会从18G增长到50G，但同样的容器在4090上训练了20个epoch也没有出错。

Feb 07 '24 09:02 lanhas

您好，我训练过程中发现MM-Grounding DINO显存在不断增加，我清楚Randomchoice resize可能是导致这个原因，但是为何batchsize=2，memory=12866，3090的24GB显存会溢出呢。我看训练过程中GPU的memory不断增加，这是什么原因？

请问解决了吗，我是8张Tesla_V100_SXM2_32_GB，也显示显存溢出

Mar 18 '24 06:03 KDgggg