BasicSR icon indicating copy to clipboard operation
BasicSR copied to clipboard

大数据集训练前疯狂使用内存

Open NTUYWANG103 opened this issue 2 years ago • 2 comments

你好我在训练一个20倍imagenet大小数据集,我使用torch dist,4卡,在训练前执行logger.info(f'Start training from epoch: {start_epoch}, iter: {current_iter}') 这行之前,内存就疯狂使用(超过300G内存占用),按理来说不是应该只使用当前batch size部分的数据进入内存吗,为什么会使用如此多,求解答

NTUYWANG103 avatar Jun 03 '23 14:06 NTUYWANG103

修正一下是在logger.info(f'Start training from epoch: {start_epoch}, iter: {current_iter}') 这行之后,在第一次forward之前

NTUYWANG103 avatar Jun 03 '23 14:06 NTUYWANG103