BasicSR
BasicSR copied to clipboard
大数据集训练前疯狂使用内存
你好我在训练一个20倍imagenet大小数据集,我使用torch dist,4卡,在训练前执行logger.info(f'Start training from epoch: {start_epoch}, iter: {current_iter}') 这行之前,内存就疯狂使用(超过300G内存占用),按理来说不是应该只使用当前batch size部分的数据进入内存吗,为什么会使用如此多,求解答
修正一下是在logger.info(f'Start training from epoch: {start_epoch}, iter: {current_iter}') 这行之后,在第一次forward之前