GDR-Net icon indicating copy to clipboard operation
GDR-Net copied to clipboard

关于cuda版本的问题

Open fn6767 opened this issue 3 years ago • 9 comments

您好,请问我使用cuda11以上的版本可以训练吗,因为我只有A6000和A100的显卡,它们不兼容cuda11以下的版本。我用cuda11.1和torch1.8或者1.9训练时,都会报double free or corruption (!prev)、RuntimeError: DataLoader worker (pid(s) xxxxx) exited unexpectedly。

fn6767 avatar Jul 16 '21 08:07 fn6767

能用pytorch 1.7.1吗,1.8有问题,1.9我会试试

wangg12 avatar Jul 16 '21 09:07 wangg12

1.8之前我测过确实有问题,pytorch官方有很多类似的issue, 我用1.9跑了下是没问题的,不过我没有A系列的显卡

wangg12 avatar Jul 16 '21 12:07 wangg12

您用torch1.9跑没问题的cuda是cuda11吗?

fn6767 avatar Jul 17 '21 03:07 fn6767

cuda 11.1也可以的

wangg12 avatar Jul 17 '21 09:07 wangg12

我尝试了cuda11.1+torch1.9的配置,会报错malloc(): invalid size (unsorted)

fn6767 avatar Jul 17 '21 11:07 fn6767

或者报malloc(): memory corruption

fn6767 avatar Jul 17 '21 13:07 fn6767

能用pytorch 1.7.1吗,1.8有问题,1.9我会试试 你好,我尝试了pytorch1.7.1+cuda11.0,也是会有RuntimeError: DataLoader worker (pid(s) xxxxx) exited unexpectedly的报错,我用的是RTX3090显卡

peppa114 avatar Sep 04 '21 05:09 peppa114

应该是内存不够,我开始也碰到了这个问题,把batch_size改小或者加大内存

fn6767 avatar Sep 04 '21 05:09 fn6767

应该是内存不够,我开始也碰到了这个问题,把batch_size改小或者加大内存 我的机器内存应该是够的,有125g,之前尝试改了bath_size=12,中间还是会断,目前改成bath_size=2,运行正常,还没有断 Screenshot from 2021-09-04 18-04-11

peppa114 avatar Sep 04 '21 10:09 peppa114