DouZero icon indicating copy to clipboard operation
DouZero copied to clipboard

显存很快就满了

Open Julong-Zheng opened this issue 2 years ago • 8 comments

机器4张卡,单卡显存12G,上限只能跑如下参数,再大报显存错误了。 python -u train.py --gpu_devices 0,1,2,3 --num_actor_devices 3 --num_actors 2 --training_device 3

Julong-Zheng avatar Jun 30 '22 09:06 Julong-Zheng

什麼意思 這什麼服務 喔不太懂詛操作

傳自 iPhone 版的 Yahoo奇摩電子信箱

於 星期四, 6月 30, 2022, 5:35 下午,Julong-Zheng @.***> 寫道:

机器4张卡,单卡显存12G,上限只能跑如下参数,再大报显存错误了。 python -u train.py --gpu_devices 0,1,2,3 --num_actor_devices 3 --num_actors 2 --training_device 3

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you are subscribed to this thread.Message ID: @.***>

Starshowss avatar Jun 30 '22 09:06 Starshowss

你用的什么型号的显卡 操作系统是什么

daochenzha avatar Jun 30 '22 15:06 daochenzha

你用的什么型号的显卡 操作系统是什么

操作系统是ubuntu,显卡是RTX2080Ti,cuda版本是10.1,torch版本是1.7

Julong-Zheng avatar Jul 01 '22 02:07 Julong-Zheng

试下只用一个显卡看能跑几个,多个显卡可能哪里出问题了

daochenzha avatar Jul 02 '22 19:07 daochenzha

试下只用一个显卡看能跑几个,多个显卡可能哪里出问题了

单卡上限如下——

python -u train.py --gpu_devices 0,1 --num_actor_devices 1 --num_actors 7 --training_device 1

Julong-Zheng avatar Jul 04 '22 08:07 Julong-Zheng

机器重启了一下,可能之前有什么其他问题吧,目前4张卡能跑到的上限如下—— python -u train.py --gpu_devices 0,1,2,3 --num_actor_devices 3 --num_actors 9 --training_device 3

num_actors 还是到不了你们的15

Julong-Zheng avatar Jul 05 '22 05:07 Julong-Zheng

这个启动一个act进程,就会占用大概2g显存。

1978mountain avatar Aug 03 '22 09:08 1978mountain

这个启动一个act进程,就会占用大概2g显存。

无所谓啦,我能启动9*3-27个actor也行了,多跑一段时间即可。但是现在主要是效果复现不了,跑了一个月还是很糟糕,完全达不到他们放到网上的水平,虽然网上那个水平也并不很好(反正打不过我)。

Julong-Zheng avatar Aug 03 '22 09:08 Julong-Zheng