snake-ai icon indicating copy to clipboard operation
snake-ai copied to clipboard

分享训练时候的 memory, cpu, gpu 信息

Open Dreamgoing opened this issue 1 year ago • 9 comments

非常赞的project!我可以在本地test,但是train的时候,memory和cpu oom了。作者可否分享一下cpu和memory的信息

Dreamgoing avatar May 20 '23 15:05 Dreamgoing

图片

瞎点..不知道对不对..你可以参考一下...

lang07123 avatar May 22 '23 09:05 lang07123

谢谢

Dreamgoing avatar May 22 '23 14:05 Dreamgoing

CPU: I5-10400 内存: 32G内存 显卡: RTX2060 6G sata SSD

图片 跑了15个小时跟作者5个小时差不多......

lang07123 avatar May 23 '23 01:05 lang07123

@lang07123 我用linux 服务器训练的,设置SDL_VIDEODRIVER='dummy',16C128G,GPU利用率周期性0-28%,env=64,batch_size=1024, 到50M时候也15个小时。。。

pangyouzhen avatar May 23 '23 02:05 pangyouzhen

找到一个文档多进程训练,https://colab.research.google.com/github/Stable-Baselines-Team/rl-colab-notebooks/blob/sb3/multiprocessing_rl.ipynb#scrollTo=xDHLMA6NFk95 多进程训练

pangyouzhen avatar May 23 '23 02:05 pangyouzhen

@lang07123 我用linux 服务器训练的,设置SDL_VIDEODRIVER='dummy',16C128G,GPU利用率周期性0-28%,env=64,batch_size=1024, 到50M时候也15个小时。。。

我刚才用M2 的 macbook pro 测试了一下.... 大概是RTX 2060 的两倍...但是热的烫手..舍不得了....

lang07123 avatar May 23 '23 06:05 lang07123

@lang07123 我用linux 服务器训练的,设置SDL_VIDEODRIVER='dummy',16C128G,GPU利用率周期性0-28%,env=64,batch_size=1024, 到50M时候也15个小时。。。

那你的估计还可以加操作... 我的2060 基本上100%了..也就是这个速度了...

lang07123 avatar May 23 '23 06:05 lang07123

@lang07123 发现linux服务器不行,提高env和batch_size效果也一般,如果看进程的话,CPU应该只占用了1核,GPU周期性波动,linux服务器根本发挥不出优势,也不知道咋改了

pangyouzhen avatar May 24 '23 12:05 pangyouzhen

CPU: I5-10400 内存: 32G内存 显卡: RTX2060 6G sata SSD

图片 跑了15个小时跟作者5个小时差不多......

作者用的是4090,我用4090和作者的速率差不多

sjgfa avatar May 28 '23 12:05 sjgfa