keras-yolo3
keras-yolo3 copied to clipboard
利用单gpu训练,速度还是很慢
gpu的利用率只有14%,而且还是周期波动的,一会0,一会变成14%
gpu的利用率只有14%,而且还是周期波动的,一会0,一会变成14%
试着把batch size调大点。这说明GPU没有饱和。喂给GPU的数据不够GPU消耗
但是batch size社大了显存不够了
| | 杨定康 | | 邮箱:[email protected] |
签名由 网易邮箱大师 定制
在2019年08月09日 13:29,QiJia 写道:
gpu的利用率只有14%,而且还是周期波动的,一会0,一会变成14%
试着把batch size调大点。这说明GPU没有饱和。喂给GPU的数据不够GPU消耗
— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or mute the thread.
但是batch size社大了显存不够了 | | 杨定康 | | 邮箱:[email protected] | 签名由 网易邮箱大师 定制 在2019年08月09日 13:29,QiJia 写道: gpu的利用率只有14%,而且还是周期波动的,一会0,一会变成14% 试着把batch size调大点。这说明GPU没有饱和。喂给GPU的数据不够GPU消耗 — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or mute the thread.
你多大显存?
1080ti显卡
| | 杨定康 | | 邮箱:[email protected] |
签名由 网易邮箱大师 定制
在2019年08月09日 15:15,QiJia 写道:
但是batch size社大了显存不够了 | | 杨定康 | | 邮箱:[email protected] | 签名由 网易邮箱大师 定制 在2019年08月09日 13:29,QiJia 写道: gpu的利用率只有14%,而且还是周期波动的,一会0,一会变成14% 试着把batch size调大点。这说明GPU没有饱和。喂给GPU的数据不够GPU消耗 — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or mute the thread.
你多大显存?
— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or mute the thread.
1080ti显卡 | | 杨定康 | | 邮箱:[email protected] | 签名由 网易邮箱大师 定制 在2019年08月09日 15:15,QiJia 写道: 但是batch size社大了显存不够了 | | 杨定康 | | 邮箱:[email protected] | 签名由 网易邮箱大师 定制 在2019年08月09日 13:29,QiJia 写道: gpu的利用率只有14%,而且还是周期波动的,一会0,一会变成14% 试着把batch size调大点。这说明GPU没有饱和。喂给GPU的数据不够GPU消耗 — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or mute the thread. 你多大显存? — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or mute the thread.
应该是哪里有问题。不然不可能这么低。我泰坦X训练起来占用率都在60以上的。你检查下cuda,cudnn什么的。跑个其它训练代码,看看占用率正常不。
好的,谢谢你的解答
| | 杨定康 | | 邮箱:[email protected] |
签名由 网易邮箱大师 定制
在2019年08月09日 15:19,QiJia 写道:
1080ti显卡 | | 杨定康 | | 邮箱:[email protected] | 签名由 网易邮箱大师 定制 在2019年08月09日 15:15,QiJia 写道: 但是batch size社大了显存不够了 | | 杨定康 | | 邮箱:[email protected] | 签名由 网易邮箱大师 定制 在2019年08月09日 13:29,QiJia 写道: gpu的利用率只有14%,而且还是周期波动的,一会0,一会变成14% 试着把batch size调大点。这说明GPU没有饱和。喂给GPU的数据不够GPU消耗 — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or mute the thread. 你多大显存? — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or mute the thread.
应该是哪里有问题。不然不可能这么低。我泰坦X训练起来占用率都在60以上的。你检查下cuda,cudnn什么的。跑个其它训练代码,看看占用率正常不。
— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or mute the thread.
把units下面的get_random_data里的distort image,这部分注释掉,这个太吃cpu了,我就是CPU满载,然后也是你那样了,注释掉之后就正常了,但要加一行image_data = np.array(image)/255.
谢谢,但是改了之后还是周期性的0-23的循环,不知道你有没有解决?
| | 杨定康 | | 邮箱:[email protected] |
签名由 网易邮箱大师 定制
在2019年08月11日 02:21,az631132770 写道:
把units下面的get_random_data里的distort image,这部分注释掉,这个太吃cpu了,我就是CPU满载,然后也是你那样了,注释掉之后就正常了,但要加一行image_data = np.array(image)/255.
— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or mute the thread.
谢谢,但是改了之后还是周期性的0-23的循环,不知道你有没有解决? | | 杨定康 | | 邮箱:[email protected] | 签名由 网易邮箱大师 定制 在2019年08月11日 02:21,az631132770 写道: 把units下面的get_random_data里的distort image,这部分注释掉,这个太吃cpu了,我就是CPU满载,然后也是你那样了,注释掉之后就正常了,但要加一行image_data = np.array(image)/255. — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or mute the thread.
那你试试直接把那个函数的参数里的random设置成false,我把我说的那一块注释掉后就正常了,维持在70%-80%
说到底还是预处理太多了,gpu 利用率太低
不太明白,才刚接触
在 2019-08-13 16:19:14,"potter" [email protected] 写道:
说到底还是预处理太多了,gpu 利用率太低
— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or mute the thread.
我也遇到了同样的问题,单GPU训练,显存占满了,但是利用率很低,请问你现在解决了吗?
没有解决
发自网易邮箱大师
在2019年9月5日 15:49,Johanna[email protected] 写道:
我也遇到了同样的问题,单GPU训练,显存占满了,但是利用率很低,请问你现在解决了吗?
— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or mute the thread.
好吧,谢谢
Regards,
Jinghan Yang,
Academy of Mathematics and Systems Science, Chinese Academy of Sciences
Beijing, China
------------------ Original ------------------ From: "mhealth"[email protected]; Date: 2019年9月10日(星期二) 晚上8:45 To: "qqwweee/keras-yolo3"[email protected]; Cc: "杨婧涵"[email protected]; "Comment"[email protected]; Subject: Re: [qqwweee/keras-yolo3] 利用单gpu训练,速度还是很慢 (#524)
没有解决
发自网易邮箱大师
在2019年9月5日 15:49,Johanna[email protected] 写道:
我也遇到了同样的问题,单GPU训练,显存占满了,但是利用率很低,请问你现在解决了吗?
— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or mute the thread. — You are receiving this because you commented. Reply to this email directly, view it on GitHub, or mute the thread.
@latte193 请问有发现原因吗?我这边是显存占满了,但是GPU CPU利用率都很低
我也是这样的情况,目前没有找到原因所在。我的GPU显存占满,利用率只有10%不到,很头大。
Regards,
Jinghan Yang,
Academy of Mathematics and Systems Science, Chinese Academy of Sciences
Beijing, China
------------------ Original ------------------ From: "chen3718"[email protected]; Date: 2019年9月18日(星期三) 下午2:45 To: "qqwweee/keras-yolo3"[email protected]; Cc: "杨婧涵"[email protected]; "Mention"[email protected]; Subject: Re: [qqwweee/keras-yolo3] 利用单gpu训练,速度还是很慢 (#524)
@latte193 请问有发现原因吗?我这边是显存占满了,但是GPU CPU利用率都很低
— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or mute the thread.
我也是这样的情况,目前没有找到原因所在。我的GPU显存占满,利用率只有10%不到,很头大。 … ------------------ Regards, Jinghan Yang, Academy of Mathematics and Systems Science, Chinese Academy of Sciences Beijing, China ------------------ Original ------------------ From: "chen3718"[email protected]; Date: 2019年9月18日(星期三) 下午2:45 To: "qqwweee/keras-yolo3"[email protected]; Cc: "杨婧涵"[email protected]; "Mention"[email protected]; Subject: Re: [qqwweee/keras-yolo3] 利用单gpu训练,速度还是很慢 (#524) @latte193 请问有发现原因吗?我这边是显存占满了,但是GPU CPU利用率都很低 — You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or mute the thread.
感觉是单worker在读取数据,这期间GPU就不工作,watch -n看GPU都是随着每个step占用率周期变化的
嗯嗯,有可能,我读入数据的地方应该有点问题,不过最近在忙其他事情,还没有试过,待我尝试了有结果再告诉你。
Regards,
Jinghan Yang,
Academy of Mathematics and Systems Science, Chinese Academy of Sciences
Beijing, China
------------------ 原始邮件 ------------------ 发件人: "chen3718"[email protected]; 发送时间: 2019年9月24日(星期二) 下午2:22 收件人: "qqwweee/keras-yolo3"[email protected]; 抄送: "杨婧涵"[email protected]; "Mention"[email protected]; 主题: Re: [qqwweee/keras-yolo3] 利用单gpu训练,速度还是很慢 (#524)
我也是这样的情况,目前没有找到原因所在。我的GPU显存占满,利用率只有10%不到,很头大。 … ------------------ Regards, Jinghan Yang, Academy of Mathematics and Systems Science, Chinese Academy of Sciences Beijing, China ------------------ Original ------------------ From: "chen3718"[email protected]; Date: 2019年9月18日(星期三) 下午2:45 To: "qqwweee/keras-yolo3"[email protected]; Cc: "杨婧涵"[email protected]; "Mention"[email protected]; Subject: Re: [qqwweee/keras-yolo3] 利用单gpu训练,速度还是很慢 (#524) @latte193 请问有发现原因吗?我这边是显存占满了,但是GPU CPU利用率都很低 — You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or mute the thread.
感觉是单worker在读取数据,这期间GPU就不工作,watch -n看GPU都是随着每个step占用率周期变化的
— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or mute the thread.
你好,我也是单GPU 运行出现模块无法导入,请问你的单GPU遇见了吗? from keras.utils import multi_gpu_model ImportError: cannot import name 'multi_gpu_model'
倒没有模块无法导入的问题
Regards,
Jinghan Yang,
Academy of Mathematics and Systems Science, Chinese Academy of Sciences
Beijing, China
------------------ 原始邮件 ------------------ 发件人: "kentx"[email protected]; 发送时间: 2019年10月6日(星期天) 晚上11:26 收件人: "qqwweee/keras-yolo3"[email protected]; 抄送: "杨婧涵"[email protected]; "Mention"[email protected]; 主题: Re: [qqwweee/keras-yolo3] 利用单gpu训练,速度还是很慢 (#524)
你好,我也是单GPU 运行出现模块无法导入,请问你的单GPU遇见了吗? from keras.utils import multi_gpu_model ImportError: cannot import name 'multi_gpu_model'
— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or mute the thread.
我也是GPU 1660 6G显存 但是运行训练就报错: failed to allocate 4.83G (5184278528 bytes) from device: CUDA_ERROR_OUT_OF_MEMORY 。。。。。 有人知道什么原因么? 谢谢 跟踪发现 这句一运行model_body = yolo_body(image_input, num_anchors//3, num_classes) 就报上面的错 。。。
@vc815 CUDA_ERROR_OUT_OF_MEMORY,很明显啊,GPU没有显存空间了,你是小白吧?加少batch_size吧,把Adam优化器换成SGD
这问题有人解决了吗? 还是遇到这个问题。
有人解决的吗?我现在也是我2080Ti利用率都没过过3%,cuda计算也是震荡,基本0-50波动
有人解决的吗?我现在也是我2080Ti利用率都没过过3%,cuda计算也是震荡,基本0-50波动
我的问题已经解决了,是因为图片尺寸太大每个batch预处理时间过长过长,导致显卡拿不到数据,才一直在波动,望能帮到诸位