misaka100001
misaka100001
png是单通道掩码标签图像,labels是One-hot格式的标签图像
去csdn上搜了一下,发现有一个跟我一样的问题,但是他使用的方法是用pip重新安装opencv_python,而我用这个方法无法解决问题
补充:等了一晚上后终于跑起来了,但是训练速度很慢,而且loss一直是nan
这个问题我已经解决了,不过忘了当初是怎么搞定的了。另外我建议不要放在多个GPU上训练,我之前放在多个GPU训练的效果比放在1个GPU上的低了1%,具体原因我也搞不明白 ------------------ 原始邮件 ------------------ 发件人: "small ***@***.***>; 发送时间: 2024年3月18日(星期一) 中午11:09 收件人: ***@***.***>; 抄送: ***@***.***>; ***@***.***>; 主题: Re: [bubbliiiing/deeplabv3-plus-pytorch] 请问训练时为什么会卡在第一个epoch不动呀? (Issue #92) 我运行deeplabv3+的时候,训练一直卡在Epoch 1/200: 0%|不动弹了,用debug看了一下,发现是停在event_file_writer.py里面的data = self._queue.get(True, queue_wait_duration)这一行了,请问有大佬知道是什么原因吗? 我也是出现类似情况。使用多个GPU训练,在第一个epoch时候,花了很长时间,大概十几分钟。之后速度就快一些了。但是偶尔会报错:Some NCCL operations have failed...
跟数据集大小没啥关系吧,训练所占用的显存只跟模型大小和输入图像的分辨率有关,即使数据集里的图像数量很多也不会爆显存的。另外多个GPU同时训练会让训练效果下降是我重复实验了七八次后得出的结论 ------------------ 原始邮件 ------------------ 发件人: "small ***@***.***>; 发送时间: 2024年3月18日(星期一) 中午11:16 收件人: ***@***.***>; 抄送: ***@***.***>; ***@***.***>; 主题: Re: [bubbliiiing/deeplabv3-plus-pytorch] 请问训练时为什么会卡在第一个epoch不动呀? (Issue #92) 这个问题我已经解决了,不过忘了当初是怎么搞定的了。另外我建议不要放在多个GPU上训练,我之前放在多个GPU训练的效果比放在1个GPU上的低了1%,具体原因我也搞不明白 … ------------------ 原始邮件 ------------------ 发件人: "small @.>; 发送时间: 2024年3月18日(星期一) 中午11:09 收件人: @.>;...