songyuanmingqing
songyuanmingqing
非常感谢,我使用的是nvidia v100 GPU, 上面提问时第三行有个错误,把YOLO V4写成YOLOV3了。 V4 keras版本我训练时的batchsize配置单GPU: freeze 32 unfreeze 8 ,超出时就会报错OOM。 8块GPU时 freeze 16*8 unfreeze 1*8,超过时就会报错。 这是在input_shape = (608,608)情况下, 在(416,416)情况下 unfreeze 可以配置为 16 或者 2*8 。 我在使用YOLOV3训练时,8块GPU (416,416)情况下, freeze...
我尝试了很多次。 frozen to just 3, batchsize one GPU可以设置到32, 8 GPU设置为 4X8,更大的batchsize就会报错 OOM, unfrozen后,one GPU 必须设置8 以及以下, 8GPU必须设置1X8 或者更小,。 我目前最大的问题是YOLOV3 完成一个任务的训练只需要20多个小时,因为batchsize配置的很大, YOLOV4 unfrozen后batchsize只能配置8,训练时间非常的长,40万数据1个epoch需要10个小时,通常我需要训练50个epoch, 2个月才能完成一个模型训练,