tensorflow-yolov3 icon indicating copy to clipboard operation
tensorflow-yolov3 copied to clipboard

关于分布训练loss值

Open navy63 opened this issue 6 years ago • 7 comments

貌似存在过拟合的问题,训练70个周期,Test loss比 Trainloss大很多,只训练20个周期,两者数值差不多,请问有什么解决方法么 Epoch: 70 Time: 2019-09-27 07:05:06 Train loss: 2.58 Test loss: 9.61 Saving ./checkpoint/yolov3_test_loss=9.6080.ckpt ...

navy63 avatar Sep 27 '19 00:09 navy63

训练70个epoch,train_first_stage_epochs=20、train_second_stage_epochs=50,第70个epoch的mAP=79.23%,第16个epochd mAP=80.91%,感觉训练多了反而没用,就修改了一个参数,batch_size=4;请仓主帮忙解答一下哦,谢谢 @YunYang1994

navy63 avatar Sep 27 '19 00:09 navy63

同问,我也有这个问题。

iodncookie avatar Oct 08 '19 12:10 iodncookie

借楼问一下, @navy63 请问您在分布式训练的时候,loss的值时怎么处理的?是将所有gpu的loss值取平均吗? 我目前训练的时候loss值一直降不下去,怀疑是该处改出了问题。如果可以分享一下这部分代码真是不胜感激。

robinjoe93 avatar Oct 30 '19 01:10 robinjoe93

作者的代码好像还不支持多GPU训练

tradysun avatar Nov 13 '19 03:11 tradysun

借楼问一下, @navy63 请问您在分布式训练的时候,loss的值时怎么处理的?是将所有gpu的loss值取平均吗? 我目前训练的时候loss值一直降不下去,怀疑是该处改出了问题。如果可以分享一下这部分代码真是不胜感激。

请问您是怎么实现 分布式训练的? 希望能得到解答,不胜感激

Byronnar avatar Dec 17 '19 02:12 Byronnar

训练70个epoch,train_first_stage_epochs=20、train_second_stage_epochs=50,第70个epoch的mAP=79.23%,第16个epochd mAP=80.91%,感觉训练多了反而没用,就修改了一个参数,batch_size=4;请仓主帮忙解答一下哦,谢谢 @YunYang1994

请问是如何得到训练过程中每个epoch的map呢

1119231393 avatar Feb 13 '23 08:02 1119231393

邮件已收到

tradysun avatar Feb 13 '23 08:02 tradysun