tensorflow-yolov3 关于分布训练loss值

貌似存在过拟合的问题，训练70个周期，Test loss比 Trainloss大很多，只训练20个周期，两者数值差不多，请问有什么解决方法么 Epoch: 70 Time: 2019-09-27 07:05:06 Train loss: 2.58 Test loss: 9.61 Saving ./checkpoint/yolov3_test_loss=9.6080.ckpt ...

Sep 27 '19 00:09 navy63

训练70个epoch，train_first_stage_epochs=20、train_second_stage_epochs=50，第70个epoch的mAP=79.23%，第16个epochd mAP=80.91%，感觉训练多了反而没用，就修改了一个参数，batch_size=4;请仓主帮忙解答一下哦，谢谢 @YunYang1994

Sep 27 '19 00:09 navy63

同问，我也有这个问题。

Oct 08 '19 12:10 iodncookie

借楼问一下， @navy63 请问您在分布式训练的时候，loss的值时怎么处理的？是将所有gpu的loss值取平均吗？我目前训练的时候loss值一直降不下去，怀疑是该处改出了问题。如果可以分享一下这部分代码真是不胜感激。

Oct 30 '19 01:10 robinjoe93

作者的代码好像还不支持多GPU训练

Nov 13 '19 03:11 tradysun

借楼问一下， @navy63 请问您在分布式训练的时候，loss的值时怎么处理的？是将所有gpu的loss值取平均吗？我目前训练的时候loss值一直降不下去，怀疑是该处改出了问题。如果可以分享一下这部分代码真是不胜感激。

请问您是怎么实现分布式训练的? 希望能得到解答,不胜感激

Dec 17 '19 02:12 Byronnar

训练70个epoch，train_first_stage_epochs=20、train_second_stage_epochs=50，第70个epoch的mAP=79.23%，第16个epochd mAP=80.91%，感觉训练多了反而没用，就修改了一个参数，batch_size=4;请仓主帮忙解答一下哦，谢谢 @YunYang1994

请问是如何得到训练过程中每个epoch的map呢

Feb 13 '23 08:02 1119231393

邮件已收到

Feb 13 '23 08:02 tradysun

tensorflow-yolov3 tensorflow-yolov3 copied to clipboard

关于分布训练loss值

tensorflow-yolov3
tensorflow-yolov3 copied to clipboard