tensorflow-yolov3
tensorflow-yolov3 copied to clipboard
关于分布训练loss值
貌似存在过拟合的问题,训练70个周期,Test loss比 Trainloss大很多,只训练20个周期,两者数值差不多,请问有什么解决方法么 Epoch: 70 Time: 2019-09-27 07:05:06 Train loss: 2.58 Test loss: 9.61 Saving ./checkpoint/yolov3_test_loss=9.6080.ckpt ...
训练70个epoch,train_first_stage_epochs=20、train_second_stage_epochs=50,第70个epoch的mAP=79.23%,第16个epochd mAP=80.91%,感觉训练多了反而没用,就修改了一个参数,batch_size=4;请仓主帮忙解答一下哦,谢谢 @YunYang1994
同问,我也有这个问题。
借楼问一下, @navy63 请问您在分布式训练的时候,loss的值时怎么处理的?是将所有gpu的loss值取平均吗? 我目前训练的时候loss值一直降不下去,怀疑是该处改出了问题。如果可以分享一下这部分代码真是不胜感激。
作者的代码好像还不支持多GPU训练
借楼问一下, @navy63 请问您在分布式训练的时候,loss的值时怎么处理的?是将所有gpu的loss值取平均吗? 我目前训练的时候loss值一直降不下去,怀疑是该处改出了问题。如果可以分享一下这部分代码真是不胜感激。
请问您是怎么实现 分布式训练的? 希望能得到解答,不胜感激
训练70个epoch,train_first_stage_epochs=20、train_second_stage_epochs=50,第70个epoch的mAP=79.23%,第16个epochd mAP=80.91%,感觉训练多了反而没用,就修改了一个参数,batch_size=4;请仓主帮忙解答一下哦,谢谢 @YunYang1994
请问是如何得到训练过程中每个epoch的map呢
邮件已收到