BngThea comments

Results 5 comments of


                                            BngThea

执行train.py一直OOM

@yizt 谢谢，我将IMAGES_PER_GPU从2设为1，IMAGE_MAX_DIM从720设为500，可以运行了

@yizt 您好，刚按上面的改了，但是训练的时候loss爆炸了，重启了几次都是如此 `40/1252 [..............................] - ETA: 23:06 - loss: 245879418.9902 - rpn_bbox_loss: 0.6706 - rpn_class_loss: 0.5414 - rcnn_bbox_loss: 0.8370 - rcnn_class_loss: 1.3189 - regular_loss: 52.1087 - gt_num: 2.9813 - positive_anchor_num:...

执行train.py一直OOM

@yizt 您好，我更新后测试了5次，有两次loss增加的稍微缓慢了一些，但最终也是增加的，另外3次没有改善，甚至更快爆炸

执行train.py一直OOM

@yizt 那您还是用的1.9版本的tf吗，我现在用的1.14版本的，因为cuda版本是10.1的其他demo都是在2.x或者1.14下跑的，不想改动cuda版本，这会有影响吗，keras用的2.2.5

执行train.py一直OOM

@yizt 很奇怪，我在Ubuntu18.04环境下同硬件配置下就会出现loss爆炸，而在win10下却可以正常跑另外还有几个问题： 1 我用resnet跑了80个epoch，loss值在0.3左右，mAP值却很低，您跑出来的loss大概什么值 2 我有自己的一批数据集，已经整理为VOC2007格式的了，其中每幅图gt就1个，size固定为378*427，该如何调整config配置来进行训练？固定size我通过调整对应函数搞定了，用您的模型默认跑出来的结果和tensorflow版本的faster rcnn （https://github.com/smallcorgi/Faster-RCNN_TF）差距很大，想知道config中的其他参数如何调整？生成anchor的gt函数该怎么设置cluster数？谢谢！