ROMP icon indicating copy to clipboard operation
ROMP copied to clipboard

continue train

Open liangwx opened this issue 3 years ago • 1 comments

myv2_train_pretrained_hrnet_h36m,mpiinf,coco,mpii,lsp,muco,crowdpose_g0,1.log Q1:训练到一半的时候,由于OOM或其他原因,导致训练终止,如何设置参数,使得可以继续训练? Q2:即使成功训练完成120个epoch,如果发现loss还没有收敛,那么如何继续设置参数,使得其继续训练更多的epoch?

liangwx avatar Feb 27 '22 02:02 liangwx

建议您正确加载pretrain来训练,就是使用这个函数.同时设置configs里的fine_tune: False, eval: False, model_path: None。 确认正确加载pretrain: log里不出现INFO:root:missing parameters of layers:['backbone......

Q1:为了避免显存溢出,可以在configs里增加一个设置,max_supervise_num: 128,这个是控制每个batch里学习人体形态的数量,避免有的时候一个batch里加载的都是密集人群的图片,导致一个batch里的人数太多。您可以根据您的显存酌情减少这个数量。

Q2:如果您想使用之前训练好的模型,继续进行训练的话,在configs里设置好,log里出现的中间模型的地址(在您log的第50453行),例如:

fine_tune: True
model_path: /data/wxl/romp/checkpoints/hrnet_cm64_myv2_train_pretrained_hrnet_on_gpu0,1_val/100_104.8944_65.8962_hrnet_cm64_myv2_train_pretrained_hrnet.pkl

关于继续训练,如果您没有使用pretrain的话,还是需要始终保持学习率为5e-5比较合适,您可以看到,您训到后面学习率降到5e-7了,已经学不动了,要做这个调整,可以设置configs里的adjust_lr_factor: 1 。 epoch数也可以设置为200。

Arthur151 avatar Feb 27 '22 03:02 Arthur151