CenterFace.pytorch 训练过程中出现loss突然全部为null是怎么回事呢

训练过程中出现loss突然全部为null是怎么回事呢

Open wuxiaolianggit opened this issue 3 years ago • 7 comments

Jul 30 '20 03:07 wuxiaolianggit

output['hm']的sigmoid没有clip，如果出现0，或者1，focal loss 会有nan，把output['hm'] = torch.clamp(output['hm'], min=1e-4, max=1-1e-4)加在计算loss前即可

Oct 20 '20 14:10 bendanzzc

output['hm']的sigmoid没有clip，如果出现0，或者1，focal loss 会有nan，把output['hm'] = torch.clamp(output['hm'], min=1e-4, max=1-1e-4)加在计算loss前即可

  output['hm'] = torch.clamp(output['hm'], min=1e-4, max=1 - 1e-4)   

  hm_loss += self.crit(output['hm'], batch['hm']) / opt.num_stacks          # 1. focal loss,求目标的中心，

` 请问是改成这样吗？加了之后还是会loss nan

Oct 22 '20 14:10 Q-Wang7

output['hm']的sigmoid没有clip，如果出现0，或者1，focal loss 会有nan，把output['hm'] = torch.clamp(output['hm'], min=1e-4, max=1-1e-4)加在计算loss前即可

`
  output['hm'] = torch.clamp(output['hm'], min=1e-4, max=1 - 1e-4)   

  hm_loss += self.crit(output['hm'], batch['hm']) / opt.num_stacks          # 1. focal loss,求目标的中心，
` 请问是改成这样吗？加了之后还是会loss nan

我是用自己的数据集训练的，train from scratch，改了之后就没有报nan了，你可以看一下哪里有类似的危险，log一般都要加个浮点数。是在不行你可以用他训练好的model做pretrain，调小lr，也可以避免nan

Oct 23 '20 11:10 bendanzzc

output['hm']的sigmoid没有clip，如果出现0，或者1，focal loss 会有nan，把output['hm'] = torch.clamp(output['hm'], min=1e-4, max=1-1e-4)加在计算loss前即可

`
  output['hm'] = torch.clamp(output['hm'], min=1e-4, max=1 - 1e-4)   

  hm_loss += self.crit(output['hm'], batch['hm']) / opt.num_stacks          # 1. focal loss,求目标的中心，
` 请问是改成这样吗？加了之后还是会loss nan
我是用自己的数据集训练的，train from scratch，改了之后就没有报nan了，你可以看一下哪里有类似的危险，log一般都要加个浮点数。是在不行你可以用他训练好的model做pretrain，调小lr，也可以避免nan

好的，谢谢！

Oct 25 '20 02:10 Q-Wang7

output['hm']的sigmoid没有clip，如果出现0，或者1，focal loss 会有nan，把output['hm'] = torch.clamp(output['hm'], min=1e-4, max=1-1e-4)加在计算loss前即可

胡说八道，sigmoid函数输出范围是(0,1)，nan的原因是landmarks没有归一化，不同尺寸脸，造成值差别很大

Mar 06 '21 06:03 ucashyq

output['hm']的sigmoid没有clip，如果出现0，或者1，focal loss 会有nan，把output['hm'] = torch.clamp(output['hm'], min=1e-4, max=1-1e-4)加在计算loss前即可

output['hm']的sigmoid没有clip，如果出现0，或者1，focal loss 会有nan，把output['hm'] = torch.clamp(output['hm'], min=1e-4, max=1-1e-4)加在计算loss前即可

胡说八道，sigmoid函数输出范围是(0,1)，nan的原因是landmarks没有归一化，不同尺寸脸，造成值差别很大

说话前先自己试试pytorch或者看看文档sigmoid的取值范围吧，要不然大脸太疼了呢。其次没归一化可能会导致前期loss发散很容易踩到极端值，不加保护才会出现nan。不加归一化也可以训哦。

Mar 06 '21 06:03 bendanzzc

output['hm']的sigmoid没有clip，如果出现0，或者1，focal loss 会有nan，把output['hm'] = torch.clamp(output['hm'], min=1e-4, max=1-1e-4)加在计算loss前即可

output['hm']的sigmoid没有clip，如果出现0，或者1，focal loss 会有nan，把output['hm'] = torch.clamp(output['hm'], min=1e-4, max=1-1e-4)加在计算loss前即可

胡说八道，sigmoid函数输出范围是(0,1)，nan的原因是landmarks没有归一化，不同尺寸脸，造成值差别很大

那该怎么归一化？

Mar 09 '21 08:03 kaijieshi7

CenterFace.pytorch CenterFace.pytorch copied to clipboard

训练过程中出现loss突然全部为null是怎么回事呢

CenterFace.pytorch
CenterFace.pytorch copied to clipboard