GGHL
GGHL copied to clipboard
训练损失出现nan的问题
您好,我用您的代码训练自己采集的旋转目标检测数据集。数据集中不一定是每一张图都有旋转目标检测的标注。但是网络在计算损失的时候有时候会出现一些变量是nan的情况,比如offset0,loss_fg,loss_neg是nan的情况。而且这个还时好时坏的,有的时候网络参数或者训练策略改改就不会有,有的时候在某些网络参数下训练了几百个step就会出现nan
好吧,现在定位到是这一句代码出了问题,这个变量会在网络的头几个step就变得很大,最后溢出导致错误。有什么解决办法吗? https://github.com/Shank2358/GGHL/blob/5081a96b8c6bd4b4679bec940724384e625641cc/modelR/head/head_GGHL.py#L31
请问有更加详细的log记录吗,这边帮你排查一下