GGHL icon indicating copy to clipboard operation
GGHL copied to clipboard

训练损失出现nan的问题

Open FangJingYunner opened this issue 1 year ago • 2 comments

您好,我用您的代码训练自己采集的旋转目标检测数据集。数据集中不一定是每一张图都有旋转目标检测的标注。但是网络在计算损失的时候有时候会出现一些变量是nan的情况,比如offset0,loss_fg,loss_neg是nan的情况。而且这个还时好时坏的,有的时候网络参数或者训练策略改改就不会有,有的时候在某些网络参数下训练了几百个step就会出现nan

FangJingYunner avatar Apr 20 '23 09:04 FangJingYunner

好吧,现在定位到是这一句代码出了问题,这个变量会在网络的头几个step就变得很大,最后溢出导致错误。有什么解决办法吗? https://github.com/Shank2358/GGHL/blob/5081a96b8c6bd4b4679bec940724384e625641cc/modelR/head/head_GGHL.py#L31

FangJingYunner avatar Apr 21 '23 06:04 FangJingYunner

请问有更加详细的log记录吗,这边帮你排查一下

Crescent-Ao avatar Apr 25 '23 02:04 Crescent-Ao