unet-pytorch icon indicating copy to clipboard operation
unet-pytorch copied to clipboard

训练中突然total_loss=NaN的问题

Open Wangxinyu-qlz opened this issue 2 years ago • 3 comments

没有改动网络;二分类的任务训练;数据集包含2.4w个图像;batch_size=24,input_size=256×256; 问题:在第99个eopch时,total_loss突然为nan,在第101个epoch时,val_loss也变成了nan,如图所示 image image 我查了下,具体有这几种情况:梯度爆炸、学习率过大、损失函数不合适等等,但是不知道是哪种原因。 请问老师您有何见解?

Wangxinyu-qlz avatar Dec 01 '23 05:12 Wangxinyu-qlz

没有改动网络;二分类的任务训练;数据集包含2.4w个图像;batch_size=24,input_size=256×256; 问题:在第99个eopch时,total_loss突然为nan,在第101个epoch时,val_loss也变成了nan,如图所示 image image 我查了下,具体有这几种情况:梯度爆炸、学习率过大、损失函数不合适等等,但是不知道是哪种原因。 请问老师您有何见解?

你好,请问如何在网络中加代码得到您的曲线图呀,bubbliiiing博主给的代码没有曲线图的相关代码,请问您可以分享吗~

yesulove avatar Oct 07 '24 07:10 yesulove

你好,请问如何在网络中加代码得到您的曲线图呀,bubbliiiing博主给的代码没有曲线图的相关代码,请问您可以分享吗~

你好,在根目录中的train.py中,317行: image

这行代码调用的是util包下callbacks.py的代码。其中就有绘制曲线图的代码,可以在PyCharm中,通过按住Ctrl的同时,鼠标左键点击函数名/类名定位到关键代码处。 更多细节,请自行探究。希望能帮助到你。

Wangxinyu-qlz avatar Oct 11 '24 08:10 Wangxinyu-qlz

你好,请问如何在网络中加代码得到您的曲线图呀,bubbliiiing博主给的代码没有曲线图的相关代码,请问您可以分享吗~

你好,在根目录中的train.py中,317行: image

这行代码调用的是util包下callbacks.py的代码。其中就有绘制曲线图的代码,可以在PyCharm中,通过按住Ctrl的同时,鼠标左键点击函数名/类名定位到关键代码处。 更多细节,请自行探究。希望能帮助到你。

太感谢啦!好仔细~~

yesulove avatar Oct 13 '24 07:10 yesulove