CRNN_Chinese_Characters_Rec icon indicating copy to clipboard operation
CRNN_Chinese_Characters_Rec copied to clipboard

训练出现loss为nan

Open gavenswang opened this issue 4 years ago • 13 comments

我在作者的模型基础上训练自己的数据,迭代几步后loss变成nan,不知道是不是数据的问题,请问各位这样的情况怎么解决,怎么找到出问题的数据?

gavenswang avatar May 14 '20 09:05 gavenswang

用的是最新的仓库吗?torch版本是多少

Sierkinhane avatar May 15 '20 01:05 Sierkinhane

用的是最新的仓库吗?torch版本是多少

你好,我的torch版本是1.5.0+cu101,也出现了题主的loss为nan的情况,用的数据集是模拟生成的不定长英文数据集,请问是这个不定长的原因吗?

qingzhu0214 avatar May 22 '20 09:05 qingzhu0214

我在torch1.2.0上训练不会出现NAN

Sierkinhane avatar May 22 '20 09:05 Sierkinhane

我在torch1.2.0上训练不会出现NAN

我降低一下版本试试,谢谢您的回复^^

qingzhu0214 avatar May 22 '20 10:05 qingzhu0214

我在1.2.0上还是会出现nan

jiaoxiaosong avatar May 26 '20 08:05 jiaoxiaosong

pytorch自带的ctcloss在gpu上运行label长度要<256 image 我自己在训练时也会出现这种错,把超过256的label剔除出去,loss就可以正常计算了。这个问题一直到1.5版本依然存在。

zwy4896 avatar May 28 '20 08:05 zwy4896

我在gpu上运行torch=1.2.0,跑了一会就变成cpu运行了?

---原始邮件--- 发件人: "Wuyang"<[email protected]> 发送时间: 2020年5月28日(周四) 下午4:53 收件人: "Sierkinhane/CRNN_Chinese_Characters_Rec"<[email protected]>; 抄送: "Comment"<[email protected]>;"jiaoxiaosong"<[email protected]>; 主题: Re: [Sierkinhane/CRNN_Chinese_Characters_Rec] 训练出现loss为nan (#217)

pytorch自带的ctcloss在gpu上运行label长度要<256

我自己在训练时也会出现这种错,把超过256的label剔除出去,loss就可以正常计算了。这个问题一直到1.5版本依然存在。

— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.

jiaoxiaosong avatar May 28 '20 10:05 jiaoxiaosong

pytorch自带的ctcloss在gpu上运行label长度要<256 image 我自己在训练时也会出现这种错,把超过256的label剔除出去,loss就可以正常计算了。这个问题一直到1.5版本依然存在。

这个256长度的label 是一个batch超过256 还是一张图片中的标签超过256

xuefanfu avatar Jun 05 '20 02:06 xuefanfu

请问loss @@@@为None的问题解决了吗?我把label中长度大于10的全部剔除,就不会出现这种问题了,但是这样不太好 @gavenswang

gaoshangle avatar Dec 01 '20 11:12 gaoshangle

pytorch自带的ctcloss在gpu上运行label长度要<256 image 我自己在训练时也会出现这种错,把超过256的label剔除出去,loss就可以正常计算了。这个问题一直到1.5版本依然存在。

这个256长度的label 是一个batch超过256 还是一张图片中的标签超过256

同问!!!!!!!!!!!!!!! pytorch1.7.1,cuda10.1,还是会有naN出现

ingale726 avatar Jan 10 '21 05:01 ingale726

我自己生成了一批样本。label长度从1到20,训练中loss 老是变成nan ,但是奇怪的是我光训练不定长的英文字符时,是没有这种问题的,大家碰到过这种问题吗?

19ethan avatar Jul 08 '21 06:07 19ethan

我自己生成了一批样本。label长度从1到20,训练中loss 老是变成nan ,但是奇怪的是我光训练不定长的英文字符时,是没有这种问题的,大家碰到过这种问题吗?

我训练过程发现序列过长会导致nan出现。

oszn avatar Aug 28 '21 15:08 oszn