DBNet.pytorch icon indicating copy to clipboard operation
DBNet.pytorch copied to clipboard

synthtext预训练失败问题的解决方法。

Open yangtianyu92 opened this issue 5 years ago • 17 comments

pytorch == 1.4

请不要使用1.5, 1.6谢谢。

yangtianyu92 avatar Sep 15 '20 12:09 yangtianyu92

还是崩溃了,不过有报错RuntimeError: DataLoader worker (pid 64884) is killed by signal: Bus error. It is possible that dataloader's workers are out of shared memory. Please try to raise your shared memory limit

yangtianyu92 avatar Sep 15 '20 14:09 yangtianyu92

在docker里面跑的吗, 启容器的时候加上 --shm-size=2g 把共享内存设大一点

curiosity2 avatar Sep 18 '20 07:09 curiosity2

在docker里面跑的吗, 启容器的时候加上 --shm-size=2g 把共享内存设大一点

docker 训练的时候设再大的shm也不行。。 你设--ipc=host训SynthText也会崩

toxic-0518 avatar Sep 21 '20 07:09 toxic-0518

我知道为啥了,读取图片那要cv2.imread().astype("float32"),可以多苟很长一段时间。不过只能20轮一跑,多了shm溢出这个没办法,但是降batch就可以跑很久才停。等跑到100epoch我就分享出来。这个训练时间还是很久的。

在2020年09月21日 15:56,None 写道:

在docker里面跑的吗, 启容器的时候加上 --shm-size=2g 把共享内存设大一点

docker 训练的时候设再大的shm也不行。。 你设--ipc=host训SynthText也会崩

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe.

yangtianyu92 avatar Sep 21 '20 08:09 yangtianyu92

我知道为啥了,读取图片那要cv2.imread().astype("float32"),可以多苟很长一段时间。不过只能20轮一跑,多了shm溢出这个没办法,但是降batch就可以跑很久才停。等跑到100epoch我就分享出来。这个训练时间还是很久的。 在2020年09月21日 15:56,None 写道: 在docker里面跑的吗, 启容器的时候加上 --shm-size=2g 把共享内存设大一点 docker 训练的时候设再大的shm也不行。。 你设--ipc=host训SynthText也会崩 — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe.

大佬 你的预训练成功了吗 ? 能发我一份吗

FuMingHui6 avatar Oct 12 '20 07:10 FuMingHui6

我知道为啥了,读取图片那要cv2.imread().astype("float32"),可以多苟很长一段时间。不过只能20轮一跑,多了shm溢出这个没办法,但是降batch就可以跑很久才停。等跑到100epoch我就分享出来。这个训练时间还是很久的。 在2020年09月21日 15:56,None 写道: 在docker里面跑的吗, 启容器的时候加上 --shm-size=2g 把共享内存设大一点 docker 训练的时候设再大的shm也不行。。 你设--ipc=host训SynthText也会崩 — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe.

这方法能解决dataloader kill问题嘛?

huihuixiaohuihui avatar Jan 11 '21 02:01 huihuixiaohuihui

从头弄到尾也没搞定,我认为还是直接换个库更直接

在2021年01月11日 10:09,huihuixiaohuihui 写道:

我知道为啥了,读取图片那要cv2.imread().astype("float32"),可以多苟很长一段时间。不过只能20轮一跑,多了shm溢出这个没办法,但是降batch就可以跑很久才停。等跑到100epoch我就分享出来。这个训练时间还是很久的。 在2020年09月21日 15:56,None 写道: 在docker里面跑的吗, 启容器的时候加上 --shm-size=2g 把共享内存设大一点 docker 训练的时候设再大的shm也不行。。 你设--ipc=host训SynthText也会崩 — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe.

这方法能解决dataloader kill问题嘛?

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe.

yangtianyu92 avatar Jan 11 '21 02:01 yangtianyu92

从头弄到尾也没搞定,我认为还是直接换个库更直接 在2021年01月11日 10:09,huihuixiaohuihui 写道: 我知道为啥了,读取图片那要cv2.imread().astype("float32"),可以多苟很长一段时间。不过只能20轮一跑,多了shm溢出这个没办法,但是降batch就可以跑很久才停。等跑到100epoch我就分享出来。这个训练时间还是很久的。 在2020年09月21日 15:56,None 写道: 在docker里面跑的吗, 启容器的时候加上 --shm-size=2g 把共享内存设大一点 docker 训练的时候设再大的shm也不行。。 你设--ipc=host训SynthText也会崩 — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe. 这方法能解决dataloader kill问题嘛? — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe.

直接换一套代码? 那你是换了官方的代码嘛?

huihuixiaohuihui avatar Jan 11 '21 02:01 huihuixiaohuihui

我知道为啥了,读取图片那要cv2.imread().astype("float32"),可以多苟很长一段时间。不过只能20轮一跑,多了shm溢出这个没办法,但是降batch就可以跑很久才停。等跑到100epoch我就分享出来。这个训练时间还是很久的。 在2020年09月21日 15:56,None 写道: 在docker里面跑的吗, 启容器的时候加上 --shm-size=2g 把共享内存设大一点 docker 训练的时候设再大的shm也不行。。 你设--ipc=host训SynthText也会崩 — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe.

你好,请问解决kill的问题了吗?我每跑一次直接就把服务器卡死了,一直没解决,大佬救命SOS

Evanismxzh avatar Mar 08 '21 05:03 Evanismxzh

我知道为啥了,读取图片那要cv2.imread().astype("float32"),可以多苟很长一段时间。不过只能20轮一跑,多了shm溢出这个没办法,但是降batch就可以跑很久才停。等跑到100epoch我就分享出来。这个训练时间还是很久的。 在2020年09月21日 15:56,None 写道: 在docker里面跑的吗, 启容器的时候加上 --shm-size=2g 把共享内存设大一点 docker 训练的时候设再大的shm也不行。。 你设--ipc=host训SynthText也会崩 — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe.

你好,请问解决kill的问题了吗?我每跑一次直接就把服务器卡死了,一直没解决,大佬救命SOS

你训练的是什么数据集 SynthText?

huihuixiaohuihui avatar Mar 08 '21 05:03 huihuixiaohuihui

我知道为啥了,读取图片那要cv2.imread().astype("float32"),可以多苟很长一段时间。不过只能20轮一跑,多了shm溢出这个没办法,但是降batch就可以跑很久才停。等跑到100epoch我就分享出来。这个训练时间还是很久的。 在2020年09月21日 15:56,None 写道: 在docker里面跑的吗, 启容器的时候加上 --shm-size=2g 把共享内存设大一点 docker 训练的时候设再大的shm也不行。。 你设--ipc=host训SynthText也会崩 — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe.

你好,请问解决kill的问题了吗?我每跑一次直接就把服务器卡死了,一直没解决,大佬救命SOS

你训练的是什么数据集 SynthText?

是的,我想问下这个代码存不存在内存溢出问题?

Evanismxzh avatar Mar 08 '21 06:03 Evanismxzh

我知道为啥了,读取图片那要cv2.imread().astype("float32"),可以多苟很长一段时间。不过只能20轮一跑,多了shm溢出这个没办法,但是降batch就可以跑很久才停。等跑到100epoch我就分享出来。这个训练时间还是很久的。 在2020年09月21日 15:56,None 写道: 在docker里面跑的吗, 启容器的时候加上 --shm-size=2g 把共享内存设大一点 docker 训练的时候设再大的shm也不行。。 你设--ipc=host训SynthText也会崩 — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe.

你好,请问解决kill的问题了吗?我每跑一次直接就把服务器卡死了,一直没解决,大佬救命SOS

你训练的是什么数据集 SynthText?

是的,我想问下这个代码存不存在内存溢出问题?

也是训练不到一个epoch 就直接kill了?

huihuixiaohuihui avatar Mar 08 '21 06:03 huihuixiaohuihui

我知道为啥了,读取图片那要cv2.imread().astype("float32"),可以多苟很长一段时间。不过只能20轮一跑,多了shm溢出这个没办法,但是降batch就可以跑很久才停。等跑到100epoch我就分享出来。这个训练时间还是很久的。 在2020年09月21日 15:56,None 写道: 在docker里面跑的吗, 启容器的时候加上 --shm-size=2g 把共享内存设大一点 docker 训练的时候设再大的shm也不行。。 你设--ipc=host训SynthText也会崩 — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe.

你好,请问解决kill的问题了吗?我每跑一次直接就把服务器卡死了,一直没解决,大佬救命SOS

你训练的是什么数据集 SynthText?

是的,我想问下这个代码存不存在内存溢出问题?

也是训练不到一个epoch 就直接kill了?

不算,有时候一个,有时候是几个epoch,但是最终都会kill

Evanismxzh avatar Mar 08 '21 06:03 Evanismxzh

我知道为啥了,读取图片那要cv2.imread().astype("float32"),可以多苟很长一段时间。不过只能20轮一跑,多了shm溢出这个没办法,但是降batch就可以跑很久才停。等跑到100epoch我就分享出来。这个训练时间还是很久的。 在2020年09月21日 15:56,None 写道: 在docker里面跑的吗, 启容器的时候加上 --shm-size=2g 把共享内存设大一点 docker 训练的时候设再大的shm也不行。。 你设--ipc=host训SynthText也会崩 — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe.

你好,请问解决kill的问题了吗?我每跑一次直接就把服务器卡死了,一直没解决,大佬救命SOS

你训练的是什么数据集 SynthText?

是的,我想问下这个代码存不存在内存溢出问题?

也是训练不到一个epoch 就直接kill了?

不算,有时候一个,有时候是几个epoch,但是最终都会kill

我是发现SynthText中有些数据会导致训练就kill掉的 所以我只训练了SynthText 的前5万张数据 就可以顺利的训练

huihuixiaohuihui avatar Mar 08 '21 06:03 huihuixiaohuihui

同样出现训练到一些数据就卡着不动这一现象,是训练集存在造数据造成的,有一些标注出现正负几万的,每次读的时候做一下过滤就不会卡住了

Stubborn-one avatar Sep 20 '21 07:09 Stubborn-one

  • 这几天也是尝试训练SynthText这个数据集,里面的确有很多标注有问题的数据集,已经做了过滤。但是训练时,跑着跑着就OOM了。
  • 猜测是Dataset那里导致的,但是一直没找到真正原因。

SWHL avatar May 25 '22 10:05 SWHL

我知道为啥了,读取图片那要cv2.imread().astype("float32"),可以多苟很长一段时间。不过只能20轮一跑,多了shm溢出这个没办法,但是降batch就可以跑很久才停。等跑到100epoch我就分享出来。这个训练时间还是很久的。 在2020年09月21日 15:56,None 写道: 在docker里面跑的吗, 启容器的时候加上 --shm-size=2g 把共享内存设大一点 docker 训练的时候设再大的shm也不行。。 你设--ipc=host训SynthText也会崩 — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe.

你好,请问解决kill的问题了吗?我每跑一次直接就把服务器卡死了,一直没解决,大佬救命SOS

你训练的是什么数据集 SynthText?

是的,我想问下这个代码存不存在内存溢出问题?

也是训练不到一个epoch 就直接kill了?

不算,有时候一个,有时候是几个epoch,但是最终都会kill

我是发现SynthText中有些数据会导致训练就kill掉的 所以我只训练了SynthText 的前5万张数据 就可以顺利的训练

大佬,能分享一下你用SynthText预训练的pth模型么,谢谢~

zhangqiqi1228 avatar Nov 29 '23 06:11 zhangqiqi1228