DBNet.pytorch synthtext预训练失败问题的解决方法。

pytorch == 1.4

请不要使用1.5， 1.6谢谢。

Sep 15 '20 12:09 yangtianyu92

还是崩溃了，不过有报错RuntimeError: DataLoader worker (pid 64884) is killed by signal: Bus error. It is possible that dataloader's workers are out of shared memory. Please try to raise your shared memory limit

Sep 15 '20 14:09 yangtianyu92

在docker里面跑的吗，启容器的时候加上 --shm-size=2g 把共享内存设大一点

Sep 18 '20 07:09 curiosity2

docker 训练的时候设再大的shm也不行。。你设--ipc=host训SynthText也会崩

Sep 21 '20 07:09 toxic-0518

我知道为啥了，读取图片那要cv2.imread().astype("float32")，可以多苟很长一段时间。不过只能20轮一跑，多了shm溢出这个没办法，但是降batch就可以跑很久才停。等跑到100epoch我就分享出来。这个训练时间还是很久的。

在2020年09月21日 15:56，None 写道：

在docker里面跑的吗，启容器的时候加上 --shm-size=2g 把共享内存设大一点

docker 训练的时候设再大的shm也不行。。你设--ipc=host训SynthText也会崩

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe.

Sep 21 '20 08:09 yangtianyu92

大佬你的预训练成功了吗？能发我一份吗

Oct 12 '20 07:10 FuMingHui6

这方法能解决dataloader kill问题嘛？

Jan 11 '21 02:01 huihuixiaohuihui

从头弄到尾也没搞定，我认为还是直接换个库更直接

在2021年01月11日 10:09，huihuixiaohuihui 写道：

我知道为啥了，读取图片那要cv2.imread().astype("float32")，可以多苟很长一段时间。不过只能20轮一跑，多了shm溢出这个没办法，但是降batch就可以跑很久才停。等跑到100epoch我就分享出来。这个训练时间还是很久的。在2020年09月21日 15:56，None 写道：在docker里面跑的吗，启容器的时候加上 --shm-size=2g 把共享内存设大一点 docker 训练的时候设再大的shm也不行。。你设--ipc=host训SynthText也会崩 — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe.

这方法能解决dataloader kill问题嘛？

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe.

Jan 11 '21 02:01 yangtianyu92

直接换一套代码？那你是换了官方的代码嘛？

Jan 11 '21 02:01 huihuixiaohuihui

你好，请问解决kill的问题了吗？我每跑一次直接就把服务器卡死了，一直没解决，大佬救命SOS

Mar 08 '21 05:03 Evanismxzh

你训练的是什么数据集 SynthText？

Mar 08 '21 05:03 huihuixiaohuihui

是的，我想问下这个代码存不存在内存溢出问题？

Mar 08 '21 06:03 Evanismxzh

也是训练不到一个epoch 就直接kill了？

Mar 08 '21 06:03 huihuixiaohuihui

不算，有时候一个，有时候是几个epoch，但是最终都会kill

Mar 08 '21 06:03 Evanismxzh

我是发现SynthText中有些数据会导致训练就kill掉的所以我只训练了SynthText 的前5万张数据就可以顺利的训练

Mar 08 '21 06:03 huihuixiaohuihui

同样出现训练到一些数据就卡着不动这一现象，是训练集存在造数据造成的，有一些标注出现正负几万的，每次读的时候做一下过滤就不会卡住了

Sep 20 '21 07:09 Stubborn-one

这几天也是尝试训练SynthText这个数据集，里面的确有很多标注有问题的数据集，已经做了过滤。但是训练时，跑着跑着就OOM了。
猜测是Dataset那里导致的，但是一直没找到真正原因。

May 25 '22 10:05 SWHL

大佬，能分享一下你用SynthText预训练的pth模型么，谢谢~

Nov 29 '23 06:11 zhangqiqi1228

DBNet.pytorch DBNet.pytorch copied to clipboard

synthtext预训练失败问题的解决方法。

DBNet.pytorch
DBNet.pytorch copied to clipboard