DBNet.pytorch
DBNet.pytorch copied to clipboard
synthtext预训练失败问题的解决方法。
pytorch == 1.4
请不要使用1.5, 1.6谢谢。
还是崩溃了,不过有报错RuntimeError: DataLoader worker (pid 64884) is killed by signal: Bus error. It is possible that dataloader's workers are out of shared memory. Please try to raise your shared memory limit
在docker里面跑的吗, 启容器的时候加上 --shm-size=2g 把共享内存设大一点
在docker里面跑的吗, 启容器的时候加上 --shm-size=2g 把共享内存设大一点
docker 训练的时候设再大的shm也不行。。 你设--ipc=host训SynthText也会崩
我知道为啥了,读取图片那要cv2.imread().astype("float32"),可以多苟很长一段时间。不过只能20轮一跑,多了shm溢出这个没办法,但是降batch就可以跑很久才停。等跑到100epoch我就分享出来。这个训练时间还是很久的。
在2020年09月21日 15:56,None 写道:
在docker里面跑的吗, 启容器的时候加上 --shm-size=2g 把共享内存设大一点
docker 训练的时候设再大的shm也不行。。 你设--ipc=host训SynthText也会崩
— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe.
我知道为啥了,读取图片那要cv2.imread().astype("float32"),可以多苟很长一段时间。不过只能20轮一跑,多了shm溢出这个没办法,但是降batch就可以跑很久才停。等跑到100epoch我就分享出来。这个训练时间还是很久的。 在2020年09月21日 15:56,None 写道: 在docker里面跑的吗, 启容器的时候加上 --shm-size=2g 把共享内存设大一点 docker 训练的时候设再大的shm也不行。。 你设--ipc=host训SynthText也会崩 — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe.
大佬 你的预训练成功了吗 ? 能发我一份吗
我知道为啥了,读取图片那要cv2.imread().astype("float32"),可以多苟很长一段时间。不过只能20轮一跑,多了shm溢出这个没办法,但是降batch就可以跑很久才停。等跑到100epoch我就分享出来。这个训练时间还是很久的。 在2020年09月21日 15:56,None 写道: 在docker里面跑的吗, 启容器的时候加上 --shm-size=2g 把共享内存设大一点 docker 训练的时候设再大的shm也不行。。 你设--ipc=host训SynthText也会崩 — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe.
这方法能解决dataloader kill问题嘛?
从头弄到尾也没搞定,我认为还是直接换个库更直接
在2021年01月11日 10:09,huihuixiaohuihui 写道:
我知道为啥了,读取图片那要cv2.imread().astype("float32"),可以多苟很长一段时间。不过只能20轮一跑,多了shm溢出这个没办法,但是降batch就可以跑很久才停。等跑到100epoch我就分享出来。这个训练时间还是很久的。 在2020年09月21日 15:56,None 写道: 在docker里面跑的吗, 启容器的时候加上 --shm-size=2g 把共享内存设大一点 docker 训练的时候设再大的shm也不行。。 你设--ipc=host训SynthText也会崩 — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe.
这方法能解决dataloader kill问题嘛?
— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe.
从头弄到尾也没搞定,我认为还是直接换个库更直接 在2021年01月11日 10:09,huihuixiaohuihui 写道: 我知道为啥了,读取图片那要cv2.imread().astype("float32"),可以多苟很长一段时间。不过只能20轮一跑,多了shm溢出这个没办法,但是降batch就可以跑很久才停。等跑到100epoch我就分享出来。这个训练时间还是很久的。 在2020年09月21日 15:56,None 写道: 在docker里面跑的吗, 启容器的时候加上 --shm-size=2g 把共享内存设大一点 docker 训练的时候设再大的shm也不行。。 你设--ipc=host训SynthText也会崩 — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe. 这方法能解决dataloader kill问题嘛? — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe.
直接换一套代码? 那你是换了官方的代码嘛?
我知道为啥了,读取图片那要cv2.imread().astype("float32"),可以多苟很长一段时间。不过只能20轮一跑,多了shm溢出这个没办法,但是降batch就可以跑很久才停。等跑到100epoch我就分享出来。这个训练时间还是很久的。 在2020年09月21日 15:56,None 写道: 在docker里面跑的吗, 启容器的时候加上 --shm-size=2g 把共享内存设大一点 docker 训练的时候设再大的shm也不行。。 你设--ipc=host训SynthText也会崩 — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe.
你好,请问解决kill的问题了吗?我每跑一次直接就把服务器卡死了,一直没解决,大佬救命SOS
我知道为啥了,读取图片那要cv2.imread().astype("float32"),可以多苟很长一段时间。不过只能20轮一跑,多了shm溢出这个没办法,但是降batch就可以跑很久才停。等跑到100epoch我就分享出来。这个训练时间还是很久的。 在2020年09月21日 15:56,None 写道: 在docker里面跑的吗, 启容器的时候加上 --shm-size=2g 把共享内存设大一点 docker 训练的时候设再大的shm也不行。。 你设--ipc=host训SynthText也会崩 — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe.
你好,请问解决kill的问题了吗?我每跑一次直接就把服务器卡死了,一直没解决,大佬救命SOS
你训练的是什么数据集 SynthText?
我知道为啥了,读取图片那要cv2.imread().astype("float32"),可以多苟很长一段时间。不过只能20轮一跑,多了shm溢出这个没办法,但是降batch就可以跑很久才停。等跑到100epoch我就分享出来。这个训练时间还是很久的。 在2020年09月21日 15:56,None 写道: 在docker里面跑的吗, 启容器的时候加上 --shm-size=2g 把共享内存设大一点 docker 训练的时候设再大的shm也不行。。 你设--ipc=host训SynthText也会崩 — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe.
你好,请问解决kill的问题了吗?我每跑一次直接就把服务器卡死了,一直没解决,大佬救命SOS
你训练的是什么数据集 SynthText?
是的,我想问下这个代码存不存在内存溢出问题?
我知道为啥了,读取图片那要cv2.imread().astype("float32"),可以多苟很长一段时间。不过只能20轮一跑,多了shm溢出这个没办法,但是降batch就可以跑很久才停。等跑到100epoch我就分享出来。这个训练时间还是很久的。 在2020年09月21日 15:56,None 写道: 在docker里面跑的吗, 启容器的时候加上 --shm-size=2g 把共享内存设大一点 docker 训练的时候设再大的shm也不行。。 你设--ipc=host训SynthText也会崩 — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe.
你好,请问解决kill的问题了吗?我每跑一次直接就把服务器卡死了,一直没解决,大佬救命SOS
你训练的是什么数据集 SynthText?
是的,我想问下这个代码存不存在内存溢出问题?
也是训练不到一个epoch 就直接kill了?
我知道为啥了,读取图片那要cv2.imread().astype("float32"),可以多苟很长一段时间。不过只能20轮一跑,多了shm溢出这个没办法,但是降batch就可以跑很久才停。等跑到100epoch我就分享出来。这个训练时间还是很久的。 在2020年09月21日 15:56,None 写道: 在docker里面跑的吗, 启容器的时候加上 --shm-size=2g 把共享内存设大一点 docker 训练的时候设再大的shm也不行。。 你设--ipc=host训SynthText也会崩 — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe.
你好,请问解决kill的问题了吗?我每跑一次直接就把服务器卡死了,一直没解决,大佬救命SOS
你训练的是什么数据集 SynthText?
是的,我想问下这个代码存不存在内存溢出问题?
也是训练不到一个epoch 就直接kill了?
不算,有时候一个,有时候是几个epoch,但是最终都会kill
我知道为啥了,读取图片那要cv2.imread().astype("float32"),可以多苟很长一段时间。不过只能20轮一跑,多了shm溢出这个没办法,但是降batch就可以跑很久才停。等跑到100epoch我就分享出来。这个训练时间还是很久的。 在2020年09月21日 15:56,None 写道: 在docker里面跑的吗, 启容器的时候加上 --shm-size=2g 把共享内存设大一点 docker 训练的时候设再大的shm也不行。。 你设--ipc=host训SynthText也会崩 — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe.
你好,请问解决kill的问题了吗?我每跑一次直接就把服务器卡死了,一直没解决,大佬救命SOS
你训练的是什么数据集 SynthText?
是的,我想问下这个代码存不存在内存溢出问题?
也是训练不到一个epoch 就直接kill了?
不算,有时候一个,有时候是几个epoch,但是最终都会kill
我是发现SynthText中有些数据会导致训练就kill掉的 所以我只训练了SynthText 的前5万张数据 就可以顺利的训练
同样出现训练到一些数据就卡着不动这一现象,是训练集存在造数据造成的,有一些标注出现正负几万的,每次读的时候做一下过滤就不会卡住了
- 这几天也是尝试训练SynthText这个数据集,里面的确有很多标注有问题的数据集,已经做了过滤。但是训练时,跑着跑着就OOM了。
- 猜测是Dataset那里导致的,但是一直没找到真正原因。
我知道为啥了,读取图片那要cv2.imread().astype("float32"),可以多苟很长一段时间。不过只能20轮一跑,多了shm溢出这个没办法,但是降batch就可以跑很久才停。等跑到100epoch我就分享出来。这个训练时间还是很久的。 在2020年09月21日 15:56,None 写道: 在docker里面跑的吗, 启容器的时候加上 --shm-size=2g 把共享内存设大一点 docker 训练的时候设再大的shm也不行。。 你设--ipc=host训SynthText也会崩 — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe.
你好,请问解决kill的问题了吗?我每跑一次直接就把服务器卡死了,一直没解决,大佬救命SOS
你训练的是什么数据集 SynthText?
是的,我想问下这个代码存不存在内存溢出问题?
也是训练不到一个epoch 就直接kill了?
不算,有时候一个,有时候是几个epoch,但是最终都会kill
我是发现SynthText中有些数据会导致训练就kill掉的 所以我只训练了SynthText 的前5万张数据 就可以顺利的训练
大佬,能分享一下你用SynthText预训练的pth模型么,谢谢~