faster-rcnn-pytorch icon indicating copy to clipboard operation
faster-rcnn-pytorch copied to clipboard

运行开始训练,卡住半小时,一直不动

Open Fire-Star opened this issue 4 years ago • 45 comments

显卡:GTX1660Ti

image

image

Fire-Star avatar Jul 24 '20 17:07 Fire-Star

是否2007_train.txt里面没有目标信息

bubbliiiing avatar Jul 26 '20 05:07 bubbliiiing

image

请问我训练也是卡住了,训练走完了,卡在验证时候,txt文件都检查过了

Levi4s avatar Sep 01 '20 04:09 Levi4s

啥时候下的代码啊……

bubbliiiing avatar Sep 02 '20 07:09 bubbliiiing

啥时候下的代码啊……

一周之前下的,数据也检查过了,没有空文件

Levi4s avatar Sep 02 '20 07:09 Levi4s

要不重新下一下吧,你可能下到我修改代码中途的代码了?

bubbliiiing avatar Sep 05 '20 14:09 bubbliiiing

好的,谢谢

------------------ 原始邮件 ------------------ 发件人: "Bubbliiiing"<[email protected]>; 发送时间: 2020年9月5日(星期六) 晚上10:41 收件人: "bubbliiiing/faster-rcnn-pytorch"<[email protected]>; 抄送: "王佳俊"<[email protected]>; "Comment"<[email protected]>; 主题: Re: [bubbliiiing/faster-rcnn-pytorch] 运行开始训练,卡住半小时,一直不动 (#9)

要不重新下一下吧,你可能下到我修改代码中途的代码了?

— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.

Levi4s avatar Sep 05 '20 14:09 Levi4s

请问你们解决了吗?我训练的的时,训练到第一个epoch百分之十几就卡死机,两个backbone我试了试都是这样,我是台式机i5-9600k+rtx2080,内存16G,训练刚开始6个cpu全部百分百出力,内存接近百分百,显存百分之四十多,第一个epoch到百分之十几就卡死,不知道咋回事!

caixiiaoyang avatar Sep 28 '20 06:09 caixiiaoyang

要不重新下一下吧,你可能下到我修改代码中途的代码了? 我训练的的时,训练到第一个epoch百分之十几就卡死机,两个backbone我试了试都是这样,我是台式机i5-9600k+rtx2080,内存16G,训练刚开始6个cpu全部百分百出力,内存接近百分百,显存百分之四十多,第一个epoch到百分之十几就卡死,不知道咋回事,楼主的代码yolov3,yolov4我都跑了,这个跑不了。

caixiiaoyang avatar Sep 28 '20 06:09 caixiiaoyang

是不是很多图片没有目标?

bubbliiiing avatar Sep 28 '20 08:09 bubbliiiing

是不是很多图片没有目标?

有目标,数据集用你的yolov3,yolov4都跑过没有问题

caixiiaoyang avatar Sep 28 '20 08:09 caixiiaoyang

卡死是怎么样的卡死

bubbliiiing avatar Sep 28 '20 08:09 bubbliiiing

卡死是怎么样的卡死 我再跑一下,等会拍个照片让你看看

caixiiaoyang avatar Sep 28 '20 08:09 caixiiaoyang

卡死是怎么样的卡死[ 就是第一个epoch到12%,CPU和内存出力都降下来了,听到这里不懂了,电脑画面也卡死了,动鼠标和键盘也没有任何反应,要是不管它,电脑一会儿就会自动重启(不好意思,我刚玩github,不知道咋发图片)

caixiiaoyang avatar Sep 28 '20 08:09 caixiiaoyang

卡死是怎么样的卡死[ 就是第一个epoch到12%,CPU和内存出力都降下来了,停到这里不动了,电脑画面也卡死了,动鼠标和键盘也没有任何反应,要是不管它,电脑一会儿就会自动重启(不好意思,我刚玩github,不知道咋发图片)

caixiiaoyang avatar Sep 28 '20 08:09 caixiiaoyang

卡死是怎么样的卡死 我再跑一下,等会拍个照片让你看看

内存和CPU占用都太高了,都是100%,然后就卡死训练停止,电脑死机。

caixiiaoyang avatar Sep 28 '20 09:09 caixiiaoyang

Emm没见过。。。。。。你看看2007_train.txt,是不是没目标的图片很多呀

bubbliiiing avatar Sep 28 '20 09:09 bubbliiiing

版本是否都对应上了

bubbliiiing avatar Sep 28 '20 09:09 bubbliiiing

版本是否都对应上了

2007_train.txt都有目标,环境就是pytorch=1.2.0都没有问题。

caixiiaoyang avatar Sep 28 '20 09:09 caixiiaoyang

下个voc数据集试试

bubbliiiing avatar Sep 28 '20 09:09 bubbliiiing

下个voc数据集试试

可以,我试试,感谢您的耐心 解答,非常感谢

caixiiaoyang avatar Sep 28 '20 09:09 caixiiaoyang

我找到卡住的最主要原因,自己的数据集转过来的时候标签要和voc_annotation中的classes要一致,github主的源代码数据加载那里没有问题。我的标签原来是0,1,2,3.是yolo训练格式的,在转成voc格式的过程中xml中的name是0,1,2,3.而voc_annotation中的classes我设置的是["leaf", "sand", "bottle", "stone"],应该是["0", "1", "2", "3"]. 这里对不上的后果就是最后生成的2007_train.txt,每行标签后面没有坐标,因为转的过程xml中name和classes全都对不上。这样box在dataloader.py那里一直是空的。一直在while True里面不出来。。。。 错误格式的2007_train.txt里面是这样的: ./VOCdevkit/VOC2007/JPEGImages/1.png ./VOCdevkit/VOC2007/JPEGImages/10.png 正确的应该是: ./VOCdevkit/VOC2007/JPEGImages/1.png 8,504,77,595,0 102,476,138,501,0 252,438,313,501,0 318,265,360,301,0 60,219,123,257,0 324,218,367,275,0 251,202,300,254,0 10,173,76,214,0 323,81,367,122,0 253,54,314,102,0 284,46,314,62,0 174,34,197,42,0 5,30,76,85,0 115,0,140,12,0 ./VOCdevkit/VOC2007/JPEGImages/10.png 117,329,172,370,0 193,302,264,349,0 332,144,367,172,0 0,76,74,132,0 318,46,367,94,0

谢谢!!!其他人卡住,估计都是自己的数据有问题,特别是标签一致的问题

ps:我今天复现了几个faster-rcnn。目前还是这个最简洁。。谢谢!!! @bubbliiiing

liaojiacai avatar Nov 30 '20 14:11 liaojiacai

我标签也没有问题还是卡死

Daybreak-Zheng avatar Jan 06 '21 07:01 Daybreak-Zheng

@bubbliiiing @liaojiacai @caixiiaoyang 你们解决了么

Daybreak-Zheng avatar Jan 06 '21 07:01 Daybreak-Zheng

B站截图吧,连同你的2007_train.txt

bubbliiiing avatar Jan 08 '21 04:01 bubbliiiing

你好我训练的时候在第二轮迭代就卡住了问一下大概是怎么回事 image

zwh6879a avatar Apr 28 '21 08:04 zwh6879a

这是详细情况,好像在for循环头就卡住了 image image

zwh6879a avatar Apr 28 '21 09:04 zwh6879a

那请问这有办法解决么?

------------------ 原始邮件 ------------------ 发件人: "bubbliiiing/faster-rcnn-pytorch" @.>; 发送时间: 2021年4月28日(星期三) 下午5:08 @.>; @.@.>; 主题: Re: [bubbliiiing/faster-rcnn-pytorch] 运行开始训练,卡住半小时,一直不动 (#9)

这是详细情况,好像在for循环头就卡住了

— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.

Daybreak-Zheng avatar Apr 28 '21 09:04 Daybreak-Zheng

没找到问题

zwh6879a avatar Apr 28 '21 09:04 zwh6879a

你是什么问题

zwh6879a avatar Apr 28 '21 09:04 zwh6879a

我也是同样的问题,跑着跑着就卡死了

------------------ 原始邮件 ------------------ 发件人: @.>; 发送时间: 2021年4月28日(星期三) 下午5:12 收件人: @.>; 抄送: @.>; @.>; 主题: Re: [bubbliiiing/faster-rcnn-pytorch] 运行开始训练,卡住半小时,一直不动 (#9)

你是什么问题

— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.

Daybreak-Zheng avatar Apr 28 '21 09:04 Daybreak-Zheng