faster-rcnn-pytorch 运行开始训练，卡住半小时，一直不动

显卡：GTX1660Ti

Jul 24 '20 17:07 Fire-Star

是否2007_train.txt里面没有目标信息

Jul 26 '20 05:07 bubbliiiing

请问我训练也是卡住了，训练走完了，卡在验证时候，txt文件都检查过了

Sep 01 '20 04:09 Levi4s

啥时候下的代码啊……

Sep 02 '20 07:09 bubbliiiing

啥时候下的代码啊……

一周之前下的，数据也检查过了，没有空文件

Sep 02 '20 07:09 Levi4s

要不重新下一下吧，你可能下到我修改代码中途的代码了？

Sep 05 '20 14:09 bubbliiiing

好的，谢谢

------------------ 原始邮件 ------------------ 发件人: "Bubbliiiing"<[email protected]>; 发送时间: 2020年9月5日(星期六) 晚上10:41 收件人: "bubbliiiing/faster-rcnn-pytorch"<[email protected]>; 抄送: "王佳俊"<[email protected]>; "Comment"<[email protected]>; 主题: Re: [bubbliiiing/faster-rcnn-pytorch] 运行开始训练，卡住半小时，一直不动 (#9)

要不重新下一下吧，你可能下到我修改代码中途的代码了？

— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.

Sep 05 '20 14:09 Levi4s

请问你们解决了吗？我训练的的时，训练到第一个epoch百分之十几就卡死机，两个backbone我试了试都是这样，我是台式机i5-9600k+rtx2080,内存16G，训练刚开始6个cpu全部百分百出力，内存接近百分百，显存百分之四十多，第一个epoch到百分之十几就卡死，不知道咋回事！

Sep 28 '20 06:09 caixiiaoyang

要不重新下一下吧，你可能下到我修改代码中途的代码了？我训练的的时，训练到第一个epoch百分之十几就卡死机，两个backbone我试了试都是这样，我是台式机i5-9600k+rtx2080,内存16G，训练刚开始6个cpu全部百分百出力，内存接近百分百，显存百分之四十多，第一个epoch到百分之十几就卡死，不知道咋回事，楼主的代码yolov3,yolov4我都跑了，这个跑不了。

Sep 28 '20 06:09 caixiiaoyang

是不是很多图片没有目标？

Sep 28 '20 08:09 bubbliiiing

是不是很多图片没有目标？

有目标，数据集用你的yolov3,yolov4都跑过没有问题

Sep 28 '20 08:09 caixiiaoyang

卡死是怎么样的卡死

Sep 28 '20 08:09 bubbliiiing

卡死是怎么样的卡死我再跑一下，等会拍个照片让你看看

Sep 28 '20 08:09 caixiiaoyang

卡死是怎么样的卡死[ 就是第一个epoch到12%，CPU和内存出力都降下来了，听到这里不懂了，电脑画面也卡死了，动鼠标和键盘也没有任何反应，要是不管它，电脑一会儿就会自动重启（不好意思，我刚玩github，不知道咋发图片）

Sep 28 '20 08:09 caixiiaoyang

卡死是怎么样的卡死[ 就是第一个epoch到12%，CPU和内存出力都降下来了，停到这里不动了，电脑画面也卡死了，动鼠标和键盘也没有任何反应，要是不管它，电脑一会儿就会自动重启（不好意思，我刚玩github，不知道咋发图片）

Sep 28 '20 08:09 caixiiaoyang

卡死是怎么样的卡死我再跑一下，等会拍个照片让你看看

内存和CPU占用都太高了，都是100%，然后就卡死训练停止，电脑死机。

Sep 28 '20 09:09 caixiiaoyang

Emm没见过。。。。。。你看看2007_train.txt，是不是没目标的图片很多呀

Sep 28 '20 09:09 bubbliiiing

版本是否都对应上了

Sep 28 '20 09:09 bubbliiiing

版本是否都对应上了

2007_train.txt都有目标，环境就是pytorch=1.2.0都没有问题。

Sep 28 '20 09:09 caixiiaoyang

下个voc数据集试试

Sep 28 '20 09:09 bubbliiiing

下个voc数据集试试

可以，我试试，感谢您的耐心解答，非常感谢

Sep 28 '20 09:09 caixiiaoyang

我找到卡住的最主要原因，自己的数据集转过来的时候标签要和voc_annotation中的classes要一致，github主的源代码数据加载那里没有问题。我的标签原来是0，1,2,3.是yolo训练格式的，在转成voc格式的过程中xml中的name是0,1,2,3.而voc_annotation中的classes我设置的是["leaf", "sand", "bottle", "stone"]，应该是["0", "1", "2", "3"]. 这里对不上的后果就是最后生成的2007_train.txt，每行标签后面没有坐标，因为转的过程xml中name和classes全都对不上。这样box在dataloader.py那里一直是空的。一直在while True里面不出来。。。。错误格式的2007_train.txt里面是这样的： ./VOCdevkit/VOC2007/JPEGImages/1.png ./VOCdevkit/VOC2007/JPEGImages/10.png 正确的应该是： ./VOCdevkit/VOC2007/JPEGImages/1.png 8,504,77,595,0 102,476,138,501,0 252,438,313,501,0 318,265,360,301,0 60,219,123,257,0 324,218,367,275,0 251,202,300,254,0 10,173,76,214,0 323,81,367,122,0 253,54,314,102,0 284,46,314,62,0 174,34,197,42,0 5,30,76,85,0 115,0,140,12,0 ./VOCdevkit/VOC2007/JPEGImages/10.png 117,329,172,370,0 193,302,264,349,0 332,144,367,172,0 0,76,74,132,0 318,46,367,94,0

谢谢！！！其他人卡住，估计都是自己的数据有问题，特别是标签一致的问题

ps：我今天复现了几个faster-rcnn。目前还是这个最简洁。。谢谢！！！ @bubbliiiing

Nov 30 '20 14:11 liaojiacai

我标签也没有问题还是卡死

Jan 06 '21 07:01 Daybreak-Zheng

@bubbliiiing @liaojiacai @caixiiaoyang 你们解决了么

Jan 06 '21 07:01 Daybreak-Zheng

B站截图吧，连同你的2007_train.txt

Jan 08 '21 04:01 bubbliiiing

你好我训练的时候在第二轮迭代就卡住了问一下大概是怎么回事

Apr 28 '21 08:04 zwh6879a

这是详细情况，好像在for循环头就卡住了

Apr 28 '21 09:04 zwh6879a

那请问这有办法解决么？

------------------ 原始邮件 ------------------ 发件人: "bubbliiiing/faster-rcnn-pytorch" @.>; 发送时间: 2021年4月28日(星期三) 下午5:08 @.>; @.@.>; 主题: Re: [bubbliiiing/faster-rcnn-pytorch] 运行开始训练，卡住半小时，一直不动 (#9)

这是详细情况，好像在for循环头就卡住了

— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.

Apr 28 '21 09:04 Daybreak-Zheng

没找到问题

Apr 28 '21 09:04 zwh6879a

你是什么问题

Apr 28 '21 09:04 zwh6879a

我也是同样的问题，跑着跑着就卡死了

------------------ 原始邮件 ------------------ 发件人: @.>; 发送时间: 2021年4月28日(星期三) 下午5:12 收件人: @.>; 抄送: @.>; @.>; 主题: Re: [bubbliiiing/faster-rcnn-pytorch] 运行开始训练，卡住半小时，一直不动 (#9)

你是什么问题

— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.

Apr 28 '21 09:04 Daybreak-Zheng

faster-rcnn-pytorch faster-rcnn-pytorch copied to clipboard

运行开始训练，卡住半小时，一直不动

faster-rcnn-pytorch
faster-rcnn-pytorch copied to clipboard