faster-rcnn-pytorch
faster-rcnn-pytorch copied to clipboard
运行开始训练,卡住半小时,一直不动
显卡:GTX1660Ti
是否2007_train.txt里面没有目标信息
请问我训练也是卡住了,训练走完了,卡在验证时候,txt文件都检查过了
啥时候下的代码啊……
啥时候下的代码啊……
一周之前下的,数据也检查过了,没有空文件
要不重新下一下吧,你可能下到我修改代码中途的代码了?
好的,谢谢
------------------ 原始邮件 ------------------ 发件人: "Bubbliiiing"<[email protected]>; 发送时间: 2020年9月5日(星期六) 晚上10:41 收件人: "bubbliiiing/faster-rcnn-pytorch"<[email protected]>; 抄送: "王佳俊"<[email protected]>; "Comment"<[email protected]>; 主题: Re: [bubbliiiing/faster-rcnn-pytorch] 运行开始训练,卡住半小时,一直不动 (#9)
要不重新下一下吧,你可能下到我修改代码中途的代码了?
— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.
请问你们解决了吗?我训练的的时,训练到第一个epoch百分之十几就卡死机,两个backbone我试了试都是这样,我是台式机i5-9600k+rtx2080,内存16G,训练刚开始6个cpu全部百分百出力,内存接近百分百,显存百分之四十多,第一个epoch到百分之十几就卡死,不知道咋回事!
要不重新下一下吧,你可能下到我修改代码中途的代码了? 我训练的的时,训练到第一个epoch百分之十几就卡死机,两个backbone我试了试都是这样,我是台式机i5-9600k+rtx2080,内存16G,训练刚开始6个cpu全部百分百出力,内存接近百分百,显存百分之四十多,第一个epoch到百分之十几就卡死,不知道咋回事,楼主的代码yolov3,yolov4我都跑了,这个跑不了。
是不是很多图片没有目标?
是不是很多图片没有目标?
有目标,数据集用你的yolov3,yolov4都跑过没有问题
卡死是怎么样的卡死
卡死是怎么样的卡死 我再跑一下,等会拍个照片让你看看
卡死是怎么样的卡死[ 就是第一个epoch到12%,CPU和内存出力都降下来了,听到这里不懂了,电脑画面也卡死了,动鼠标和键盘也没有任何反应,要是不管它,电脑一会儿就会自动重启(不好意思,我刚玩github,不知道咋发图片)
卡死是怎么样的卡死[ 就是第一个epoch到12%,CPU和内存出力都降下来了,停到这里不动了,电脑画面也卡死了,动鼠标和键盘也没有任何反应,要是不管它,电脑一会儿就会自动重启(不好意思,我刚玩github,不知道咋发图片)
卡死是怎么样的卡死 我再跑一下,等会拍个照片让你看看
内存和CPU占用都太高了,都是100%,然后就卡死训练停止,电脑死机。
Emm没见过。。。。。。你看看2007_train.txt,是不是没目标的图片很多呀
版本是否都对应上了
版本是否都对应上了
2007_train.txt都有目标,环境就是pytorch=1.2.0都没有问题。
下个voc数据集试试
下个voc数据集试试
可以,我试试,感谢您的耐心 解答,非常感谢
我找到卡住的最主要原因,自己的数据集转过来的时候标签要和voc_annotation中的classes要一致,github主的源代码数据加载那里没有问题。我的标签原来是0,1,2,3.是yolo训练格式的,在转成voc格式的过程中xml中的name是0,1,2,3.而voc_annotation中的classes我设置的是["leaf", "sand", "bottle", "stone"],应该是["0", "1", "2", "3"]. 这里对不上的后果就是最后生成的2007_train.txt,每行标签后面没有坐标,因为转的过程xml中name和classes全都对不上。这样box在dataloader.py那里一直是空的。一直在while True里面不出来。。。。 错误格式的2007_train.txt里面是这样的: ./VOCdevkit/VOC2007/JPEGImages/1.png ./VOCdevkit/VOC2007/JPEGImages/10.png 正确的应该是: ./VOCdevkit/VOC2007/JPEGImages/1.png 8,504,77,595,0 102,476,138,501,0 252,438,313,501,0 318,265,360,301,0 60,219,123,257,0 324,218,367,275,0 251,202,300,254,0 10,173,76,214,0 323,81,367,122,0 253,54,314,102,0 284,46,314,62,0 174,34,197,42,0 5,30,76,85,0 115,0,140,12,0 ./VOCdevkit/VOC2007/JPEGImages/10.png 117,329,172,370,0 193,302,264,349,0 332,144,367,172,0 0,76,74,132,0 318,46,367,94,0
谢谢!!!其他人卡住,估计都是自己的数据有问题,特别是标签一致的问题
ps:我今天复现了几个faster-rcnn。目前还是这个最简洁。。谢谢!!! @bubbliiiing
我标签也没有问题还是卡死
@bubbliiiing @liaojiacai @caixiiaoyang 你们解决了么
B站截图吧,连同你的2007_train.txt
你好我训练的时候在第二轮迭代就卡住了问一下大概是怎么回事
这是详细情况,好像在for循环头就卡住了
那请问这有办法解决么?
------------------ 原始邮件 ------------------ 发件人: "bubbliiiing/faster-rcnn-pytorch" @.>; 发送时间: 2021年4月28日(星期三) 下午5:08 @.>; @.@.>; 主题: Re: [bubbliiiing/faster-rcnn-pytorch] 运行开始训练,卡住半小时,一直不动 (#9)
这是详细情况,好像在for循环头就卡住了
— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.
没找到问题
你是什么问题
我也是同样的问题,跑着跑着就卡死了
------------------ 原始邮件 ------------------ 发件人: @.>; 发送时间: 2021年4月28日(星期三) 下午5:12 收件人: @.>; 抄送: @.>; @.>; 主题: Re: [bubbliiiing/faster-rcnn-pytorch] 运行开始训练,卡住半小时,一直不动 (#9)
你是什么问题
— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.