Text_select_captcha icon indicating copy to clipboard operation
Text_select_captcha copied to clipboard

几百张训练图片肯定不够吧?

Open chenxs1427 opened this issue 1 year ago • 3 comments

在参考训练资料里面,我看了bubbl原作者的博客,每个字符至少要标注20张 😅

chenxs1427 avatar Oct 27 '24 09:10 chenxs1427

在参考训练资料里面,我看了bubbl原作者的博客,每个字符至少要标注20张 😅

我用程序标注了2000多张正确的验证码,用错误验证码当验证集,效果还可以,但是我不知道怎么使用模型

ghost avatar Oct 27 '24 09:10 ghost

转onnx后直接使用即可

---- 回复的原邮件 ---- | 发件人 | @.> | | 日期 | 2024年10月27日 17:43 | | 收件人 | @.> | | 抄送至 | @.***> | | 主题 | Re: [MgArcher/Text_select_captcha] 几百张训练图片肯定不够吧? (Issue #69) |

在参考训练资料里面,我看了bubbl原作者的博客,每个字符至少要标注20张 😅

我用程序标注了2000多张正确的验证码,用错误验证码当验证集,效果还可以,但是我不知道怎么使用模型

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you are subscribed to this thread.Message ID: @.***>

MgArcher avatar Oct 28 '24 12:10 MgArcher

转onnx后直接使用即可 ---- 回复的原邮件 ---- | 发件人 | @.> | | 日期 | 2024年10月27日 17:43 | | 收件人 | @.> | | 抄送至 | @.> | | 主题 | Re: [MgArcher/Text_select_captcha] 几百张训练图片肯定不够吧? (Issue #69) | 在参考训练资料里面,我看了bubbl原作者的博客,每个字符至少要标注20张 😅 我用程序标注了2000多张正确的验证码,用错误验证码当验证集,效果还可以,但是我不知道怎么使用模型 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you are subscribed to this thread.Message ID: @.>

万分感谢您,用volov5官方自带的导出脚本,边长设置384,导出后报错边长640,改配置为640后重试,代码未报错,但无识别结果,尝试按照我的训练配置更改char和target的顺序,成功识别。

数据集来源为程序自动抓取的验证码,并配合孪生模型自动标记,好像是2700张左右,验证集为手动标注的10张易错验证码,也是程序自动抓取的,实测您的yolo+孪生v6模型抓到的成功验证码和失败验证码的比率为498:408。

之前抓取2700张验证码的代码有问题,里面大部分验证码是无法正确识别的,相当于给模型喂了错误数据。全靠10张验证集来矫正。epoch设置的100000,速度调的自动,结果用kaggle跑到500epoch时由于没有进步训练自动暂停了,自动保存的最老的模型就是500epoch。

接下来打算抓一些能够成功识别的验证码重新训练试试,应该识别准确率还能提升

ghost avatar Oct 31 '24 02:10 ghost