cnn_captcha
cnn_captcha copied to clipboard
大家一般怎么做数据标注的,如果我的训练样本有5000个图片,怎么快速标注?
我从我项目的页面中,爬下来5千个验证码图片。 在做训练前,应该是需要对这5000个图片进行标注的吧,请问大家都是怎么快速标注的?
唉,我也标到吐血,觉得最不科学就是这一步
判断验证码是什么库生成的,写一个对应库的示例程序,生成验证码图片,图片名字符合 验证码_序列号 的规则。
如果不是用程序模拟生成的验证码而是要用目标站点的验证码,推荐:
用python写个爬虫脚本 + 付费的验证码识别服务(一般几分钱一个验证码),如果填写的验证码在目标网站验证通过,则保存该验证码&对应标注信息,这样就可以得到一个绝对正确的标注集了。
人工标注的话太费眼睛了。。。
我的项目刚好也有 5000 个样本,是这么标注的:
- 人肉标注 1000 个样本。为了防止大脑罢工,我选择标 200 个玩一会游戏回血。
- 训练这标好的 1000 个样本,精度稳定在 80% 以上。对剩下的 4000 个样本自动打标。
- 把自动打标的图片按文件名(也就是标签)升序,如果打标正确,那么图片的内容也应该是升序的。从左至右、从上至下扫描图片内容,发现不符合排序的图片就是打错的。手工挑出来,人肉更正。
一上午就搞完了。
我的思路是看目标站的程序是不是网上找的到的,能找到就直接把程序中生成验证码的部分拆出来,然后随机生成字符,用源程序的生成代码生成图片,然后保存。