cnn_captcha icon indicating copy to clipboard operation
cnn_captcha copied to clipboard

大家一般怎么做数据标注的,如果我的训练样本有5000个图片,怎么快速标注?

Open 150109514 opened this issue 5 years ago • 5 comments

我从我项目的页面中,爬下来5千个验证码图片。 在做训练前,应该是需要对这5000个图片进行标注的吧,请问大家都是怎么快速标注的?

150109514 avatar Sep 11 '20 03:09 150109514

唉,我也标到吐血,觉得最不科学就是这一步

otacu avatar Sep 24 '20 02:09 otacu

判断验证码是什么库生成的,写一个对应库的示例程序,生成验证码图片,图片名字符合 验证码_序列号 的规则。

superboy-zjc avatar Nov 28 '20 09:11 superboy-zjc

如果不是用程序模拟生成的验证码而是要用目标站点的验证码,推荐:

用python写个爬虫脚本 + 付费的验证码识别服务(一般几分钱一个验证码),如果填写的验证码在目标网站验证通过,则保存该验证码&对应标注信息,这样就可以得到一个绝对正确的标注集了。

人工标注的话太费眼睛了。。。

Samge0 avatar Dec 28 '20 07:12 Samge0

我的项目刚好也有 5000 个样本,是这么标注的:

  1. 人肉标注 1000 个样本。为了防止大脑罢工,我选择标 200 个玩一会游戏回血。
  2. 训练这标好的 1000 个样本,精度稳定在 80% 以上。对剩下的 4000 个样本自动打标。
  3. 把自动打标的图片按文件名(也就是标签)升序,如果打标正确,那么图片的内容也应该是升序的。从左至右、从上至下扫描图片内容,发现不符合排序的图片就是打错的。手工挑出来,人肉更正。

一上午就搞完了。

nowgoo avatar May 13 '21 08:05 nowgoo

我的思路是看目标站的程序是不是网上找的到的,能找到就直接把程序中生成验证码的部分拆出来,然后随机生成字符,用源程序的生成代码生成图片,然后保存。

NBY avatar Oct 06 '21 12:10 NBY