caffe_ocr icon indicating copy to clipboard operation
caffe_ocr copied to clipboard

样本生成工具能否公开

Open blacklee5 opened this issue 7 years ago • 10 comments

训练样本生成工具能否尽快公开 @senlinuc

blacklee5 avatar Feb 03 '18 08:02 blacklee5

同求

loveltyoic avatar Feb 13 '18 02:02 loveltyoic

同求

ARQlalala avatar Feb 23 '18 02:02 ARQlalala

可以参考这个:https://github.com/JarveeLee/SynthText_Chinese_version

weiweili123 avatar Mar 08 '18 03:03 weiweili123

有需要的可以参考下: https://github.com/Sanster/text_renderer

Sanster avatar May 29 '18 11:05 Sanster

万分感谢,谢谢您!

在 2018-05-29 19:15:44,"Qing" [email protected] 写道:

有需要的可以参考下: https://github.com/Sanster/text_renderer

— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or mute the thread.

ARQlalala avatar Jun 11 '18 00:06 ARQlalala

@Sanster 你好,请问下你训练的模型在实际图片上面效果怎么样?我用你给的工具生成了100万张图片,每张图片中包含有英文,数字,中文,符号。训练集验证集准确率都有0.97,但是实际图片测试效果不太好。想请问下你有没有遇到这种问题。谢谢!

liangshuang1993 avatar Jun 20 '18 16:06 liangshuang1993

@liangshuang1993 在我的应用场景下还可以。你的测试图片是什么样的?效果不好可能有很多原因,比如字体不够丰富、背景图片太单一(模型范化效果差)、语料不足、训练集数量不够等等。可以用这个项目作者提供的训练集试试

Sanster avatar Jun 21 '18 01:06 Sanster

@Sanster 我把测试图片整理了下,清晰点的图片准确率确实能达到0.95,模糊的准确率是0.75左右。看来要多生成些模糊的图片做训练集了。非常感谢!

另外想请教下,如果没有语料,或者说语料都是字典里面的字的随机组合,会不会比有好的语料效果差?

liangshuang1993 avatar Jun 21 '18 12:06 liangshuang1993

@liangshuang1993 这个没有具体测试过,一个经验是语料的比随机组合好炼,收敛快。有什么好的经验可以分享吗 :smile:

Sanster avatar Jun 26 '18 02:06 Sanster

@Sanster 你好,我没有具体比较,用了下随机组合的做训练集,感觉效果也还可以 😊

liangshuang1993 avatar Jul 01 '18 09:07 liangshuang1993