caffe_ocr
caffe_ocr copied to clipboard
样本生成工具能否公开
训练样本生成工具能否尽快公开 @senlinuc
同求
同求
可以参考这个:https://github.com/JarveeLee/SynthText_Chinese_version
有需要的可以参考下: https://github.com/Sanster/text_renderer
万分感谢,谢谢您!
在 2018-05-29 19:15:44,"Qing" [email protected] 写道:
有需要的可以参考下: https://github.com/Sanster/text_renderer
— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or mute the thread.
@Sanster 你好,请问下你训练的模型在实际图片上面效果怎么样?我用你给的工具生成了100万张图片,每张图片中包含有英文,数字,中文,符号。训练集验证集准确率都有0.97,但是实际图片测试效果不太好。想请问下你有没有遇到这种问题。谢谢!
@liangshuang1993 在我的应用场景下还可以。你的测试图片是什么样的?效果不好可能有很多原因,比如字体不够丰富、背景图片太单一(模型范化效果差)、语料不足、训练集数量不够等等。可以用这个项目作者提供的训练集试试
@Sanster 我把测试图片整理了下,清晰点的图片准确率确实能达到0.95,模糊的准确率是0.75左右。看来要多生成些模糊的图片做训练集了。非常感谢!
另外想请教下,如果没有语料,或者说语料都是字典里面的字的随机组合,会不会比有好的语料效果差?
@liangshuang1993 这个没有具体测试过,一个经验是语料的比随机组合好炼,收敛快。有什么好的经验可以分享吗 :smile:
@Sanster 你好,我没有具体比较,用了下随机组合的做训练集,感觉效果也还可以 😊