CHINESE-OCR 中文OCR的数据集怎么生成

中文OCR的数据集怎么生成

Open chyun opened this issue 6 years ago • 6 comments

中文OCR的数据集怎么生成的? 定位没啥问题,就是中文ocr识别率比较低

Aug 10 '18 12:08 chyun

建议你参考这个：https://github.com/YoungMiao/synthdata-zh

Aug 24 '18 05:08 wfdubowen

synthdata-zh这个是单字的生成啊，如果想要训练CRNN，数据集是不是应该是不定长字符词组的啊？那图像对应的label应该是“嗄自噢三诺亚坯”这种对应的汉字，还是把相应汉字映射到一个字典里的index？ @CNU105

Sep 20 '18 12:09 Hubert2102

@NK-Hubert 或者直接参考这个（白底黑字）https://github.com/xiaofengShi/CHINESE-OCR/tree/master/train/create_dataset。这个可以自己调生成几个字。用的label是对应的汉字。

Sep 21 '18 02:09 wfdubowen

@NK-Hubert，https://github.com/Sierkinhane/crnn_chinese_characters_rec 这里有360万的中文数据集（Csdn 博客中有链接）

Sep 28 '18 00:09 Sierkinhane

赞，先下载看看，明天试着跑一下看啥效果。

Jan 11 '19 10:01 wangx404

@CNU105 使用create_dataset.py，报错如下：Process finished with exit code -1073741819 (0xC0000005)，请问该如何解决？

Mar 01 '20 13:03 WestbrookZero