CHINESE-OCR icon indicating copy to clipboard operation
CHINESE-OCR copied to clipboard

中文OCR的数据集怎么生成

Open chyun opened this issue 6 years ago • 6 comments

中文OCR的数据集怎么生成的? 定位没啥问题,就是中文ocr识别率比较低

chyun avatar Aug 10 '18 12:08 chyun

建议你参考这个:https://github.com/YoungMiao/synthdata-zh

wfdubowen avatar Aug 24 '18 05:08 wfdubowen

synthdata-zh这个是单字的生成啊,如果想要训练CRNN,数据集是不是应该是不定长字符词组的啊?那图像对应的label应该是“嗄自噢三诺亚坯”这种对应的汉字,还是把相应汉字映射到一个字典里的index? @CNU105

Hubert2102 avatar Sep 20 '18 12:09 Hubert2102

@NK-Hubert 或者直接参考这个(白底黑字)https://github.com/xiaofengShi/CHINESE-OCR/tree/master/train/create_dataset。这个可以自己调生成几个字。用的label是对应的汉字。

wfdubowen avatar Sep 21 '18 02:09 wfdubowen

@NK-Hubert,https://github.com/Sierkinhane/crnn_chinese_characters_rec 这里有360万的中文数据集(Csdn 博客中有链接)

Sierkinhane avatar Sep 28 '18 00:09 Sierkinhane

赞,先下载看看,明天试着跑一下看啥效果。

wangx404 avatar Jan 11 '19 10:01 wangx404

@CNU105 使用create_dataset.py,报错如下:Process finished with exit code -1073741819 (0xC0000005),请问该如何解决?

WestbrookZero avatar Mar 01 '20 13:03 WestbrookZero