PaddleOCR icon indicating copy to clipboard operation
PaddleOCR copied to clipboard

dbnet文本检测效果不佳,请问能否帮忙看看case

Open ZzyChris97 opened this issue 2 years ago • 1 comments

使用模型det_r50_vd_db

hmean只有0.63、精确度只有0.73

[2022/11/05 04:35:15] ppocr INFO: best metric, hmean: 0.6345609065155807, is_float16: False, precision: 0.7384615384615385, recall: 0.5562913907284768, fps: 29.827697440209544, best_epoch: 411

场景是学历学位证的OCR识别,数据特点:存在红章的干扰、部分数据存在背景干扰、每行文字中有较多的空格

我自己标注的标准是,尽可能的以文本行为单位进行标注、章中间的红字不进行标注(担心章内文字对后续的信息抽取造成干扰),示例如下(关键信息已打码) image

查看了一下识别结果 1、有章干扰的部分检测结果糟糕,漏检比较严重,并且章内的文字依然会检测到 2、检测框大部分还是按空格分开的(没有像标注的那样按行,是否标注时也标注得更细一点会更好?) image image

希望大佬们给点建议!

ZzyChris97 avatar Nov 08 '22 04:11 ZzyChris97

建议用OpenCV颜色通道分离法去除图片中的红色印章,再进行识别效果会好一些,参考这个:https://blog.csdn.net/wsp_1138886114/article/details/82858380

jingsongliujing avatar Nov 10 '22 02:11 jingsongliujing