PaddleOCR
PaddleOCR copied to clipboard
dbnet文本检测效果不佳,请问能否帮忙看看case
使用模型det_r50_vd_db
hmean只有0.63、精确度只有0.73
[2022/11/05 04:35:15] ppocr INFO: best metric, hmean: 0.6345609065155807, is_float16: False, precision: 0.7384615384615385, recall: 0.5562913907284768, fps: 29.827697440209544, best_epoch: 411
场景是学历学位证的OCR识别,数据特点:存在红章的干扰、部分数据存在背景干扰、每行文字中有较多的空格
我自己标注的标准是,尽可能的以文本行为单位进行标注、章中间的红字不进行标注(担心章内文字对后续的信息抽取造成干扰),示例如下(关键信息已打码)
查看了一下识别结果
1、有章干扰的部分检测结果糟糕,漏检比较严重,并且章内的文字依然会检测到
2、检测框大部分还是按空格分开的(没有像标注的那样按行,是否标注时也标注得更细一点会更好?)
希望大佬们给点建议!
建议用OpenCV颜色通道分离法去除图片中的红色印章,再进行识别效果会好一些,参考这个:https://blog.csdn.net/wsp_1138886114/article/details/82858380