PaddleOCR dbnet文本检测效果不佳，请问能否帮忙看看case

dbnet文本检测效果不佳，请问能否帮忙看看case

Open ZzyChris97 opened this issue 2 years ago • 1 comments

使用模型det_r50_vd_db

hmean只有0.63、精确度只有0.73

[2022/11/05 04:35:15] ppocr INFO: best metric, hmean: 0.6345609065155807, is_float16: False, precision: 0.7384615384615385, recall: 0.5562913907284768, fps: 29.827697440209544, best_epoch: 411

场景是学历学位证的OCR识别，数据特点：存在红章的干扰、部分数据存在背景干扰、每行文字中有较多的空格

我自己标注的标准是，尽可能的以文本行为单位进行标注、章中间的红字不进行标注（担心章内文字对后续的信息抽取造成干扰），示例如下（关键信息已打码）

查看了一下识别结果 1、有章干扰的部分检测结果糟糕，漏检比较严重，并且章内的文字依然会检测到 2、检测框大部分还是按空格分开的（没有像标注的那样按行，是否标注时也标注得更细一点会更好？）

希望大佬们给点建议！

Nov 08 '22 04:11 ZzyChris97

建议用OpenCV颜色通道分离法去除图片中的红色印章，再进行识别效果会好一些,参考这个：https://blog.csdn.net/wsp_1138886114/article/details/82858380

Nov 10 '22 02:11 jingsongliujing

PaddleOCR PaddleOCR copied to clipboard

dbnet文本检测效果不佳，请问能否帮忙看看case

PaddleOCR
PaddleOCR copied to clipboard