PaddleOCR icon indicating copy to clipboard operation
PaddleOCR copied to clipboard

请问rec后处理的时候,为什么保留的是得分较低的重复项?

Open yangy996 opened this issue 1 year ago • 6 comments

从图可以看到,在做文字识别后处理的时候,进行文字去重时,保留的重复项是得分为0.56的,而0.99反而没有保留,导致计算这行文字的得分最终得分较低。 image

yangy996 avatar Oct 18 '22 02:10 yangy996

改成这样,准确率明显提高了不少 image

yangy996 avatar Oct 18 '22 05:10 yangy996

@LDOUBLEV @WenmuZhou 大佬帮忙看看,可以这样改吗?

yangy996 avatar Oct 18 '22 05:10 yangy996

你好,这样只是得分变了呀?但是识别的字还是之前的那个字啊

Gmgge avatar Oct 20 '22 01:10 Gmgge

你好,这样只是得分变了呀?但是识别的字还是之前的那个字啊

是的,根据官方代码,默认只获取第一个重复项,但没考虑重复项得分是不一样的,会导致明明识别是正确的,但最终得分却异常低。不知道是不是个bug,大佬还没给回应。

yangy996 avatar Oct 20 '22 01:10 yangy996

你好,在paddleocr系统里面,没有考虑识别结果得分,所以这里优先关注了结果,比较得分的耗时可以被节省掉,如果你对识别结果得分非常关注的话,可以改成上面的形式,但是可能会增加后处理的耗时。

littletomatodonkey avatar Oct 20 '22 02:10 littletomatodonkey

你好,在paddleocr系统里面,没有考虑识别结果得分,所以这里优先关注了结果,比较得分的耗时可以被节省掉,如果你对识别结果得分非常关注的话,可以改成上面的形式,但是可能会增加后处理的耗时。

好的,了解了,经过测试,基本不会增加什么耗时。

yangy996 avatar Oct 20 '22 02:10 yangy996