PaddleOCR icon indicating copy to clipboard operation
PaddleOCR copied to clipboard

复杂排版文字识别如何标注?

Open echochoc opened this issue 11 months ago • 6 comments

IMG_ppmoney_20220924_124811_6213_f6_33_1120 5000_3406 0000_863 0000_438 0000_0 000000_329 4103_193 1026_421 0000_168 0000_0 000000 图片中是一个价签的价格字段,请问标注的时候是标为"25.90"还是"25.90元/瓶"?如果是前者,我如何可以识别出单位呢?额外增加一个检测框分开识别吗?

echochoc avatar Mar 18 '24 05:03 echochoc

目前仅支持单行文本识别, 多行复杂排版需要标注多个检测框。请问您的场景中都是这类图片吗?如果样式固定可以写一个统一的处理逻辑,例如把每张图片分离成价格和单位两个部分,分别经过OCR识别,最终将结果拼在一起。

tink2123 avatar Mar 18 '24 08:03 tink2123

目前仅支持单行文本识别, 多行复杂排版需要标注多个检测框。请问您的场景中都是这类图片吗?如果样式固定可以写一个统一的处理逻辑,例如把每张图片分离成价格和单位两个部分,分别经过OCR识别,最终将结果拼在一起。

感谢回复。实际场景不一定,价签的版式多种多样。

echochoc avatar Mar 18 '24 08:03 echochoc

@tink2123 我看PPOCRv4里使用了SVTR结构,把图片做了patch-wise image tokenization,是不是可以一定程度上解决这个问题呢? 还有有的时候价格可能是这种形式的: image 我希望预测出370.00,是否可以直接标记为"370.00"呢?

echochoc avatar Mar 19 '24 03:03 echochoc

@echochoc 一定程度可以缓解,但不能保证完全解决,因为模型结构设计的时候没有特意处理多行文本的问题。上图可以标注为370.00。

tink2123 avatar Mar 19 '24 12:03 tink2123

这种识别真的很麻烦哈哈哈哈哈

Arrogant-Q avatar Mar 24 '24 11:03 Arrogant-Q

感谢讨论❤️

UserWangZz avatar Apr 30 '24 02:04 UserWangZz