PaddleOCR
PaddleOCR copied to clipboard

Published 20 hours ago •

Reame
Issues

复杂排版文字识别如何标注？

Open echochoc opened this issue 11 months ago • 6 comments

IMG_ppmoney_20220924_124811_6213_f6_33_1120 5000_3406 0000_863 0000_438 0000_0 000000_329 4103_193 1026_421 0000_168 0000_0 000000 图片中是一个价签的价格字段，请问标注的时候是标为"25.90"还是"25.90元/瓶"？如果是前者，我如何可以识别出单位呢？额外增加一个检测框分开识别吗？

Mar 18 '24 05:03 echochoc

目前仅支持单行文本识别，多行复杂排版需要标注多个检测框。请问您的场景中都是这类图片吗？如果样式固定可以写一个统一的处理逻辑，例如把每张图片分离成价格和单位两个部分，分别经过OCR识别，最终将结果拼在一起。

Mar 18 '24 08:03 tink2123

目前仅支持单行文本识别，多行复杂排版需要标注多个检测框。请问您的场景中都是这类图片吗？如果样式固定可以写一个统一的处理逻辑，例如把每张图片分离成价格和单位两个部分，分别经过OCR识别，最终将结果拼在一起。

感谢回复。实际场景不一定，价签的版式多种多样。

Mar 18 '24 08:03 echochoc

@tink2123 我看PPOCRv4里使用了SVTR结构，把图片做了patch-wise image tokenization，是不是可以一定程度上解决这个问题呢？还有有的时候价格可能是这种形式的：我希望预测出370.00，是否可以直接标记为"370.00"呢？

Mar 19 '24 03:03 echochoc

@echochoc 一定程度可以缓解，但不能保证完全解决，因为模型结构设计的时候没有特意处理多行文本的问题。上图可以标注为370.00。

Mar 19 '24 12:03 tink2123

这种识别真的很麻烦哈哈哈哈哈

Mar 24 '24 11:03 Arrogant-Q

感谢讨论❤️

Apr 30 '24 02:04 UserWangZz