PaddleOCR
PaddleOCR copied to clipboard
复杂排版文字识别如何标注?
图片中是一个价签的价格字段,请问标注的时候是标为"25.90"还是"25.90元/瓶"?如果是前者,我如何可以识别出单位呢?额外增加一个检测框分开识别吗?
目前仅支持单行文本识别, 多行复杂排版需要标注多个检测框。请问您的场景中都是这类图片吗?如果样式固定可以写一个统一的处理逻辑,例如把每张图片分离成价格和单位两个部分,分别经过OCR识别,最终将结果拼在一起。
目前仅支持单行文本识别, 多行复杂排版需要标注多个检测框。请问您的场景中都是这类图片吗?如果样式固定可以写一个统一的处理逻辑,例如把每张图片分离成价格和单位两个部分,分别经过OCR识别,最终将结果拼在一起。
感谢回复。实际场景不一定,价签的版式多种多样。
@tink2123 我看PPOCRv4里使用了SVTR结构,把图片做了patch-wise image tokenization,是不是可以一定程度上解决这个问题呢?
还有有的时候价格可能是这种形式的:
我希望预测出370.00,是否可以直接标记为"370.00"呢?
@echochoc 一定程度可以缓解,但不能保证完全解决,因为模型结构设计的时候没有特意处理多行文本的问题。上图可以标注为370.00。
这种识别真的很麻烦哈哈哈哈哈
感谢讨论❤️