PaddleOCR ppstructure关键信息抽取

ppstructure关键信息抽取

Open tianchiguaixia opened this issue 2 years ago • 4 comments

针对这种检查单做SER和RE的信息抽取和结构化，需要标注的数据量大概多少？针对这种图片数据，百度这边用什么工具标注数据的？

Nov 01 '22 06:11 tianchiguaixia

这种case一般都是做表格识别，做关键信息抽取是怎么做呢？没有太多key-value的信息

Nov 01 '22 06:11 MissPenguin

有没有一种方法，让我识别以上的key-value键值对。就是那种layoutlm类似的模型可以？如果识别成表格，我担心质量不高，会出现错位和没有识别的情况。

Nov 02 '22 01:11 tianchiguaixia

使用layoutlm的话，需要标注关系，即针对RE任务的标注，目前PPOCRLabel支持了SER，但还没支持RE，所以标注可能有点麻烦。可以用表格方案或者ocr+后处理的方案试试

Nov 10 '22 02:11 MissPenguin

表格方案是指

Nov 10 '22 02:11 tianchiguaixia

表格方案是指

就是把这种当成无线表格进行识别，表格识别方案可参考：https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.6/ppstructure/table/README_ch.md

Nov 30 '22 07:11 MissPenguin