PaddleOCR icon indicating copy to clipboard operation
PaddleOCR copied to clipboard

ppstructure关键信息抽取

Open tianchiguaixia opened this issue 1 year ago • 4 comments

image 针对这种检查单做SER和RE的信息抽取和结构化,需要标注的数据量大概多少? 针对这种图片数据,百度这边用什么工具标注数据的?

tianchiguaixia avatar Nov 01 '22 06:11 tianchiguaixia

这种case一般都是做表格识别,做关键信息抽取是怎么做呢?没有太多key-value的信息

MissPenguin avatar Nov 01 '22 06:11 MissPenguin

image 有没有一种方法,让我识别以上的key-value键值对。就是那种layoutlm类似的模型可以?如果识别成表格,我担心质量不高,会出现错位和没有识别的情况。

tianchiguaixia avatar Nov 02 '22 01:11 tianchiguaixia

使用layoutlm的话,需要标注关系,即针对RE任务的标注,目前PPOCRLabel支持了SER,但还没支持RE,所以标注可能有点麻烦。可以用表格方案或者ocr+后处理的方案试试

MissPenguin avatar Nov 10 '22 02:11 MissPenguin

表格方案是指

tianchiguaixia avatar Nov 10 '22 02:11 tianchiguaixia