PaddleOCR
PaddleOCR copied to clipboard
ppstructure关键信息抽取
针对这种检查单做SER和RE的信息抽取和结构化,需要标注的数据量大概多少?
针对这种图片数据,百度这边用什么工具标注数据的?
这种case一般都是做表格识别,做关键信息抽取是怎么做呢?没有太多key-value的信息
有没有一种方法,让我识别以上的key-value键值对。就是那种layoutlm类似的模型可以?如果识别成表格,我担心质量不高,会出现错位和没有识别的情况。
使用layoutlm的话,需要标注关系,即针对RE任务的标注,目前PPOCRLabel支持了SER,但还没支持RE,所以标注可能有点麻烦。可以用表格方案或者ocr+后处理的方案试试
表格方案是指
表格方案是指
就是把这种当成无线表格进行识别,表格识别方案可参考:https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.6/ppstructure/table/README_ch.md