PaddleOCR icon indicating copy to clipboard operation
PaddleOCR copied to clipboard

表格识别训练

Open LeFuGang opened this issue 2 years ago • 7 comments

请提供下述完整信息以便快速定位问题/Please provide the following information to quickly locate the problem

  • 系统环境/System Environment:
  • 版本号/Version:Paddle: PaddleOCR: 问题相关组件/Related components:
  • 运行指令/Command Code:
  • 完整报错/Complete Error Message:

我想问下表格训练数据集的问题:

{ 'filename': PMC5755158_010_01.png, # 图像名 'split': ’train‘, # 图像属于训练集还是验证集 'imgid': 0, # 图像的index 'html': { 'structure': {'tokens': ['', '', '', ...]}, # 表格的HTML字符串 'cell': [ { 'tokens': ['P', 'a', 'd', 'd', 'l', 'e', 'P', 'a', 'd', 'd', 'l', 'e'], # 表格中的单个文本 'bbox': [x0, y0, x1, y1] # 表格中的单个文本的坐标 } ] } }

这个是官方文档展示的训练数据格式,我想问下怎么没有单元格的坐标数据,这个不是模型训练出来的吗,我看算法流程图里面是有的呀 image

2、还想问一个问题,输入的表格是不是需要裁剪好的尼?就是输入图片中只有一个表格?

LeFuGang avatar Oct 09 '22 08:10 LeFuGang

  1. 上面的标注格式是错的,cell-> cells就对了,另外单元格坐标在bbox字段下
  2. 需要裁剪为只包含表格区域

WenmuZhou avatar Oct 09 '22 10:10 WenmuZhou

  1. 上面的标注格式是错的,cell-> cells就对了,另外单元格坐标在bbox字段下
  2. 需要裁剪为只包含表格区域

您好 ,我问下: 正确的标注格式哪里有呀? bbox不是文本框的坐标吗

LeFuGang avatar Oct 10 '22 01:10 LeFuGang

  1. 标注格式可以参考这个 https://github.com/ibm-aur-nlp/PubTabNet/blob/master/examples/PubTabNet_Examples.jsonl
  2. bbox是单元格的坐标,不是文本框的

WenmuZhou avatar Oct 10 '22 06:10 WenmuZhou

  1. 标注格式可以参考这个 https://github.com/ibm-aur-nlp/PubTabNet/blob/master/examples/PubTabNet_Examples.jsonl
  2. bbox是单元格的坐标,不是文本框的

我的天,我用的是paddlelabel中的表格识别,然后就是框文本,得到文本框的坐标,那我应该调整这些框,标成单元格的坐标吧, 那需要重新标过了,而且paddlelabel中的表格识别没啥用呀,全部都需要调整;

LeFuGang avatar Oct 10 '22 07:10 LeFuGang

我这边注意到之前的文档里,给出的标注格式有问题,这里做了更新https://github.com/PaddlePaddle/PaddleOCR/pull/7863。 paddlelabel目前返回的坐标框是ocr的检测框,需要自己做调整的

WenmuZhou avatar Oct 10 '22 08:10 WenmuZhou

我这边注意到之前的文档里,给出的标注格式有问题,这里做了更新https://github.com/PaddlePaddle/PaddleOCR/pull/7863。 paddlelabel目前返回的坐标框是ocr的检测框,需要自己做调整的

好的,明白了,谢谢大佬

LeFuGang avatar Oct 10 '22 10:10 LeFuGang

  1. 标注格式可以参考这个 ibm-aur-nlp/PubTabNet@master/examples/PubTabNet_Examples.jsonl
  2. bbox是单元格的坐标,不是文本框的

我的天,我用的是paddlelabel中的表格识别,然后就是框文本,得到文本框的坐标,那我应该调整这些框,标成单元格的坐标吧, 那需要重新标过了,而且paddlelabel中的表格识别没啥用呀,全部都需要调整;

请问单元格的坐标该怎么标啊,感觉跟文本坐标差不多啊。你说的调整是怎么调整啊

bldu avatar Nov 01 '22 09:11 bldu