PaddleOCR 表格识别训练

请提供下述完整信息以便快速定位问题/Please provide the following information to quickly locate the problem

系统环境/System Environment：
版本号/Version：Paddle： PaddleOCR：问题相关组件/Related components：
运行指令/Command Code：
完整报错/Complete Error Message：

我想问下表格训练数据集的问题：

{ 'filename': PMC5755158_010_01.png, # 图像名 'split': ’train‘, # 图像属于训练集还是验证集 'imgid': 0, # 图像的index 'html': { 'structure': {'tokens': ['', '', '', ...]}, # 表格的HTML字符串 'cell': [ { 'tokens': ['P', 'a', 'd', 'd', 'l', 'e', 'P', 'a', 'd', 'd', 'l', 'e'], # 表格中的单个文本 'bbox': [x0, y0, x1, y1] # 表格中的单个文本的坐标 } ] } }

这个是官方文档展示的训练数据格式，我想问下怎么没有单元格的坐标数据，这个不是模型训练出来的吗，我看算法流程图里面是有的呀

2、还想问一个问题，输入的表格是不是需要裁剪好的尼？就是输入图片中只有一个表格？

Oct 09 '22 08:10 LeFuGang

上面的标注格式是错的，cell-> cells就对了，另外单元格坐标在bbox字段下
需要裁剪为只包含表格区域

Oct 09 '22 10:10 WenmuZhou

上面的标注格式是错的，cell-> cells就对了，另外单元格坐标在bbox字段下

需要裁剪为只包含表格区域

您好，我问下：正确的标注格式哪里有呀？ bbox不是文本框的坐标吗

Oct 10 '22 01:10 LeFuGang

标注格式可以参考这个 https://github.com/ibm-aur-nlp/PubTabNet/blob/master/examples/PubTabNet_Examples.jsonl
bbox是单元格的坐标，不是文本框的

Oct 10 '22 06:10 WenmuZhou

标注格式可以参考这个 https://github.com/ibm-aur-nlp/PubTabNet/blob/master/examples/PubTabNet_Examples.jsonl

bbox是单元格的坐标，不是文本框的

我的天，我用的是paddlelabel中的表格识别，然后就是框文本，得到文本框的坐标，那我应该调整这些框，标成单元格的坐标吧，那需要重新标过了，而且paddlelabel中的表格识别没啥用呀，全部都需要调整；

Oct 10 '22 07:10 LeFuGang

我这边注意到之前的文档里，给出的标注格式有问题，这里做了更新https://github.com/PaddlePaddle/PaddleOCR/pull/7863。 paddlelabel目前返回的坐标框是ocr的检测框，需要自己做调整的

Oct 10 '22 08:10 WenmuZhou

我这边注意到之前的文档里，给出的标注格式有问题，这里做了更新https://github.com/PaddlePaddle/PaddleOCR/pull/7863。 paddlelabel目前返回的坐标框是ocr的检测框，需要自己做调整的

好的，明白了，谢谢大佬

Oct 10 '22 10:10 LeFuGang

标注格式可以参考这个 ibm-aur-nlp/PubTabNet@master/examples/PubTabNet_Examples.jsonl

bbox是单元格的坐标，不是文本框的

我的天，我用的是paddlelabel中的表格识别，然后就是框文本，得到文本框的坐标，那我应该调整这些框，标成单元格的坐标吧，那需要重新标过了，而且paddlelabel中的表格识别没啥用呀，全部都需要调整；

请问单元格的坐标该怎么标啊，感觉跟文本坐标差不多啊。你说的调整是怎么调整啊

Nov 01 '22 09:11 bldu

PaddleOCR PaddleOCR copied to clipboard

表格识别训练

PaddleOCR
PaddleOCR copied to clipboard