PaddleOCR
PaddleOCR copied to clipboard
表格识别训练
请提供下述完整信息以便快速定位问题/Please provide the following information to quickly locate the problem
- 系统环境/System Environment:
- 版本号/Version:Paddle: PaddleOCR: 问题相关组件/Related components:
- 运行指令/Command Code:
- 完整报错/Complete Error Message:
我想问下表格训练数据集的问题:
{
'filename': PMC5755158_010_01.png, # 图像名
'split': ’train‘, # 图像属于训练集还是验证集
'imgid': 0, # 图像的index
'html': {
'structure': {'tokens': ['', ' 这个是官方文档展示的训练数据格式,我想问下怎么没有单元格的坐标数据,这个不是模型训练出来的吗,我看算法流程图里面是有的呀
2、还想问一个问题,输入的表格是不是需要裁剪好的尼?就是输入图片中只有一个表格?', ' ', ...]}, # 表格的HTML字符串
'cell': [
{
'tokens': ['P', 'a', 'd', 'd', 'l', 'e', 'P', 'a', 'd', 'd', 'l', 'e'], # 表格中的单个文本
'bbox': [x0, y0, x1, y1] # 表格中的单个文本的坐标
}
]
}
}
- 上面的标注格式是错的,cell-> cells就对了,另外单元格坐标在bbox字段下
- 需要裁剪为只包含表格区域
- 上面的标注格式是错的,cell-> cells就对了,另外单元格坐标在bbox字段下
- 需要裁剪为只包含表格区域
您好 ,我问下: 正确的标注格式哪里有呀? bbox不是文本框的坐标吗
- 标注格式可以参考这个 https://github.com/ibm-aur-nlp/PubTabNet/blob/master/examples/PubTabNet_Examples.jsonl
- bbox是单元格的坐标,不是文本框的
- 标注格式可以参考这个 https://github.com/ibm-aur-nlp/PubTabNet/blob/master/examples/PubTabNet_Examples.jsonl
- bbox是单元格的坐标,不是文本框的
我的天,我用的是paddlelabel中的表格识别,然后就是框文本,得到文本框的坐标,那我应该调整这些框,标成单元格的坐标吧, 那需要重新标过了,而且paddlelabel中的表格识别没啥用呀,全部都需要调整;
我这边注意到之前的文档里,给出的标注格式有问题,这里做了更新https://github.com/PaddlePaddle/PaddleOCR/pull/7863。 paddlelabel目前返回的坐标框是ocr的检测框,需要自己做调整的
我这边注意到之前的文档里,给出的标注格式有问题,这里做了更新https://github.com/PaddlePaddle/PaddleOCR/pull/7863。 paddlelabel目前返回的坐标框是ocr的检测框,需要自己做调整的
好的,明白了,谢谢大佬
- 标注格式可以参考这个 ibm-aur-nlp/PubTabNet@
master
/examples/PubTabNet_Examples.jsonl- bbox是单元格的坐标,不是文本框的
我的天,我用的是paddlelabel中的表格识别,然后就是框文本,得到文本框的坐标,那我应该调整这些框,标成单元格的坐标吧, 那需要重新标过了,而且paddlelabel中的表格识别没啥用呀,全部都需要调整;
请问单元格的坐标该怎么标啊,感觉跟文本坐标差不多啊。你说的调整是怎么调整啊