PST-table icon indicating copy to clipboard operation
PST-table copied to clipboard

关于训练数据需要ocr结果的思考

Open whalefa1I opened this issue 3 years ago • 4 comments

tab_pre.py代码中表述的可能是合并单元格后单元格内部换行,参考:.\pubtabnet\train\PMC1626454_002_00.png image

通过横向投影直方图确定有几个H_Start,如果不为1才要进行后续处理,所以可能是这个思路

whalefa1I avatar May 22 '21 04:05 whalefa1I

@whalefa1I 他制作的label json文件是如何的呢?

cqray1990 avatar May 24 '21 13:05 cqray1990

@whalefa1I 他制作的label json文件是如何的呢?

我现在缺少ocr文件,可能需要手动加上一些row/col信息。我可以跑出来一些他制作的label Json文件,你可以尝试下载pubtab net 数据集自己进行尝试,通过断点并注释掉需要ocr文件的那行,可以看出来是可以有文件生成的。最近学校有点忙,可能得下周才能继续淦,有问题随时沟通。具体来说他的训练数据是通过html数据自带的行列号信息生成邻接矩阵,并通过横向投影确定是否存在cell内部分行,如果没分行就简单处理(就是这里可以跑通),如果判断存在分行就复杂处理(我还没时间做ocr文件)。然后通过邻接矩阵寻找到单元格横向纵向的关系,我记得纵向是father 横向是mother。您先尝试下载数据集,然后缺少的先注释掉的方式进行尝试,随时沟通!

whalefa1I avatar May 24 '21 13:05 whalefa1I

@whalefa1I 您好!我有些问题想请教你可以+wx交流吗,我最近也在做这个,如果可以的话你可以加我吗19937382642

Suki-07 avatar May 27 '21 11:05 Suki-07

可以提供一份训练数据吗》原链接失效了

SWJDADA avatar Oct 11 '23 01:10 SWJDADA