PST-table
PST-table copied to clipboard
关于训练数据需要ocr结果的思考
tab_pre.py代码中表述的可能是合并单元格后单元格内部换行,参考:.\pubtabnet\train\PMC1626454_002_00.png
通过横向投影直方图确定有几个H_Start,如果不为1才要进行后续处理,所以可能是这个思路
@whalefa1I 他制作的label json文件是如何的呢?
@whalefa1I 他制作的label json文件是如何的呢?
我现在缺少ocr文件,可能需要手动加上一些row/col信息。我可以跑出来一些他制作的label Json文件,你可以尝试下载pubtab net 数据集自己进行尝试,通过断点并注释掉需要ocr文件的那行,可以看出来是可以有文件生成的。最近学校有点忙,可能得下周才能继续淦,有问题随时沟通。具体来说他的训练数据是通过html数据自带的行列号信息生成邻接矩阵,并通过横向投影确定是否存在cell内部分行,如果没分行就简单处理(就是这里可以跑通),如果判断存在分行就复杂处理(我还没时间做ocr文件)。然后通过邻接矩阵寻找到单元格横向纵向的关系,我记得纵向是father 横向是mother。您先尝试下载数据集,然后缺少的先注释掉的方式进行尝试,随时沟通!
@whalefa1I 您好!我有些问题想请教你可以+wx交流吗,我最近也在做这个,如果可以的话你可以加我吗19937382642
可以提供一份训练数据吗》原链接失效了