MNBVC
MNBVC copied to clipboard
提一个观察到的数据问题
看了co_ann_report中的第一条数据,搜了PDF原文表格如下所示:
这个数据集中将其解析为:
{' 行号': 42, '是否重复': False, '是否跨文件重复': False, 'md5': '0951dff941fedbb0840cc8ed06201431', '内容': '释义项 本公司、公司、西子洁能 西子电梯 金润香港 杭实集团 西子联合工程 杭锅工锅 杭锅通用 新世纪能源 公司股东大会 公司董事会 公司监事会 《公司法》 《证券法》 证监会 元'} {'行号': 44, '是否重复': False, '是否跨文件重复': False, 'md5': 'eceb6556684d04276841458c5b0e0fa4', '内容': '指 指 指 指 指 指 指 指 指 指 指 指 指 指 指 指'} {'行号': 46, '是否重复': False, '是否跨文件重复': False, 'md5': 'd1b61f0b2372455bb78f92cc6bead1b3', '内容': '释义内容 西子清洁能源装备制造股份有限公司 西子电梯集团有限公司 金润(香港)有限公司 杭州市实业投资集团有限公司 浙江西子联合工程有限公司 杭州杭锅工业锅炉有限公司 杭州杭锅通用设备有限公司 杭州新世纪能源环保工程股份有限公司 西子清洁能源装备制造股份有限公司股东大会 西子清洁能源装备制造股份有限公司董事会 西子清洁能源装备制造股份有限公司监事会 《中华人民共和国公司法》 《中华人民共和国证券法》 中国证监会 人民币元 利用燃料或其他能源的热能,把水加热成为热水或蒸汽的机械设'} {'行号': 48, '是否重复': False, '是否跨文件重复': False, 'md5': '946cf48e2b84642c1780c6c96f6435cf', '内容': '锅炉'}
很难还原表格,还出现了一句话断掉的情况。 如果是按行组织,模型能学到的信息将会非常丰富。目前这个格式,效果就会差很多
收到,这个问题我们研究下
这个是pdf中的表格的问题,以前我用开源工具提取pdf语料时没注意表格这个特殊的分类。不过,这个确实是一个非常重要的数据结果,不能直接这样划分开。以后我们多模态组特别对表格数据进行处理。那个时候会对这个工具进行翻新。非常感谢您的建议。