shibainu-gbq
Results
3
comments of
shibainu-gbq
实际使用上,paddle的识别率其实比较低,对于有框表识别较好,对于无线表或者虚线表识别起来还是比较差强人意
后续是否会有对多级标题的支持的计划?
目前我基于本地进行的一些开发中,针对标题层级的提取,只能根据特定的文档格式按照规则进行提取,不太能有普世的提取方式。 例如:针对国内的一些金融行业的投研文档可以按照特定的标题格式提取,按照规则设定标题等级, 对于字体大小这种方式,我本地也测试过,一是文档的字体大小不受限制,对于页眉页脚这种瞎搞的,在统计当页的字体大小的时候,你就需要去除不符合要求的异常数据,确实是比较难搞,而且在转成pdf后,很多文本型pdf是丢失了层级信息