lbboier
lbboier
我将有问题的pdf上传在这儿 [Applied Survey Data Analysis (Chapman & Hall CRC Statistics in the Social and Behavioral Scie) ( PDFDrive ).pdf](https://github.com/dothinking/pdf2docx/files/11530741/Applied.Survey.Data.Analysis.Chapman.Hall.CRC.Statistics.in.the.Social.and.Behavioral.Scie.PDFDrive.pdf)
> 请问您解决了么? 这个问题要么修改pdftodocx库要么在调用时不是直接调用cv.convert(docx_file),而是按照convert的结构展开来写,去catch或者throw这个因为异常。我是按照展开convert来写的,直接修改库还是作者实现比较好,因我我对程序结构没那么了解
> 使用layoutlmv3,可以识别出页眉,页脚的blocks,然后过滤掉区域即可 pdf情况太复杂了,我去年也尝试过直接页眉页脚的区域(每页的上面和下面,检测文本变化,然后去除block),但是效果很不好。你有测试出比较好的效果吗?最好数据量大一点的
i meet the same proble, i find the solution about delete the project failed to create.The failed project may lead to "Disconnected from UI server",So,delete it!