lbboier
lbboier
我之前实习时做了pdf转txt的工作,其中pdf转word使用的该库(pdf2docx),然后word转txt是手写的。也在很大程度上实现了去除页眉页脚,但仅仅能满足于输出端是txt(不提取多列的表格)。在我实习期间处理了500w+本的pdf转txt,并在公司内部上线了部署服务。我走后接手这个工作的实习生又进行了优化,具体改进我没问。 我想看看大家对这个需求大不大,我可以选择新建一个开源库或者在pdf2docx提一个pr。希望有需求的可以在下方留言
我处理的一个的pdf文件中在67页:  RuntimeError: pixmap must be grayscale or rgb to write as png,这个图片既不是灰度图片也不是一个rgb。代码和报错如下:  我希望的是能修改这个错误或者抛出这个异常,从而不会导致这个程序崩溃 