lbboier

Results 3 issues of lbboier

我之前实习时做了pdf转txt的工作,其中pdf转word使用的该库(pdf2docx),然后word转txt是手写的。也在很大程度上实现了去除页眉页脚,但仅仅能满足于输出端是txt(不提取多列的表格)。在我实习期间处理了500w+本的pdf转txt,并在公司内部上线了部署服务。我走后接手这个工作的实习生又进行了优化,具体改进我没问。 我想看看大家对这个需求大不大,我可以选择新建一个开源库或者在pdf2docx提一个pr。希望有需求的可以在下方留言

question

我处理的一个的pdf文件中在67页: ![image](https://github.com/dothinking/pdf2docx/assets/83513889/cb846fbe-542c-41cc-b61c-cb1f194c6e17) RuntimeError: pixmap must be grayscale or rgb to write as png,这个图片既不是灰度图片也不是一个rgb。代码和报错如下: ![image](https://github.com/dothinking/pdf2docx/assets/83513889/94fbc6f2-d30c-45fe-879c-cd8e351fd552) 我希望的是能修改这个错误或者抛出这个异常,从而不会导致这个程序崩溃 ![image](https://github.com/dothinking/pdf2docx/assets/83513889/92a8638f-fcf7-443b-8e58-5da0ed65fe8f)