pdf2docx
pdf2docx copied to clipboard
Open source Python library for converting PDF to DOCX.
大佬好 看起来_hide_page_text是想在分割pdf版面前隐藏所有文字,但是它只能隐藏图片中的文字,我不清楚这是否是出于设计,这会有什么可能的问题吗? 
pdf转word时候,原pdf中目录页虚线丢了,点击跳转也丢了 原pdf样式  转后的word样式 
Hello, thank you for using these nice projects but I got an issue. When I convert pdf to docx, It can not show me lines which are drawn by border-bottom...
Hi, I would like to develop it for RTL languages. Is it possible? Can you tell me from where I should start?
Thanks for making this library, it's a life saver. I am getting this error message when attempting to use the Multi-Processing flag for the Python runtime: `An exception occurred: [Errno...
Hello, I receive this error when I try to download pdf2docx using pip to pdf2docx. Any ideas? "AttributeError: 'Distribution' object has no attribute 'convert_2to3_doctests'"
我之前实习时做了pdf转txt的工作,其中pdf转word使用的该库(pdf2docx),然后word转txt是手写的。也在很大程度上实现了去除页眉页脚,但仅仅能满足于输出端是txt(不提取多列的表格)。在我实习期间处理了500w+本的pdf转txt,并在公司内部上线了部署服务。我走后接手这个工作的实习生又进行了优化,具体改进我没问。 我想看看大家对这个需求大不大,我可以选择新建一个开源库或者在pdf2docx提一个pr。希望有需求的可以在下方留言
我处理的一个的pdf文件中在67页:  RuntimeError: pixmap must be grayscale or rgb to write as png,这个图片既不是灰度图片也不是一个rgb。代码和报错如下:  我希望的是能修改这个错误或者抛出这个异常,从而不会导致这个程序崩溃 