pdf2docx
pdf2docx copied to clipboard
一些文字在转化后存在自动换行的问题
一些PDF文档在转化为docx后,其中一些文字存在自动换行的情况, 比如下面这个文档:
zf16.pdf
其中
在转化后
问题原因是什么?这要怎么修复呢?
另外一些段落在转化后首行没有缩进:比如
转化后:
这个问题要怎么修复呢?
不用这个库,先pdf2docx,再docx2txt解决大部分问题。
一些PDF文档在转化为docx后,其中一些文字存在自动换行的情况
字体名称解析错误的原因,导致docx中字体不一样字符占据宽度也就不一样,但是却是按照PDF中文本的宽度来限制docx中行的宽度,导致换行。这个问题已经在 v0.5.8
中解决。通过 pip instal pdf2docx --upgrade
升级即可。
另外一些段落在转化后首行没有缩进
这个是段落解析的问题。那两段文字被错误当成一个段落,因此丢失本应该是第二个段落开头的缩进。这个问题会在接下来处理。
@dothinking 是否支持对扫描pdf的转换呢? 如果要支持扫描pdf转换有什么思路吗