pdf2docx 一些文字在转化后存在自动换行的问题

一些文字在转化后存在自动换行的问题

Open ericosmic opened this issue 1 year ago • 3 comments

一些PDF文档在转化为docx后，其中一些文字存在自动换行的情况，比如下面这个文档： zf16.pdf 其中在转化后

问题原因是什么？这要怎么修复呢？

另外一些段落在转化后首行没有缩进：比如

转化后：

这个问题要怎么修复呢？

Jul 07 '23 02:07 ericosmic

不用这个库，先pdf2docx，再docx2txt解决大部分问题。

Jul 20 '23 02:07 tanghuanoo

一些PDF文档在转化为docx后，其中一些文字存在自动换行的情况

字体名称解析错误的原因，导致docx中字体不一样字符占据宽度也就不一样，但是却是按照PDF中文本的宽度来限制docx中行的宽度，导致换行。这个问题已经在 v0.5.8 中解决。通过 pip instal pdf2docx --upgrade 升级即可。

另外一些段落在转化后首行没有缩进

这个是段落解析的问题。那两段文字被错误当成一个段落，因此丢失本应该是第二个段落开头的缩进。这个问题会在接下来处理。

Jan 23 '24 13:01 dothinking

@dothinking 是否支持对扫描pdf的转换呢？如果要支持扫描pdf转换有什么思路吗

Mar 20 '24 07:03 ericosmic