pdf2docx icon indicating copy to clipboard operation
pdf2docx copied to clipboard

一些文字在转化后存在自动换行的问题

Open ericosmic opened this issue 1 year ago • 3 comments

一些PDF文档在转化为docx后,其中一些文字存在自动换行的情况, 比如下面这个文档: zf16.pdf 其中 image 在转化后 image

问题原因是什么?这要怎么修复呢?

另外一些段落在转化后首行没有缩进:比如 image

转化后: image

这个问题要怎么修复呢?

ericosmic avatar Jul 07 '23 02:07 ericosmic

不用这个库,先pdf2docx,再docx2txt解决大部分问题。

tanghuanoo avatar Jul 20 '23 02:07 tanghuanoo

一些PDF文档在转化为docx后,其中一些文字存在自动换行的情况

字体名称解析错误的原因,导致docx中字体不一样字符占据宽度也就不一样,但是却是按照PDF中文本的宽度来限制docx中行的宽度,导致换行。这个问题已经在 v0.5.8 中解决。通过 pip instal pdf2docx --upgrade 升级即可。

另外一些段落在转化后首行没有缩进

这个是段落解析的问题。那两段文字被错误当成一个段落,因此丢失本应该是第二个段落开头的缩进。这个问题会在接下来处理。

dothinking avatar Jan 23 '24 13:01 dothinking

@dothinking 是否支持对扫描pdf的转换呢? 如果要支持扫描pdf转换有什么思路吗

ericosmic avatar Mar 20 '24 07:03 ericosmic