pdf2docx icon indicating copy to clipboard operation
pdf2docx copied to clipboard

pdf中的流程图转word的问题

Open UchihaArk opened this issue 5 months ago • 6 comments

当pdf中包含流程图时候,会有如下情况

  1. 会将流程图的框架转为图片,而文字在图片后面
  2. 流程图整体转为一张图片,但在图片后面会有和图片相同的文字重叠在一起

如图: image 右侧是原本的转换效果,左侧是拖动出的图 image 原本是重叠在一起的,拖动以展示效果

尝试调整过以下参数:

zh.convert(docx_file, start=0, end=None, pages=None,
           float_image_ignorable_gap=10,
           connected_border_tolerance=2,
           min_svg_gap_dx=30,
           min_svg_gap_dy=10,
           parse_stream_table=True)

UchihaArk avatar Jan 24 '24 08:01 UchihaArk

附:pdf文件 008.pdf

UchihaArk avatar Jan 24 '24 08:01 UchihaArk

感谢提出问题及测试文件。

  1. 会将流程图的框架转为图片,而文字在图片后面

这是目前设定的处理方式。pdf2docx做不到在Word中创建类似的流程图,而是整体转为背景图片,然后把文字“拼”在对应的位置。也就是你第一张图中展示的效果。

  1. 流程图整体转为一张图片,但在图片后面会有和图片相同的文字重叠在一起

使用最新版v0.5.8测试,结果和上一条一样,不带重叠的文字。估计是之前版本的问题。

dothinking avatar Jan 24 '24 09:01 dothinking

感谢您的回复!

这是目前设定的处理方式。pdf2docx做不到在Word中创建类似的流程图,而是整体转为背景图片,然后把文字“拼”在对应的位置。也就是你第一张图中展示的效果。

这个我了解了

使用最新版v0.5.8测试,结果和上一条一样,不带重叠的文字。估计是之前版本的问题。

我目前使用的就是v0.5.8,您看下图二位置的转换情况:文字是拼在了对应的位置,但是整体转为的背景图片也是包含文字的,这个和第一张图情况不同

UchihaArk avatar Jan 24 '24 09:01 UchihaArk

我目前使用的就是v0.5.8,您看下图二位置的转换情况:文字是拼在了对应的位置,但是整体转为的背景图片也是包含文字的,这个和第一张图情况不同

你是对的,抱歉一开始我是用本地代码测试的,相比v0.5.8刚好修复了你的问题。请先测试下面的临时修复版本,没问题的话后面通过v0.5.9发布。谢谢。

安装方法:下载和解压附件,然后安装(注意指向whl文件的路径)

pip install your/path/to/pdf2docx-0.5.8a1-py3-none-any.whl

pdf2docx-0.5.8a1-py3-none-any.whl.zip

dothinking avatar Jan 28 '24 13:01 dothinking

你是对的,抱歉一开始我是用本地代码测试的,相比v0.5.8刚好修复了你的问题。请先测试下面的临时修复版本,没问题的话后面通过v0.5.9发布。谢谢。

试了下确实没有重影问题了,请问下假如我想都转为一张图片,也就是字和图形都嵌入到图片中,可以修改什么参数或者哪处源码解决呢?

UchihaArk avatar Feb 19 '24 02:02 UchihaArk

我目前使用的就是v0.5.8,您看下图二位置的转换情况:文字是拼在了对应的位置,但是整体转为的背景图片也是包含文字的,这个和第一张图情况不同

你是对的,抱歉一开始我是用本地代码测试的,相比v0.5.8刚好修复了你的问题。请先测试下面的临时修复版本,没问题的话后面通过v0.5.9发布。谢谢。

安装方法:下载和解压附件,然后安装(注意指向whl文件的路径)

pip install your/path/to/pdf2docx-0.5.8a1-py3-none-any.whl

pdf2docx-0.5.8a1-py3-none-any.whl.zip

It works for me! THANKS!

cokuehuang avatar Mar 29 '24 02:03 cokuehuang