pdf2docx 重复解析float_image，导致速度非常慢

重复解析float_image，导致速度非常慢

Open alexw994 opened this issue 2 years ago • 3 comments

trafficstars

能否提供一些思路，如果我有能力我会提PR

Jul 31 '23 02:07 alexw994

你好，我有一个pdf，我发现在解析的时候程序会把一幅图片切碎解析成float_image，这导致速度非常慢。关于float_image我又发现了一个问题，在另外一个ppt转pdf的解析中，有一些独立的图片也会被识别成float_image，这导致如果不提取float_images的话会漏掉一些图，但是提取float_image的话又会有大量额外的碎片图片。

Jul 31 '23 05:07 alexw994

感谢提交问题。当前版本确实存在这样的问题，开发中的版本正在重构解析方法，试图解决包括这个问题在内的多个常见问题，例如段落划分等。可惜最近时间有限，还在完成中。

关于你提到的

我发现在解析的时候程序会把一幅图片切碎解析成float_image

实际上是原来的PDF生成程序把完整的图片切碎了，当前版本的pdf2docx 试图检测这种情况并把图片拼接回去，大概率因为算法的问题导致速度慢。

Jul 31 '23 13:07 dothinking

感谢回复，这个项目是我见过处理pdf表格最好的项目。

Aug 01 '23 07:08 alexw994

pdf2docx pdf2docx copied to clipboard

重复解析float_image，导致速度非常慢

pdf2docx
pdf2docx copied to clipboard