pdf2docx icon indicating copy to clipboard operation
pdf2docx copied to clipboard

重复解析float_image,导致速度非常慢

Open alexw994 opened this issue 2 years ago • 3 comments
trafficstars

能否提供一些思路,如果我有能力我会提PR

alexw994 avatar Jul 31 '23 02:07 alexw994

你好,我有一个pdf,我发现在解析的时候程序会把一幅图片切碎解析成float_image,这导致速度非常慢。关于float_image我又发现了一个问题,在另外一个ppt转pdf的解析中,有一些独立的图片也会被识别成float_image,这导致如果不提取float_images的话会漏掉一些图,但是提取float_image的话又会有大量额外的碎片图片。

alexw994 avatar Jul 31 '23 05:07 alexw994

感谢提交问题。当前版本确实存在这样的问题,开发中的版本正在重构解析方法,试图解决包括这个问题在内的多个常见问题,例如段落划分等。可惜最近时间有限,还在完成中。

关于你提到的

我发现在解析的时候程序会把一幅图片切碎解析成float_image

实际上是原来的PDF生成程序把完整的图片切碎了,当前版本的pdf2docx 试图检测这种情况并把图片拼接回去,大概率因为算法的问题导致速度慢。

dothinking avatar Jul 31 '23 13:07 dothinking

感谢回复,这个项目是我见过处理pdf表格最好的项目。

alexw994 avatar Aug 01 '23 07:08 alexw994