pdf2docx
pdf2docx copied to clipboard
重复解析float_image,导致速度非常慢
trafficstars
能否提供一些思路,如果我有能力我会提PR
你好,我有一个pdf,我发现在解析的时候程序会把一幅图片切碎解析成float_image,这导致速度非常慢。关于float_image我又发现了一个问题,在另外一个ppt转pdf的解析中,有一些独立的图片也会被识别成float_image,这导致如果不提取float_images的话会漏掉一些图,但是提取float_image的话又会有大量额外的碎片图片。
感谢提交问题。当前版本确实存在这样的问题,开发中的版本正在重构解析方法,试图解决包括这个问题在内的多个常见问题,例如段落划分等。可惜最近时间有限,还在完成中。
关于你提到的
我发现在解析的时候程序会把一幅图片切碎解析成float_image
实际上是原来的PDF生成程序把完整的图片切碎了,当前版本的pdf2docx 试图检测这种情况并把图片拼接回去,大概率因为算法的问题导致速度慢。
感谢回复,这个项目是我见过处理pdf表格最好的项目。