pdf2docx icon indicating copy to clipboard operation
pdf2docx copied to clipboard

段落划分有点问题

Open fruitbars opened this issue 2 years ago • 1 comments

hi, 感谢作者有这么好的库!!!

最近在使用的时候,有个文件期望段落能够这么分出来 image

但是好像分的有点问题,第二个段落,由于单词之间的间距变大了,每个单词都被划分为段落 image

原始文件如下,改文件的第1页 1.pdf

fruitbars avatar Aug 12 '22 03:08 fruitbars

非常感谢指出问题及提供的测试文件。

目前这个库已经发布的功能尚未在版面分析方面作工作,而是直接基于规则利用了PDF中导出的原始信息,因此对相对复杂一点的排版例如科技论文很容易就出现段落、章节划分错误的问题。目前正在利用空余时间断断续续做些版面分析的研究,希望下一个版本可以改善这个问题。感谢你的支持。

dothinking avatar Sep 25 '22 09:09 dothinking