pdf2docx
pdf2docx copied to clipboard
段落划分有点问题
hi, 感谢作者有这么好的库!!!
最近在使用的时候,有个文件期望段落能够这么分出来
但是好像分的有点问题,第二个段落,由于单词之间的间距变大了,每个单词都被划分为段落
原始文件如下,改文件的第1页 1.pdf
非常感谢指出问题及提供的测试文件。
目前这个库已经发布的功能尚未在版面分析方面作工作,而是直接基于规则利用了PDF中导出的原始信息,因此对相对复杂一点的排版例如科技论文很容易就出现段落、章节划分错误的问题。目前正在利用空余时间断断续续做些版面分析的研究,希望下一个版本可以改善这个问题。感谢你的支持。