pdf_parsing icon indicating copy to clipboard operation
pdf_parsing copied to clipboard

多个子标题处理问题

Open zhongmiyu99 opened this issue 1 year ago • 1 comments

问下,遇到PDF里面一级标题,二级标题,三级标题,好像就不行了,大神这个应该怎么改?

zhongmiyu99 avatar Nov 15 '23 07:11 zhongmiyu99

问下,遇到PDF里面一级标题,二级标题,三级标题,好像就不行了,大神这个应该怎么改?

请问是怎样的PDF?如果PDF没有outline(table of contents)的话目前这个方法是获取不了标题了 但是如果PDF有outline的话,该方法应该是可以获取一级标题,二级标题,三级标题 https://github.com/ck-unifr/pdf_parsing/blob/main/src/parser.py parser.py里面的class PDFOutliner的下面的函数get_tree_pages(self, root, info, depth=0, titles=[])中的参数depth是标题的层级,depth=0就是第一级标题,depth=1是第二级,以此类推。

ck-unifr avatar Dec 16 '23 02:12 ck-unifr