pdf_parsing 多个子标题处理问题

多个子标题处理问题

Open zhongmiyu99 opened this issue 1 year ago • 1 comments

问下，遇到PDF里面一级标题，二级标题，三级标题，好像就不行了，大神这个应该怎么改？

Nov 15 '23 07:11 zhongmiyu99

问下，遇到PDF里面一级标题，二级标题，三级标题，好像就不行了，大神这个应该怎么改？

请问是怎样的PDF？如果PDF没有outline(table of contents)的话目前这个方法是获取不了标题了但是如果PDF有outline的话，该方法应该是可以获取一级标题，二级标题，三级标题 https://github.com/ck-unifr/pdf_parsing/blob/main/src/parser.py parser.py里面的class PDFOutliner的下面的函数get_tree_pages(self, root, info, depth=0, titles=[])中的参数depth是标题的层级，depth=0就是第一级标题，depth=1是第二级，以此类推。

Dec 16 '23 02:12 ck-unifr

pdf_parsing pdf_parsing copied to clipboard

多个子标题处理问题

pdf_parsing
pdf_parsing copied to clipboard