pdf_parsing
pdf_parsing copied to clipboard
多个子标题处理问题
问下,遇到PDF里面一级标题,二级标题,三级标题,好像就不行了,大神这个应该怎么改?
问下,遇到PDF里面一级标题,二级标题,三级标题,好像就不行了,大神这个应该怎么改?
请问是怎样的PDF?如果PDF没有outline(table of contents)的话目前这个方法是获取不了标题了 但是如果PDF有outline的话,该方法应该是可以获取一级标题,二级标题,三级标题 https://github.com/ck-unifr/pdf_parsing/blob/main/src/parser.py parser.py里面的class PDFOutliner的下面的函数get_tree_pages(self, root, info, depth=0, titles=[])中的参数depth是标题的层级,depth=0就是第一级标题,depth=1是第二级,以此类推。