pdfdir
pdfdir copied to clipboard
PDF导航(大纲/目录)添加工具
我用之前的版本,当尝试建立下级目录,需要想出精巧的正则公式,这就overkill了,我想要tab来指示层级。不知道现在是不是还忽略行首tab的。 ``` #!/bin/python import os import re import sys from collections import defaultdict from pypdf import PdfWriter, PdfReader class Pdf(object): def __init__(self, path): self.path = path reader = PdfReader(open(path, "rb"),...
## 背景 今天在用软件的时候遇到了个问题 输出的目录从"4.3 Plotting Ohm's Law"这一节开始就卡在第122页不增长了,往下都是清一色的第122页 但在预览界面上页码还是正常的 ## 问题原因 我拉源码 Debug 到这个 `_add_bookmark` 函数才发现问题:原来我犯傻了,其实我的PDF文件总共就只有122页! ```python def _add_bookmark(pdf, index_dict): if not index_dict: return None m = max(index_dict.keys()) parent_dict = {}...
比如说,myfile.pdf 本来是就是有 bookmark 的,那么在载入文件后,自动在左侧的「目录文本」区域加载好现有的 bookmark。 这样的话,在已有 bookmark 的基础上进行简单的修改就方便许多了。 以我浅显的了解,好像 PDF 的 bookmark 数据结构中的一个 item 对应的位置信息不只是简单的 pageNumber ,好像还可以精确到页内的一个点的坐标,要照顾到后者这种情况就比较费劲。但我想至少照顾到前者的 pageNumber 情况应该是比较好实现的,尤其是当 myfile.pdf 本来就曾经是由本软件 pdfdir 输出的的时候。
举例,有的学术类书籍会有插图,这些插图散于页面中,如3、5、7页,然后他们也有对应目录,比如“插图1”、“插图2”、“插图3”,用一个“插图”为大节,放到最前面或最后面。 pdfdir只支持如: ``` 目录 1 第一节 2 插图 3 插图1 3 插图2 5 第二节 6 插图3 7 ``` 但OCR原书目录后,得到的目录却是: ``` 目录 1 第一节 2 第二节 6 插图 3 插图1 3...
- 故障现象 v0.3.0-beta37打开pdf文件时报错, 如图 - 故障原因 经排查, 是src/gui/main.py中266行调用convert_dir_text函数时多传了一个参数keep_exist_dir_action=self.keep_exist_dir, - 修复方法 删除该行后可正常运行
有很多时候只是想给文件补充目录,但是pdfdir读取文件后也会读入原目录,并且最后的写入也会把原文件有的目录给覆盖掉,这就很不方便仅仅需要补充目录的需求(页差、二级目录之类的值不一定一致)。是否可以给一个补充目录的模式,此模式将不对原目录进行修改?
如题,docker版,这样的话在外面不方便的电脑上,只要有浏览器就可以处理文档了
有报错,升级pypdf一下,一下就从3.x到5.x,然后page.indirect_ref也报错,查看pypdf,changelog里提到改名了,改后就不报错了。