pdf-to-markdown
pdf-to-markdown copied to clipboard
通过paddle ocr实现pdf转markdown
通过PyMuPDF和PADDLE OCR提取PDF中文本、图片和表格创建markdown,基于Python 3.10 64-bit。
效果

安装依赖
-
安装PaddlePaddle,参考https://www.paddlepaddle.org.cn/documentation/docs/zh/install/pip/windows-pip.html
-
pip install -r requirements.txt
命令行参数
可通过python start.py -h查看
-f:单个文件或文件夹路径,仅支持一级目录
例如python start.py -f samples
限制
- 仅支持中英文(由于PyMuPDF存在问题偶尔会出现乱码)
- 仅支持单栏布局
- 不支持页眉和页脚
- 不支持各种文本样式(包括颜色、加粗、斜体等)
……(其他待发现问题)