pdfdeal
pdfdeal copied to clipboard
A python wrapper for the Doc2X API and comes with native texts processing (to improve PDF recall in RAG). | Doc2X API的python封装,同时附带本地的文本处理(提升PDF在RAG中的召回率)。
如题,网上搜到的各种开源/在线的方法很多,但是自己不太熟悉,作者大大应该会比较熟
图像渲染失败
大佬您好,麻烦问一下,使用您这个框架在fastgpt进行知识库问答的时候发现图像渲染不出来,您遇到过吗。 
Test 图文混排,doc(97-2003) [新建 Microsoft Word 文档.zip](https://github.com/user-attachments/files/16076921/Microsoft.Word.zip) 多级(每个文件夹内还含有多个子文件夹)文件夹批量输入doc格式文件
我需要调用API接口对图片进行OCR 我参考了图片OCR文档 :https://noedgeai.github.io/pdfdeal-docs/zh/guide/async.html#%E5%9B%BE%E7%89%87ocr%E8%AF%86%E5%88%AB 文档里提到导入方式from pdfdeal.Doc2X.Image import parse_image_ocr 但是实际使用时,报错Image模块不存在ModuleNotFoundError: No module named 'pdfdeal.Doc2X.Image' [  ](url)
转换后有以下两种问题: 1. 表格无法显示,图片可显示  2. 表格可显示,图片无法显示  期望:使用html语法的img标签 源文件: [自动泊车障碍物联合标注规范V1.3.pdf](https://github.com/user-attachments/files/18882837/V1.3.pdf)
# pdf转换后的表格部分  # html_table_to_md转换后的markdown  源文件: [自动泊车障碍物联合标注规范V1.3.pdf](https://github.com/user-attachments/files/18882837/V1.3.pdf)
1. sdk不支持api中的合并跨页表格的参数 2. 支持word解析,比如:sdk将word转pdf,再调接口 3. 支持直接通过pdf或word的url进行解析,而不是上传文件 4. 支持返回值为markdown字符串,而不是文件路径 5. md_replace_imgs方法支持定义S3上传的前缀路径
### 情况 利用上传器工厂创建上传器 ```python class UploaderFactory: @staticmethod def create_uploader(uploader_type: str, **kwargs): """ 创建上传器实例 Args: uploader_type: 上传器类型 ('alioss' 或 'picgo') **kwargs: 上传器所需的参数 """ if uploader_type.lower() == 'alioss': required_params = ['access_key_id', 'access_key_secret',...