pdfdeal icon indicating copy to clipboard operation
pdfdeal copied to clipboard

A python wrapper for the Doc2X API and comes with native texts processing (to improve PDF recall in RAG). | Doc2X API的python封装,同时附带本地的文本处理(提升PDF在RAG中的召回率)。

Results 11 pdfdeal issues
Sort by recently updated
recently updated
newest added

如题,网上搜到的各种开源/在线的方法很多,但是自己不太熟悉,作者大大应该会比较熟

大佬您好,麻烦问一下,使用您这个框架在fastgpt进行知识库问答的时候发现图像渲染不出来,您遇到过吗。 ![局部截取_20240829_103957](https://github.com/user-attachments/assets/db2ce153-ac2b-4ac8-868f-03bc282df6a8)

您好.这个如何和dify集成.源代码改造吗?

enhancement

Test 图文混排,doc(97-2003) [新建 Microsoft Word 文档.zip](https://github.com/user-attachments/files/16076921/Microsoft.Word.zip) 多级(每个文件夹内还含有多个子文件夹)文件夹批量输入doc格式文件

enhancement

我需要调用API接口对图片进行OCR 我参考了图片OCR文档 :https://noedgeai.github.io/pdfdeal-docs/zh/guide/async.html#%E5%9B%BE%E7%89%87ocr%E8%AF%86%E5%88%AB 文档里提到导入方式from pdfdeal.Doc2X.Image import parse_image_ocr 但是实际使用时,报错Image模块不存在ModuleNotFoundError: No module named 'pdfdeal.Doc2X.Image' [ ![Image](https://github.com/user-attachments/assets/bb4fd84b-8db8-4e04-98ce-dbb711cd1e9d) ](url)

转换后有以下两种问题: 1. 表格无法显示,图片可显示 ![Image](https://github.com/user-attachments/assets/bbbc61b9-4768-4f85-a280-81435c9635a9) 2. 表格可显示,图片无法显示 ![Image](https://github.com/user-attachments/assets/b58887a0-5ccb-4621-9616-de99d8f0a0d3) 期望:使用html语法的img标签 源文件: [自动泊车障碍物联合标注规范V1.3.pdf](https://github.com/user-attachments/files/18882837/V1.3.pdf)

# pdf转换后的表格部分 ![Image](https://github.com/user-attachments/assets/4b94ac39-f47d-45fb-8e7e-710fc070af8f) # html_table_to_md转换后的markdown ![Image](https://github.com/user-attachments/assets/8c890c95-6c43-455f-bdb5-7163662dbca1) 源文件: [自动泊车障碍物联合标注规范V1.3.pdf](https://github.com/user-attachments/files/18882837/V1.3.pdf)

1. sdk不支持api中的合并跨页表格的参数 2. 支持word解析,比如:sdk将word转pdf,再调接口 3. 支持直接通过pdf或word的url进行解析,而不是上传文件 4. 支持返回值为markdown字符串,而不是文件路径 5. md_replace_imgs方法支持定义S3上传的前缀路径

### 情况 利用上传器工厂创建上传器 ```python class UploaderFactory: @staticmethod def create_uploader(uploader_type: str, **kwargs): """ 创建上传器实例 Args: uploader_type: 上传器类型 ('alioss' 或 'picgo') **kwargs: 上传器所需的参数 """ if uploader_type.lower() == 'alioss': required_params = ['access_key_id', 'access_key_secret',...