pdfdeal issues

doc2x收费之后最优方法论文pdf解析的最佳方法

1

如题，网上搜到的各种开源/在线的方法很多，但是自己不太熟悉，作者大大应该会比较熟

图像渲染失败

4

大佬您好，麻烦问一下，使用您这个框架在fastgpt进行知识库问答的时候发现图像渲染不出来，您遇到过吗。 ![局部截取_20240829_103957](https://github.com/user-attachments/assets/db2ce153-ac2b-4ac8-868f-03bc282df6a8)

Upcreat

dify集成

3

您好.这个如何和dify集成.源代码改造吗？

kenneth-bro

enhancement

doc格式图文混排识别可以吗

Test 图文混排，doc（97-2003） [新建 Microsoft Word 文档.zip](https://github.com/user-attachments/files/16076921/Microsoft.Word.zip) 多级（每个文件夹内还含有多个子文件夹）文件夹批量输入doc格式文件

tqangxl

enhancement

图片API接口报错：ModuleNotFoundError: No module named 'pdfdeal.Doc2X.Image'

我需要调用API接口对图片进行OCR 我参考了图片OCR文档：https://noedgeai.github.io/pdfdeal-docs/zh/guide/async.html#%E5%9B%BE%E7%89%87ocr%E8%AF%86%E5%88%AB 文档里提到导入方式from pdfdeal.Doc2X.Image import parse_image_ocr 但是实际使用时，报错Image模块不存在ModuleNotFoundError: No module named 'pdfdeal.Doc2X.Image' [ ![Image](https://github.com/user-attachments/assets/bb4fd84b-8db8-4e04-98ce-dbb711cd1e9d) ](url)

chaserRen

[bug] md_replace_imgs后html表格中img标签变成markdown语法导致无法现显示

转换后有以下两种问题： 1. 表格无法显示，图片可显示 ![Image](https://github.com/user-attachments/assets/bbbc61b9-4768-4f85-a280-81435c9635a9) 2. 表格可显示，图片无法显示 ![Image](https://github.com/user-attachments/assets/b58887a0-5ccb-4621-9616-de99d8f0a0d3) 期望：使用html语法的img标签源文件： [自动泊车障碍物联合标注规范V1.3.pdf](https://github.com/user-attachments/files/18882837/V1.3.pdf)

naah69

[bug] html_table_to_md转换后表格中的图片被丢掉了

# pdf转换后的表格部分 ![Image](https://github.com/user-attachments/assets/4b94ac39-f47d-45fb-8e7e-710fc070af8f) # html_table_to_md转换后的markdown ![Image](https://github.com/user-attachments/assets/8c890c95-6c43-455f-bdb5-7163662dbca1) 源文件： [自动泊车障碍物联合标注规范V1.3.pdf](https://github.com/user-attachments/files/18882837/V1.3.pdf)

naah69

新特性

1. sdk不支持api中的合并跨页表格的参数 2. 支持word解析，比如：sdk将word转pdf，再调接口 3. 支持直接通过pdf或word的url进行解析，而不是上传文件 4. 支持返回值为markdown字符串，而不是文件路径 5. md_replace_imgs方法支持定义S3上传的前缀路径

naah69

贡献：添加图形API支持以及merge_cross_page_forms参数支持

1

Menghuan1918

[bug_report] AliOSS uploader didn't work AliOSS上传器不能正确上传文件

### 情况利用上传器工厂创建上传器 ```python class UploaderFactory: @staticmethod def create_uploader(uploader_type: str, **kwargs): """ 创建上传器实例 Args: uploader_type: 上传器类型 ('alioss' 或 'picgo') **kwargs: 上传器所需的参数 """ if uploader_type.lower() == 'alioss': required_params = ['access_key_id', 'access_key_secret',...

Chen571428

pdfdeal
pdfdeal copied to clipboard

Metadata

doc2x收费之后最优方法论文pdf解析的最佳方法

图像渲染失败

dify集成

doc格式图文混排识别可以吗

图片API接口报错：ModuleNotFoundError: No module named 'pdfdeal.Doc2X.Image'

[bug] md_replace_imgs后html表格中img标签变成markdown语法导致无法现显示

[bug] html_table_to_md转换后表格中的图片被丢掉了

新特性

贡献：添加图形API支持以及merge_cross_page_forms参数支持

[bug_report] AliOSS uploader didn't work AliOSS上传器不能正确上传文件

← Metadata

Owner

Metadata

pdfdeal pdfdeal copied to clipboard

Metadata

← Metadata

Owner

Metadata

pdfdeal
pdfdeal copied to clipboard