Umi-OCR icon indicating copy to clipboard operation
Umi-OCR copied to clipboard

系统能够识别并将PDF文件中的表格转换为可读的Markdown格式

Open hexixiang opened this issue 10 months ago • 4 comments

Issues

  • [X] I have browsed through the Issues. 我已浏览过Issues,确定没有重复的建议。

Expected behavior 预期的功能

通过增强解析功能,使系统能够识别并将PDF文件中的表格转换为可读的Markdown格式,从而提高文件的可读性和可编辑性。

Approximate reference (optional) 近似的参考(可选)

No response

hexixiang avatar Apr 24 '24 02:04 hexixiang

  • 中期计划:我们考虑引入 版面分析 的AI模型,来处理混合排版的复杂文件,更准确地提取表格区域。
  • 远期计划:我们考虑引入端到端大模型(如 【1】【2】 ),支持将文档/图片 整张转换为Markdown文本流。

hiroi-sora avatar Apr 24 '24 06:04 hiroi-sora

能否顺带提供pdf转html的功能吗

lison666 avatar Apr 27 '24 08:04 lison666

能否顺带提供pdf转html的功能吗

这是更困难、更遥远的事情了。走一步看一步,等我们有了底层的识别模块,再考虑上层的输出模块。

hiroi-sora avatar Apr 27 '24 11:04 hiroi-sora

Issues

  • [x] I have browsed through the Issues. 我已浏览过Issues,确定没有重复的建议。

Expected behavior 预期的功能

通过增强解析功能,使系统能够识别并将PDF文件中的表格转换为可读的Markdown格式,从而提高文件的可读性和可编辑性。

Approximate reference (optional) 近似的参考(可选)

No response

OpenDataLab近期开源的PDF转markdown格式工具,效果还不错,专门用于大模型语料从复杂文档中提取的,需要的话可以看看https://github.com/opendatalab/MinerU

ztayty avatar Jul 15 '24 02:07 ztayty