Umi-OCR
Umi-OCR copied to clipboard
系统能够识别并将PDF文件中的表格转换为可读的Markdown格式
Issues
- [X] I have browsed through the Issues. 我已浏览过Issues,确定没有重复的建议。
Expected behavior 预期的功能
通过增强解析功能,使系统能够识别并将PDF文件中的表格转换为可读的Markdown格式,从而提高文件的可读性和可编辑性。
Approximate reference (optional) 近似的参考(可选)
No response
能否顺带提供pdf转html的功能吗
能否顺带提供pdf转html的功能吗
这是更困难、更遥远的事情了。走一步看一步,等我们有了底层的识别模块,再考虑上层的输出模块。
Issues
- [x] I have browsed through the Issues. 我已浏览过Issues,确定没有重复的建议。
Expected behavior 预期的功能
通过增强解析功能,使系统能够识别并将PDF文件中的表格转换为可读的Markdown格式,从而提高文件的可读性和可编辑性。
Approximate reference (optional) 近似的参考(可选)
No response
OpenDataLab近期开源的PDF转markdown格式工具,效果还不错,专门用于大模型语料从复杂文档中提取的,需要的话可以看看https://github.com/opendatalab/MinerU