MinerU icon indicating copy to clipboard operation
MinerU copied to clipboard

表格全部识别为图片问题

Open hit-wsy opened this issue 1 year ago • 5 comments

非扫描件中的表格能否不转化为图片,而是以markdown语言的形式转化,否则文字问答大模型(非多模态)无法识别表格信息

hit-wsy avatar Oct 09 '24 11:10 hit-wsy

参考readme打开表格识别开关就可以了,默认会将表格解析成html格式

myhloli avatar Oct 09 '24 11:10 myhloli

参考readme打开表格识别开关就可以了,默认会将表格解析成html格式

是否能搞成自动识别? 比如表格内的字符能够复制,那就自动转html,否则就表格模型ocr识别???

sapipoZZZ avatar Oct 10 '24 03:10 sapipoZZZ

参考readme打开表格识别开关就可以了,默认会将表格解析成html格式

是否能搞成自动识别? 比如表格内的字符能够复制,那就自动转html,否则就表格模型ocr识别???

表格字符能复制也只是字符能复制,表格的结构并不能通过复制得到,表格识别中的模型识别这步是绕不开的

myhloli avatar Oct 10 '24 04:10 myhloli

参考readme打开表格识别开关就可以了,默认会将表格解析成html格式

是否能搞成自动识别? 比如表格内的字符能够复制,那就自动转html,否则就表格模型ocr识别???

表格字符能复制也只是字符能复制,表格的结构并不能通过复制得到,表格识别中的模型识别这步是绕不开的

对于非扫描件pdf,pdf函数库不是可以直接提取出表格信息吗,如果表格信息保存完好,至于表格结构可以直接加|或者html标签重新构建,对于这种能否直接识别成html或者md格式,然后识别不出来的再模型识别呢

hit-wsy avatar Oct 10 '24 08:10 hit-wsy

参考readme打开表格识别开关就可以了,默认会将表格解析成html格式

是否能搞成自动识别? 比如表格内的字符能够复制,那就自动转html,否则就表格模型ocr识别???

表格字符能复制也只是字符能复制,表格的结构并不能通过复制得到,表格识别中的模型识别这步是绕不开的

对于非扫描件pdf,pdf函数库不是可以直接提取出表格信息吗,如果表格信息保存完好,至于表格结构可以直接加|或者html标签重新构建,对于这种能否直接识别成html或者md格式,然后识别不出来的再模型识别呢

pdf解析库的表格识别方案准确率难以达到我们的要求,因此不会使用这种方案做表格识别。

myhloli avatar Oct 10 '24 08:10 myhloli

@myhloli 请问这个配置能不能做成传入参数,有一些图片会被识别成表格了,如果单为了这些文档改配置就有点麻烦

928871247 avatar Mar 18 '25 06:03 928871247