表格全部识别为图片问题
非扫描件中的表格能否不转化为图片,而是以markdown语言的形式转化,否则文字问答大模型(非多模态)无法识别表格信息
参考readme打开表格识别开关就可以了,默认会将表格解析成html格式
参考readme打开表格识别开关就可以了,默认会将表格解析成html格式
是否能搞成自动识别? 比如表格内的字符能够复制,那就自动转html,否则就表格模型ocr识别???
参考readme打开表格识别开关就可以了,默认会将表格解析成html格式
是否能搞成自动识别? 比如表格内的字符能够复制,那就自动转html,否则就表格模型ocr识别???
表格字符能复制也只是字符能复制,表格的结构并不能通过复制得到,表格识别中的模型识别这步是绕不开的
参考readme打开表格识别开关就可以了,默认会将表格解析成html格式
是否能搞成自动识别? 比如表格内的字符能够复制,那就自动转html,否则就表格模型ocr识别???
表格字符能复制也只是字符能复制,表格的结构并不能通过复制得到,表格识别中的模型识别这步是绕不开的
对于非扫描件pdf,pdf函数库不是可以直接提取出表格信息吗,如果表格信息保存完好,至于表格结构可以直接加|或者html标签重新构建,对于这种能否直接识别成html或者md格式,然后识别不出来的再模型识别呢
参考readme打开表格识别开关就可以了,默认会将表格解析成html格式
是否能搞成自动识别? 比如表格内的字符能够复制,那就自动转html,否则就表格模型ocr识别???
表格字符能复制也只是字符能复制,表格的结构并不能通过复制得到,表格识别中的模型识别这步是绕不开的
对于非扫描件pdf,pdf函数库不是可以直接提取出表格信息吗,如果表格信息保存完好,至于表格结构可以直接加|或者html标签重新构建,对于这种能否直接识别成html或者md格式,然后识别不出来的再模型识别呢
pdf解析库的表格识别方案准确率难以达到我们的要求,因此不会使用这种方案做表格识别。
@myhloli 请问这个配置能不能做成传入参数,有一些图片会被识别成表格了,如果单为了这些文档改配置就有点麻烦