Jalen Zhong
Jalen Zhong
遇到了同样的问题,请描述一下解决方案,感谢!
> 请问,md天生不支持合并单元格,如果遇到合并单元格,怎么识别呢? html内嵌可以解决多头表格合并问题, #360 的方法我自己测试准确率有80%以上。另外官方给的表格识别方法输出是Latex格式。上述方法的缺点是不支持带有水印的表格。
> > > 请问,md天生不支持合并单元格,如果遇到合并单元格,怎么识别呢? > > > > > > html内嵌可以解决多头表格合并问题, #360 的方法我自己测试准确率有80%以上。另外官方给的表格识别方法输出是Latex格式。上述方法的缺点是不支持带有水印的表格。 > > 请问有什么好的,面对复杂表格的识别模型推荐的吗? 我也有这方便的需求,目前没有找到更好的解决方案。建议可以试试 #360 的方法或者多模态大模型,经过我的测试,部分多模态大模型不具备多头合并表格的识别(即使要求返回html格式)。
Same promlem at 2024/7/29. Still not be fixed
> 有尝试按照这个教程https://github.com/opendatalab/MinerU/blob/master/docs/README_Ubuntu_CUDA_Acceleration_zh_CN.md 创建一个新的conda环境试试吗 我的cuda和驱动版本如下:  没有重新安装驱动,从第四步开始装虚拟环境都是按步骤来。 提问:目前cuda版本和驱动版本不一致会影响该项目的正常运行嘛,因为是公用服务器,没办法换驱动版本。
> magic-pdf pdf-command --pdf "testfile_1.pdf" --inside_model true 刚刚测试了一下,设置cuda加速报错,如果是cpu没有问题。第9步报错,第10步也出现的问题。 另外测试效果和你们提供的demo链接(https://opendatalab.com/OpenSourceTools/Extractor/PDF)测试效果不一样,本地测试下来效果很差,demo链接测试效果很好。这是什么原因呀? 下面是测试结果: 本地:  demo: 
> > > magic-pdf pdf-command --pdf "testfile_1.pdf" --inside_model true > > > > > > 刚刚测试了一下,设置cuda加速报错,如果是cpu没有问题。第9步报错,第10步也出现的问题。 另外测试效果和你们提供的demo链接([https://opendatalab.com/OpenSourceTools/Extractor/PDF)测试效果不一样,本地测试下来效果很差,demo链接测试效果很好。这是什么原因呀?](https://opendatalab.com/OpenSourceTools/Extractor/PDF)%E6%B5%8B%E8%AF%95%E6%95%88%E6%9E%9C%E4%B8%8D%E4%B8%80%E6%A0%B7%EF%BC%8C%E6%9C%AC%E5%9C%B0%E6%B5%8B%E8%AF%95%E4%B8%8B%E6%9D%A5%E6%95%88%E6%9E%9C%E5%BE%88%E5%B7%AE%EF%BC%8Cdemo%E9%93%BE%E6%8E%A5%E6%B5%8B%E8%AF%95%E6%95%88%E6%9E%9C%E5%BE%88%E5%A5%BD%E3%80%82%E8%BF%99%E6%98%AF%E4%BB%80%E4%B9%88%E5%8E%9F%E5%9B%A0%E5%91%80%EF%BC%9F) > > 下面是测试结果: 本地:  > > demo:  > > 样本pdf可以上传一份到这里,我们调试一下,教程第九步就开始出现问题的话,说明系统不兼容,可能要搞个ubuntu22.04的docker试试 这里是我的几个测试用例,都是扫描版,包含纯文本、简单表格、复杂表格、图片等元素。另外文件都有页眉和水印,识别难度比较大。...
> > > > > magic-pdf pdf-command --pdf "testfile_1.pdf" --inside_model true > > > > > > > > > > > > 刚刚测试了一下,设置cuda加速报错,如果是cpu没有问题。第9步报错,第10步也出现的问题。 另外测试效果和你们提供的demo链接([https://opendatalab.com/OpenSourceTools/Extractor/PDF)测试效果不一样,本地测试下来效果很差,demo链接测试效果很好。这是什么原因呀?](https://opendatalab.com/OpenSourceTools/Extractor/PDF)%E6%B5%8B%E8%AF%95%E6%95%88%E6%9E%9C%E4%B8%8D%E4%B8%80%E6%A0%B7%EF%BC%8C%E6%9C%AC%E5%9C%B0%E6%B5%8B%E8%AF%95%E4%B8%8B%E6%9D%A5%E6%95%88%E6%9E%9C%E5%BE%88%E5%B7%AE%EF%BC%8Cdemo%E9%93%BE%E6%8E%A5%E6%B5%8B%E8%AF%95%E6%95%88%E6%9E%9C%E5%BE%88%E5%A5%BD%E3%80%82%E8%BF%99%E6%98%AF%E4%BB%80%E4%B9%88%E5%8E%9F%E5%9B%A0%E5%91%80%EF%BC%9F) > > > > 下面是测试结果:...
> > > > > > > magic-pdf pdf-command --pdf "testfile_1.pdf" --inside_model true > > > > > > > > > > > > > > > > >...