Jalen Zhong

Results 13 comments of Jalen Zhong

遇到了同样的问题,请描述一下解决方案,感谢!

> 请问,md天生不支持合并单元格,如果遇到合并单元格,怎么识别呢? html内嵌可以解决多头表格合并问题, #360 的方法我自己测试准确率有80%以上。另外官方给的表格识别方法输出是Latex格式。上述方法的缺点是不支持带有水印的表格。

> > > 请问,md天生不支持合并单元格,如果遇到合并单元格,怎么识别呢? > > > > > > html内嵌可以解决多头表格合并问题, #360 的方法我自己测试准确率有80%以上。另外官方给的表格识别方法输出是Latex格式。上述方法的缺点是不支持带有水印的表格。 > > 请问有什么好的,面对复杂表格的识别模型推荐的吗? 我也有这方便的需求,目前没有找到更好的解决方案。建议可以试试 #360 的方法或者多模态大模型,经过我的测试,部分多模态大模型不具备多头合并表格的识别(即使要求返回html格式)。

> 有尝试按照这个教程https://github.com/opendatalab/MinerU/blob/master/docs/README_Ubuntu_CUDA_Acceleration_zh_CN.md 创建一个新的conda环境试试吗 我的cuda和驱动版本如下: ![image](https://github.com/user-attachments/assets/1ce295cd-6f30-4cf0-8231-6fbf4710bf88) 没有重新安装驱动,从第四步开始装虚拟环境都是按步骤来。 提问:目前cuda版本和驱动版本不一致会影响该项目的正常运行嘛,因为是公用服务器,没办法换驱动版本。

> magic-pdf pdf-command --pdf "testfile_1.pdf" --inside_model true 刚刚测试了一下,设置cuda加速报错,如果是cpu没有问题。第9步报错,第10步也出现的问题。 另外测试效果和你们提供的demo链接(https://opendatalab.com/OpenSourceTools/Extractor/PDF)测试效果不一样,本地测试下来效果很差,demo链接测试效果很好。这是什么原因呀? 下面是测试结果: 本地: ![image](https://github.com/user-attachments/assets/4c3be05a-7504-4d1f-875b-c852706a9584) demo: ![image](https://github.com/user-attachments/assets/89aa3807-7464-4001-8dd5-1e43ea80bd72)

> > > magic-pdf pdf-command --pdf "testfile_1.pdf" --inside_model true > > > > > > 刚刚测试了一下,设置cuda加速报错,如果是cpu没有问题。第9步报错,第10步也出现的问题。 另外测试效果和你们提供的demo链接([https://opendatalab.com/OpenSourceTools/Extractor/PDF)测试效果不一样,本地测试下来效果很差,demo链接测试效果很好。这是什么原因呀?](https://opendatalab.com/OpenSourceTools/Extractor/PDF)%E6%B5%8B%E8%AF%95%E6%95%88%E6%9E%9C%E4%B8%8D%E4%B8%80%E6%A0%B7%EF%BC%8C%E6%9C%AC%E5%9C%B0%E6%B5%8B%E8%AF%95%E4%B8%8B%E6%9D%A5%E6%95%88%E6%9E%9C%E5%BE%88%E5%B7%AE%EF%BC%8Cdemo%E9%93%BE%E6%8E%A5%E6%B5%8B%E8%AF%95%E6%95%88%E6%9E%9C%E5%BE%88%E5%A5%BD%E3%80%82%E8%BF%99%E6%98%AF%E4%BB%80%E4%B9%88%E5%8E%9F%E5%9B%A0%E5%91%80%EF%BC%9F) > > 下面是测试结果: 本地: ![image](https://private-user-images.githubusercontent.com/83332942/356149772-4c3be05a-7504-4d1f-875b-c852706a9584.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3MjMxMDczOTIsIm5iZiI6MTcyMzEwNzA5MiwicGF0aCI6Ii84MzMzMjk0Mi8zNTYxNDk3NzItNGMzYmUwNWEtNzUwNC00ZDFmLTg3NWItYzg1MjcwNmE5NTg0LnBuZz9YLUFtei1BbGdvcml0aG09QVdTNC1ITUFDLVNIQTI1NiZYLUFtei1DcmVkZW50aWFsPUFLSUFWQ09EWUxTQTUzUFFLNFpBJTJGMjAyNDA4MDglMkZ1cy1lYXN0LTElMkZzMyUyRmF3czRfcmVxdWVzdCZYLUFtei1EYXRlPTIwMjQwODA4VDA4NTEzMlomWC1BbXotRXhwaXJlcz0zMDAmWC1BbXotU2lnbmF0dXJlPTJjOTdmNTE2MTU1MTFhNWRlNjQzODZlNjNlZDc0MmMxMjg1ZWFiOGUyZjgxYThjMmQ5N2I2NzRhMjJjZDFjZDAmWC1BbXotU2lnbmVkSGVhZGVycz1ob3N0JmFjdG9yX2lkPTAma2V5X2lkPTAmcmVwb19pZD0wIn0.gjSg6hmsutXwkg_u55GvR0wj3qgWuNBigOtNz39vl8A) > > demo: ![image](https://private-user-images.githubusercontent.com/83332942/356150169-89aa3807-7464-4001-8dd5-1e43ea80bd72.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3MjMxMDczOTIsIm5iZiI6MTcyMzEwNzA5MiwicGF0aCI6Ii84MzMzMjk0Mi8zNTYxNTAxNjktODlhYTM4MDctNzQ2NC00MDAxLThkZDUtMWU0M2VhODBiZDcyLnBuZz9YLUFtei1BbGdvcml0aG09QVdTNC1ITUFDLVNIQTI1NiZYLUFtei1DcmVkZW50aWFsPUFLSUFWQ09EWUxTQTUzUFFLNFpBJTJGMjAyNDA4MDglMkZ1cy1lYXN0LTElMkZzMyUyRmF3czRfcmVxdWVzdCZYLUFtei1EYXRlPTIwMjQwODA4VDA4NTEzMlomWC1BbXotRXhwaXJlcz0zMDAmWC1BbXotU2lnbmF0dXJlPTYxYjg5Mjk0NzdjMzdlNWZlM2NhN2YzNDNjYjU3YWNlYjU2NTRlOWY0MDhmMjk1OThkN2MyZTA3MWM0MzhmM2MmWC1BbXotU2lnbmVkSGVhZGVycz1ob3N0JmFjdG9yX2lkPTAma2V5X2lkPTAmcmVwb19pZD0wIn0.SzRVWPSzUjksTIrAZqVHET5kSGDpaH78QwXvBCJVDEY) > > 样本pdf可以上传一份到这里,我们调试一下,教程第九步就开始出现问题的话,说明系统不兼容,可能要搞个ubuntu22.04的docker试试 这里是我的几个测试用例,都是扫描版,包含纯文本、简单表格、复杂表格、图片等元素。另外文件都有页眉和水印,识别难度比较大。...

> > > > > magic-pdf pdf-command --pdf "testfile_1.pdf" --inside_model true > > > > > > > > > > > > 刚刚测试了一下,设置cuda加速报错,如果是cpu没有问题。第9步报错,第10步也出现的问题。 另外测试效果和你们提供的demo链接([https://opendatalab.com/OpenSourceTools/Extractor/PDF)测试效果不一样,本地测试下来效果很差,demo链接测试效果很好。这是什么原因呀?](https://opendatalab.com/OpenSourceTools/Extractor/PDF)%E6%B5%8B%E8%AF%95%E6%95%88%E6%9E%9C%E4%B8%8D%E4%B8%80%E6%A0%B7%EF%BC%8C%E6%9C%AC%E5%9C%B0%E6%B5%8B%E8%AF%95%E4%B8%8B%E6%9D%A5%E6%95%88%E6%9E%9C%E5%BE%88%E5%B7%AE%EF%BC%8Cdemo%E9%93%BE%E6%8E%A5%E6%B5%8B%E8%AF%95%E6%95%88%E6%9E%9C%E5%BE%88%E5%A5%BD%E3%80%82%E8%BF%99%E6%98%AF%E4%BB%80%E4%B9%88%E5%8E%9F%E5%9B%A0%E5%91%80%EF%BC%9F) > > > > 下面是测试结果:...

> > > > > > > magic-pdf pdf-command --pdf "testfile_1.pdf" --inside_model true > > > > > > > > > > > > > > > > >...