MinerU
MinerU copied to clipboard
粤语的文档解析出来的md中数据有错误和原始数据不对应
Description of the bug | 错误描述
粤语的文档解析出来的md中数据有错误和原始数据不对应
How to reproduce the bug | 如何复现
使用这个测试文件测试。
Operating system | 操作系统
Linux
Python version | Python 版本
3.10
Software version | 软件版本 (magic-pdf --version)
0.8.x
Device mode | 设备模式
cpu
目前table解析使用的ocr库较老,我们会在下一个版本更新时更新为新版的ppocrv4,繁中的识别能力可能会有一些提升。
👍
试了下,0.9更新了ppocrv4之后,繁体中文效果好了不少,可以在我们的huggingface和modelscope上测试下