MinerU icon indicating copy to clipboard operation
MinerU copied to clipboard

粤语的文档解析出来的md中数据有错误和原始数据不对应

Open James-Dao opened this issue 1 year ago • 2 comments

Description of the bug | 错误描述

粤语的文档解析出来的md中数据有错误和原始数据不对应

How to reproduce the bug | 如何复现

haiguan-12-19.pdf

使用这个测试文件测试。

Operating system | 操作系统

Linux

Python version | Python 版本

3.10

Software version | 软件版本 (magic-pdf --version)

0.8.x

Device mode | 设备模式

cpu

James-Dao avatar Sep 26 '24 11:09 James-Dao

目前table解析使用的ocr库较老,我们会在下一个版本更新时更新为新版的ppocrv4,繁中的识别能力可能会有一些提升。

myhloli avatar Oct 05 '24 19:10 myhloli

👍

James-Dao avatar Oct 08 '24 04:10 James-Dao

试了下,0.9更新了ppocrv4之后,繁体中文效果好了不少,可以在我们的huggingface和modelscope上测试下

myhloli avatar Nov 05 '24 08:11 myhloli