MinerU icon indicating copy to clipboard operation
MinerU copied to clipboard

AUTO模式的逻辑是什么?

Open wumaotegan opened this issue 1 year ago • 5 comments

Description of the bug | 错误描述

为什么显示complicated_layout有20几页,但是为什么不是只对这20页进行ocr,而是全部文档?

How to reproduce the bug | 如何复现

image image

Operating system | 操作系统

Windows

Python version | Python 版本

3.9

Software version | 软件版本 (magic-pdf --version)

0.6.x

Device mode | 设备模式

cuda

wumaotegan avatar Jul 31 '24 13:07 wumaotegan

你这个是流程error了,切换到ocr是为了给数据生产兜底的,具体逻辑可以根据log提供的地址,自行查看源码

myhloli avatar Jul 31 '24 13:07 myhloli

@wumaotegan complicated_layout tag indicates that the layout of this page is complex and may have issues with text order. However, this tag does not determine whether OCR should be initiated.

drunkpig avatar Jul 31 '24 13:07 drunkpig

你这个是流程error了,切换到ocr是为了给数据生产兜底的,具体逻辑可以根据log提供的地址,自行查看源码

感谢您的回复,我发现即使是不太复杂的页面,布局识别仍不是很准。

wumaotegan avatar Aug 01 '24 02:08 wumaotegan

@wumaotegan Can you provide your pdfs to help us improve model.

drunkpig avatar Aug 01 '24 02:08 drunkpig

@wumaotegan Can you provide your pdfs to help us improve model.

文档处理流程报错的原因是threadpoolctl的版本不对,安装 threadpoolctl==3.1.0后解决了。 pdf文档不太方便提供,类似下面的页面,识别错误概率很大。

image

image

wumaotegan avatar Aug 01 '24 03:08 wumaotegan