MinerU icon indicating copy to clipboard operation
MinerU copied to clipboard

使用ocr方式提取文字的代码位置

Open 2257396011 opened this issue 1 year ago • 4 comments

我在magic_model.py中找到了提取ocr文字的代码,但是我看pdf_parse_union_core.py中只用了get_all_spans来获取ocr提取的文字,然后用txt方式的话会替换一下,ocr方式的话直接用这个的返回值不需要替换。但是一直没有用到get_ocr_text这个函数,所以想问一下使用ocr提取的代码是哪个。 屏幕截图 2024-08-07 105453

2257396011 avatar Aug 07 '24 02:08 2257396011

1.get_ocr_text是历史遗留方法,没有被使用是正常的。 2.您是想问怎么强制开启ocr模式是吗?

myhloli avatar Aug 07 '24 03:08 myhloli

1.get_ocr_text是历史遗留方法,没有被使用是正常的。 2.您是想问怎么强制开启ocr模式是吗?

就是我想知道目前使用的ocr方式提取文字的那段代码在哪,在现在使用的get_all_spans中我没看懂在哪使用了ocr方式

2257396011 avatar Aug 07 '24 03:08 2257396011

1.get_ocr_text是历史遗留方法,没有被使用是正常的。 2.您是想问怎么强制开启ocr模式是吗?

就是我想知道目前使用的ocr方式提取文字的那段代码在哪,在现在使用的get_all_spans中我没看懂在哪使用了ocr方式

https://github.com/opendatalab/MinerU/blob/master/magic_pdf/model/doc_analyze_by_custom_model.py 106行,给ocr参数传参,true就是开启ocr模式

myhloli avatar Aug 07 '24 04:08 myhloli

1.get_ocr_text是历史遗留方法,没有被使用是正常的。 2.您是想问怎么强制开启ocr模式是吗?

就是我想知道目前使用的ocr方式提取文字的那段代码在哪,在现在使用的get_all_spans中我没看懂在哪使用了ocr方式

https://github.com/opendatalab/MinerU/blob/master/magic_pdf/model/doc_analyze_by_custom_model.py 106行,给ocr参数传参,true就是开启ocr模式

好的,谢谢

2257396011 avatar Aug 07 '24 04:08 2257396011