MinerU 使用ocr方式提取文字的代码位置

我在magic_model.py中找到了提取ocr文字的代码，但是我看pdf_parse_union_core.py中只用了get_all_spans来获取ocr提取的文字，然后用txt方式的话会替换一下，ocr方式的话直接用这个的返回值不需要替换。但是一直没有用到get_ocr_text这个函数，所以想问一下使用ocr提取的代码是哪个。屏幕截图 2024-08-07 105453

Aug 07 '24 02:08 2257396011

1.get_ocr_text是历史遗留方法，没有被使用是正常的。 2.您是想问怎么强制开启ocr模式是吗？

Aug 07 '24 03:08 myhloli

1.get_ocr_text是历史遗留方法，没有被使用是正常的。 2.您是想问怎么强制开启ocr模式是吗？

就是我想知道目前使用的ocr方式提取文字的那段代码在哪，在现在使用的get_all_spans中我没看懂在哪使用了ocr方式

Aug 07 '24 03:08 2257396011

1.get_ocr_text是历史遗留方法，没有被使用是正常的。 2.您是想问怎么强制开启ocr模式是吗？

就是我想知道目前使用的ocr方式提取文字的那段代码在哪，在现在使用的get_all_spans中我没看懂在哪使用了ocr方式

https://github.com/opendatalab/MinerU/blob/master/magic_pdf/model/doc_analyze_by_custom_model.py 106行，给ocr参数传参，true就是开启ocr模式

Aug 07 '24 04:08 myhloli

1.get_ocr_text是历史遗留方法，没有被使用是正常的。 2.您是想问怎么强制开启ocr模式是吗？

就是我想知道目前使用的ocr方式提取文字的那段代码在哪，在现在使用的get_all_spans中我没看懂在哪使用了ocr方式

https://github.com/opendatalab/MinerU/blob/master/magic_pdf/model/doc_analyze_by_custom_model.py 106行，给ocr参数传参，true就是开启ocr模式

好的，谢谢

Aug 07 '24 04:08 2257396011