使用ocr方式提取文字的代码位置
我在magic_model.py中找到了提取ocr文字的代码,但是我看pdf_parse_union_core.py中只用了get_all_spans来获取ocr提取的文字,然后用txt方式的话会替换一下,ocr方式的话直接用这个的返回值不需要替换。但是一直没有用到get_ocr_text这个函数,所以想问一下使用ocr提取的代码是哪个。
1.get_ocr_text是历史遗留方法,没有被使用是正常的。 2.您是想问怎么强制开启ocr模式是吗?
1.get_ocr_text是历史遗留方法,没有被使用是正常的。 2.您是想问怎么强制开启ocr模式是吗?
就是我想知道目前使用的ocr方式提取文字的那段代码在哪,在现在使用的get_all_spans中我没看懂在哪使用了ocr方式
1.get_ocr_text是历史遗留方法,没有被使用是正常的。 2.您是想问怎么强制开启ocr模式是吗?
就是我想知道目前使用的ocr方式提取文字的那段代码在哪,在现在使用的get_all_spans中我没看懂在哪使用了ocr方式
https://github.com/opendatalab/MinerU/blob/master/magic_pdf/model/doc_analyze_by_custom_model.py 106行,给ocr参数传参,true就是开启ocr模式
1.get_ocr_text是历史遗留方法,没有被使用是正常的。 2.您是想问怎么强制开启ocr模式是吗?
就是我想知道目前使用的ocr方式提取文字的那段代码在哪,在现在使用的get_all_spans中我没看懂在哪使用了ocr方式
https://github.com/opendatalab/MinerU/blob/master/magic_pdf/model/doc_analyze_by_custom_model.py 106行,给ocr参数传参,true就是开启ocr模式
好的,谢谢