PaddleOCR
PaddleOCR copied to clipboard
A question about PaddleOCR.page_num
这是一个有关PaddleOCR.page_num的问题,通过阅读源码,我的理解是:这个page_num是初始化PaddleOCR时指定的页码选项,比如说page_num设置为2,就只会识别前两幅图片的内容。
我观察了下源码里page_num没有重新归零的设定,这样的话,就会导致我在复用PaddleOCR对象时出现问题,比如说我第一次.ocr()时传进来一个2页的PDF,或者2张图片,此时page_num会被赋值为2,那么如果第二次传进来一个3页的PDF,或者3张图片的话,这个page_num就会生效,ocr()函数只会识别前2张图片,请问我的理解对吗?
相关代码:
https://github.com/PaddlePaddle/PaddleOCR/blob/5ce67ec2e7cc5436be8cfb7b983cf88e9521644c/paddleocr.py#L650
if isinstance(img, list):
if self.page_num > len(img) or self.page_num == 0:
self.page_num = len(img)
imgs = img[:self.page_num]
else:
imgs = [img]