PaddleOCR A question about PaddleOCR.page

A question about PaddleOCR.page_num

Open warmpine opened this issue 1 year ago • 1 comments

这是一个有关PaddleOCR.page_num的问题，通过阅读源码，我的理解是：这个page_num是初始化PaddleOCR时指定的页码选项，比如说page_num设置为2，就只会识别前两幅图片的内容。

我观察了下源码里page_num没有重新归零的设定，这样的话，就会导致我在复用PaddleOCR对象时出现问题，比如说我第一次.ocr()时传进来一个2页的PDF，或者2张图片，此时page_num会被赋值为2，那么如果第二次传进来一个3页的PDF，或者3张图片的话，这个page_num就会生效，ocr()函数只会识别前2张图片，请问我的理解对吗？

相关代码：

https://github.com/PaddlePaddle/PaddleOCR/blob/5ce67ec2e7cc5436be8cfb7b983cf88e9521644c/paddleocr.py#L650

        if isinstance(img, list):
            if self.page_num > len(img) or self.page_num == 0:
                self.page_num = len(img)
            imgs = img[:self.page_num]
        else:
            imgs = [img]

Sep 22 '23 02:09 warmpine

PaddleOCR PaddleOCR copied to clipboard

A question about PaddleOCR.page_num

PaddleOCR
PaddleOCR copied to clipboard