lycfight

Results 29 comments of lycfight

I try to extract important sequences, so I concate the chars with the same key, which joint by fontname, size, stroking_color and non_stroking_color. But the bold first sentence is mixed...

Thank you, I'll try some other methods.

经过简单可视化,显示layout结果的每个块的图,很多图里明显有文本,但是OCR结果要么没有识别出任何文字,要么就缺行 ![屏幕截图 2023-07-05 150940](https://github.com/PaddlePaddle/PaddleOCR/assets/25731261/66e2a7b4-abf3-4128-8c08-d2ffe890a59e)

我将左下角的文本块的图单独拿出来,使用paddleocr识别,结果竟然识别不出来这种最简单的case纯文本的图 ![屏幕截图 2023-07-05 160016](https://github.com/PaddlePaddle/PaddleOCR/assets/25731261/2c7fb269-0e81-4d41-a1c9-ba50b239b632) ![result 0](https://github.com/PaddlePaddle/PaddleOCR/assets/25731261/0fa2d171-1c80-41f5-9874-128dc1cd715e)

经过测试,结论是ocr性能与图片分辨率强相关,pdf转图片的过程中将图片提升每个尺寸的缩放系数,生成分辨率提高的图像,ocr效果提升。但是具体效果与缩放系数相关,这里有推荐的设置吗? `import fitz # fitz就是pip install PyMuPDF def pdf2img(pdf_path, image_dir): pdfDoc = fitz.open(pdf_path) for pg in range(pdfDoc.pageCount): page = pdfDoc[pg] rotate = int(0) # 每个尺寸的缩放系数为4,这将为我们生成分辨率提高4的图像。 # 此处若是不做设置,默认图片大小为:792X612, dpi=96 zoom_x =...

经过实验,PPStructure版面分析的过程中,先将PDF转换为图片,其中不同分辨率会导致ocr的效果不稳定,底层的ocr模型对分辨率的鲁棒性很差。 以下为原始PDF文档: [基于会话的推荐方法综述.pdf](https://github.com/PaddlePaddle/PaddleOCR/files/11963657/default.pdf) 以第三页为例测试, - 直接使用paddleocr可以识别所有文字: ![result_1_ocr](https://github.com/PaddlePaddle/PaddleOCR/assets/25731261/c9349ace-650a-4de0-8851-24efb5f88a11) - 使用PPStructure,版面分析后OCR结果很差: ![result_1](https://github.com/PaddlePaddle/PaddleOCR/assets/25731261/c555d1c0-38a0-416b-a781-851f113d0f90) - PPStructure结果中的'img'字段为版面分析块的图,将左下角的文本块对应的图保存: ![result_1 0](https://github.com/PaddlePaddle/PaddleOCR/assets/25731261/c9dc436c-b834-4a5a-a8a5-c373e28bc395) - 单独用paddleocr识别,完全识别不出来: ![result_1 0 _ocr](https://github.com/PaddlePaddle/PaddleOCR/assets/25731261/b8c4e28b-9bca-4eca-9015-cab489f0404b) PDF转图片每个尺寸缩放系数为2测试, - 直接使用paddleocr可以识别所有文字: ![result_2_ocr](https://github.com/PaddlePaddle/PaddleOCR/assets/25731261/e2acbbef-0ce3-4bc3-94c3-976fd6be03ba) - 使用PPStructure,版面分析后OCR结果有提升,但是左列中间文本块最后一行识别出错,最下面两个文本块丢失最后一行: ![result_2](https://github.com/PaddlePaddle/PaddleOCR/assets/25731261/f8f30ccc-ab6e-42ae-844d-d9ff61bc1558) - PPStructure结果中的'img'字段为版面分析块的图,将左下角的文本块对应的图保存: ![result_2 0](https://github.com/PaddlePaddle/PaddleOCR/assets/25731261/074721ac-bc63-4f46-8c34-401c7b981783)...

> 经过实验,PPStructure版面分析的过程中,先将PDF转换为图片,其中不同分辨率会导致ocr的效果不稳定,底层的ocr模型对分辨率的鲁棒性很差。 > > 以下为原始PDF文档: [基于会话的推荐方法综述.pdf](https://github.com/PaddlePaddle/PaddleOCR/files/11963657/default.pdf) > > 以第三页为例测试, > > * 直接使用paddleocr可以识别所有文字: > ![result_1_ocr](https://user-images.githubusercontent.com/25731261/251328675-c9349ace-650a-4de0-8851-24efb5f88a11.png) > * 使用PPStructure,版面分析后OCR结果很差: > ![result_1](https://user-images.githubusercontent.com/25731261/251330792-c555d1c0-38a0-416b-a781-851f113d0f90.png) > * PPStructure结果中的'img'字段为版面分析块的图,将左下角的文本块对应的图保存: > ![result_1 0](https://user-images.githubusercontent.com/25731261/251330241-c9dc436c-b834-4a5a-a8a5-c373e28bc395.png) > * 单独用paddleocr识别,完全识别不出来: >...

> can someone share sample code to get layout analysis using different models present at https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.6/ppstructure/docs/models_list_en.md you can download model, then change model dir: https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.6/ppstructure/layout/README.md#72-model-inference also you can use parameter...

> 我也遇到了同样的问题,请问大佬PDF转图片然后进行缩放是如何做的? 我是将PDF用fitz读取获得每一页,然后将每个Page 获取他们的 pixmap,再通过iobytes用cv 获取到图片。 就是PPStructure内置的OCR的缩放问题导致的,这得等官方解决。我采取了折中的办法,只检测出各块bbox位置,不使用PPStructure内置的OCR,然后用另外单独的PaddleOCR解析出所有行的bbox,结合一下过滤

> > > 我也遇到了同样的问题,请问大佬PDF转图片进行缩放是如何做的?我等于PDF用fitz读取每一页,然后将每一页获取他们的像素图,再通过iobytes用cv获取到图片。 > > > > > > 就是PPStructure内置的OCR的缩放问题导致的,这得等官方解决。我采取了折中的办法,只检测出各块bbox位置,不使用PPStructure内置的OCR,用另外单独的PaddleOCR解析出所有行的bbox,结合一下过滤 > > 请问内置的ocr的缩放参数是哪一个?我也遇到这个问题,不知道如何修改 缩放只是PPStructure内置版面分析后处理的问题,有时OCR识别不出来的情况,放大有可能能识别出来一点,但也不太稳定。我没用缩放,参考上一条回复,OCR单独做,和layout的各类块结合一下过滤