lycfight

Results 29 comments of


                                            lycfight

Distinguish between bold and non-bold Fonts

I try to extract important sequences, so I concate the chars with the same key, which joint by fontname, size, stroking_color and non_stroking_color. But the bold first sentence is mixed...

Distinguish between bold and non-bold Fonts

Thank you, I'll try some other methods.

PPStructure版面分析得到的结果，bbox里OCR的结果缺失最后一行

经过简单可视化，显示layout结果的每个块的图，很多图里明显有文本，但是OCR结果要么没有识别出任何文字，要么就缺行 ![屏幕截图 2023-07-05 150940](https://github.com/PaddlePaddle/PaddleOCR/assets/25731261/66e2a7b4-abf3-4128-8c08-d2ffe890a59e)

PPStructure版面分析得到的结果，bbox里OCR的结果缺失最后一行

我将左下角的文本块的图单独拿出来，使用paddleocr识别，结果竟然识别不出来这种最简单的case纯文本的图 ![屏幕截图 2023-07-05 160016](https://github.com/PaddlePaddle/PaddleOCR/assets/25731261/2c7fb269-0e81-4d41-a1c9-ba50b239b632) ![result 0](https://github.com/PaddlePaddle/PaddleOCR/assets/25731261/0fa2d171-1c80-41f5-9874-128dc1cd715e)

PPStructure版面分析得到的结果，bbox里OCR的结果缺失最后一行

经过测试，结论是ocr性能与图片分辨率强相关，pdf转图片的过程中将图片提升每个尺寸的缩放系数，生成分辨率提高的图像，ocr效果提升。但是具体效果与缩放系数相关，这里有推荐的设置吗？ `import fitz # fitz就是pip install PyMuPDF def pdf2img(pdf_path, image_dir): pdfDoc = fitz.open(pdf_path) for pg in range(pdfDoc.pageCount): page = pdfDoc[pg] rotate = int(0) # 每个尺寸的缩放系数为4，这将为我们生成分辨率提高4的图像。 # 此处若是不做设置，默认图片大小为：792X612, dpi=96 zoom_x =...

PPStructure版面分析得到的结果，bbox里OCR的结果缺失最后一行

经过实验，PPStructure版面分析的过程中，先将PDF转换为图片，其中不同分辨率会导致ocr的效果不稳定，底层的ocr模型对分辨率的鲁棒性很差。以下为原始PDF文档： [基于会话的推荐方法综述.pdf](https://github.com/PaddlePaddle/PaddleOCR/files/11963657/default.pdf) 以第三页为例测试， - 直接使用paddleocr可以识别所有文字： ![result_1_ocr](https://github.com/PaddlePaddle/PaddleOCR/assets/25731261/c9349ace-650a-4de0-8851-24efb5f88a11) - 使用PPStructure，版面分析后OCR结果很差： ![result_1](https://github.com/PaddlePaddle/PaddleOCR/assets/25731261/c555d1c0-38a0-416b-a781-851f113d0f90) - PPStructure结果中的'img'字段为版面分析块的图，将左下角的文本块对应的图保存： ![result_1 0](https://github.com/PaddlePaddle/PaddleOCR/assets/25731261/c9dc436c-b834-4a5a-a8a5-c373e28bc395) - 单独用paddleocr识别，完全识别不出来： ![result_1 0 _ocr](https://github.com/PaddlePaddle/PaddleOCR/assets/25731261/b8c4e28b-9bca-4eca-9015-cab489f0404b) PDF转图片每个尺寸缩放系数为2测试， - 直接使用paddleocr可以识别所有文字： ![result_2_ocr](https://github.com/PaddlePaddle/PaddleOCR/assets/25731261/e2acbbef-0ce3-4bc3-94c3-976fd6be03ba) - 使用PPStructure，版面分析后OCR结果有提升，但是左列中间文本块最后一行识别出错，最下面两个文本块丢失最后一行： ![result_2](https://github.com/PaddlePaddle/PaddleOCR/assets/25731261/f8f30ccc-ab6e-42ae-844d-d9ff61bc1558) - PPStructure结果中的'img'字段为版面分析块的图，将左下角的文本块对应的图保存： ![result_2 0](https://github.com/PaddlePaddle/PaddleOCR/assets/25731261/074721ac-bc63-4f46-8c34-401c7b981783)...

PPStructure版面分析得到的结果，bbox里OCR的结果缺失最后一行

> 经过实验，PPStructure版面分析的过程中，先将PDF转换为图片，其中不同分辨率会导致ocr的效果不稳定，底层的ocr模型对分辨率的鲁棒性很差。 > > 以下为原始PDF文档： [基于会话的推荐方法综述.pdf](https://github.com/PaddlePaddle/PaddleOCR/files/11963657/default.pdf) > > 以第三页为例测试， > > * 直接使用paddleocr可以识别所有文字： > ![result_1_ocr](https://user-images.githubusercontent.com/25731261/251328675-c9349ace-650a-4de0-8851-24efb5f88a11.png) > * 使用PPStructure，版面分析后OCR结果很差： > ![result_1](https://user-images.githubusercontent.com/25731261/251330792-c555d1c0-38a0-416b-a781-851f113d0f90.png) > * PPStructure结果中的'img'字段为版面分析块的图，将左下角的文本块对应的图保存： > ![result_1 0](https://user-images.githubusercontent.com/25731261/251330241-c9dc436c-b834-4a5a-a8a5-c373e28bc395.png) > * 单独用paddleocr识别，完全识别不出来： >...

PPStructure版面分析得到的结果，bbox里OCR的结果缺失最后一行

> can someone share sample code to get layout analysis using different models present at https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.6/ppstructure/docs/models_list_en.md you can download model, then change model dir: https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.6/ppstructure/layout/README.md#72-model-inference also you can use parameter...

PPStructure版面分析得到的结果，bbox里OCR的结果缺失最后一行

> 我也遇到了同样的问题，请问大佬PDF转图片然后进行缩放是如何做的？我是将PDF用fitz读取获得每一页，然后将每个Page 获取他们的 pixmap，再通过iobytes用cv 获取到图片。就是PPStructure内置的OCR的缩放问题导致的，这得等官方解决。我采取了折中的办法，只检测出各块bbox位置，不使用PPStructure内置的OCR，然后用另外单独的PaddleOCR解析出所有行的bbox，结合一下过滤

PPStructure版面分析得到的结果，bbox里OCR的结果缺失最后一行

> > > 我也遇到了同样的问题，请问大佬PDF转图片进行缩放是如何做的？我等于PDF用fitz读取每一页，然后将每一页获取他们的像素图，再通过iobytes用cv获取到图片。 > > > > > > 就是PPStructure内置的OCR的缩放问题导致的，这得等官方解决。我采取了折中的办法，只检测出各块bbox位置，不使用PPStructure内置的OCR，用另外单独的PaddleOCR解析出所有行的bbox，结合一下过滤 > > 请问内置的ocr的缩放参数是哪一个？我也遇到这个问题，不知道如何修改缩放只是PPStructure内置版面分析后处理的问题，有时OCR识别不出来的情况，放大有可能能识别出来一点，但也不太稳定。我没用缩放，参考上一条回复，OCR单独做，和layout的各类块结合一下过滤