lycfight
lycfight
I try to extract important sequences, so I concate the chars with the same key, which joint by fontname, size, stroking_color and non_stroking_color. But the bold first sentence is mixed...
Thank you, I'll try some other methods.
经过简单可视化,显示layout结果的每个块的图,很多图里明显有文本,但是OCR结果要么没有识别出任何文字,要么就缺行 
我将左下角的文本块的图单独拿出来,使用paddleocr识别,结果竟然识别不出来这种最简单的case纯文本的图  
经过测试,结论是ocr性能与图片分辨率强相关,pdf转图片的过程中将图片提升每个尺寸的缩放系数,生成分辨率提高的图像,ocr效果提升。但是具体效果与缩放系数相关,这里有推荐的设置吗? `import fitz # fitz就是pip install PyMuPDF def pdf2img(pdf_path, image_dir): pdfDoc = fitz.open(pdf_path) for pg in range(pdfDoc.pageCount): page = pdfDoc[pg] rotate = int(0) # 每个尺寸的缩放系数为4,这将为我们生成分辨率提高4的图像。 # 此处若是不做设置,默认图片大小为:792X612, dpi=96 zoom_x =...
经过实验,PPStructure版面分析的过程中,先将PDF转换为图片,其中不同分辨率会导致ocr的效果不稳定,底层的ocr模型对分辨率的鲁棒性很差。 以下为原始PDF文档: [基于会话的推荐方法综述.pdf](https://github.com/PaddlePaddle/PaddleOCR/files/11963657/default.pdf) 以第三页为例测试, - 直接使用paddleocr可以识别所有文字:  - 使用PPStructure,版面分析后OCR结果很差:  - PPStructure结果中的'img'字段为版面分析块的图,将左下角的文本块对应的图保存:  - 单独用paddleocr识别,完全识别不出来:  PDF转图片每个尺寸缩放系数为2测试, - 直接使用paddleocr可以识别所有文字:  - 使用PPStructure,版面分析后OCR结果有提升,但是左列中间文本块最后一行识别出错,最下面两个文本块丢失最后一行:  - PPStructure结果中的'img'字段为版面分析块的图,将左下角的文本块对应的图保存: ...
> 经过实验,PPStructure版面分析的过程中,先将PDF转换为图片,其中不同分辨率会导致ocr的效果不稳定,底层的ocr模型对分辨率的鲁棒性很差。 > > 以下为原始PDF文档: [基于会话的推荐方法综述.pdf](https://github.com/PaddlePaddle/PaddleOCR/files/11963657/default.pdf) > > 以第三页为例测试, > > * 直接使用paddleocr可以识别所有文字: >  > * 使用PPStructure,版面分析后OCR结果很差: >  > * PPStructure结果中的'img'字段为版面分析块的图,将左下角的文本块对应的图保存: >  > * 单独用paddleocr识别,完全识别不出来: >...
> can someone share sample code to get layout analysis using different models present at https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.6/ppstructure/docs/models_list_en.md you can download model, then change model dir: https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.6/ppstructure/layout/README.md#72-model-inference also you can use parameter...
> 我也遇到了同样的问题,请问大佬PDF转图片然后进行缩放是如何做的? 我是将PDF用fitz读取获得每一页,然后将每个Page 获取他们的 pixmap,再通过iobytes用cv 获取到图片。 就是PPStructure内置的OCR的缩放问题导致的,这得等官方解决。我采取了折中的办法,只检测出各块bbox位置,不使用PPStructure内置的OCR,然后用另外单独的PaddleOCR解析出所有行的bbox,结合一下过滤
> > > 我也遇到了同样的问题,请问大佬PDF转图片进行缩放是如何做的?我等于PDF用fitz读取每一页,然后将每一页获取他们的像素图,再通过iobytes用cv获取到图片。 > > > > > > 就是PPStructure内置的OCR的缩放问题导致的,这得等官方解决。我采取了折中的办法,只检测出各块bbox位置,不使用PPStructure内置的OCR,用另外单独的PaddleOCR解析出所有行的bbox,结合一下过滤 > > 请问内置的ocr的缩放参数是哪一个?我也遇到这个问题,不知道如何修改 缩放只是PPStructure内置版面分析后处理的问题,有时OCR识别不出来的情况,放大有可能能识别出来一点,但也不太稳定。我没用缩放,参考上一条回复,OCR单独做,和layout的各类块结合一下过滤