PaddleOCR issues

Does paddle OCR have column identifying feature

I am testing paddle OCR and wanted to know if it has a column identifying feature instead of treating columns line by line and joining them. @tink2123 is there already...

IsraelAbebe

你好，我按照官方文档配置vqa的layoutxlm，严格按照readme的步骤进行，然后跑训练的时候就会出现错误，以下是其中一个，另一个错误是数据集corrupt了。我的环境如下： numpy 1.21.6 pypi_0 pypi opencv-contrib-python 4.4.0.46 pypi_0 pypi opencv-python 4.6.0.66 pypi_0 pypi openpyxl 3.0.10 pypi_0 pypi openssl 1.1.1q h7f8727e_0 opt-einsum 3.3.0 pypi_0 pypi packaging 21.3 pypi_0 pypi...

tonylin52

关于SVTR模型的长文本推理精度问题

15

将模型转为ONNX后默认图像输入为64*256，对于长文本的识别效果较差。自适应输出的Head参数为MultiHead，请问该如何修改训练参数，使得模型能较好的识别较长的文本图片。

xu-peng-7

status/close

使用use_gpu=True和False的预测时间相差不大，都需要3s左右很慢，请问该如何解决

请提供下述完整信息以便快速定位问题/Please provide the following information to quickly locate the problem - 系统环境/System Environment：windows10/tesla p4/NVIDIA-SMI 516.94/Driver Version: 516.94/CUDA Version: 11.7 - 版本号/Version：Paddle： PaddleOCR：release2.5 问题相关组件/Related components： - 问题描述：我按照[Windows下编译教程](https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.5/deploy/cpp_infer/docs/windows_vs2019_build.md)这个教程，自己用了VS2022+CMake部署的，使用的预测库是avx_mkl_cuda11.6_cudnn8.4_avx_mkl-trt8.4.1.5，执行命令后每一张图片都要3秒左右，这和我--use_gpu=False的速度差不多，我也试过把文件夹里的图片增加到4张，每一张图片也是3s左右的时间才能预测完。然后还想问一下的就是要怎么显示准确的每一张图的预测时间呢，是有什么参数嘛，翻了下文档没找着 - 运行指令/Command Code：.\ppocr.exe system...

SongyaCAT

运行时 paddleocr示例时，发生了core dump

6

(mxnet_py39) [root@AIServer-0 ppocr_img]# paddleocr --image_dir ./imgs/11.jpg --use_angle_cls true --det_model_dir="../ch_PP-OCRv3_det_infer" --rec_model_dir=../ch_PP-OCRv3_rec_infer --cls_model_dir=../ch_PP-OCRv3_rec_infer [2022/08/01 15:17:03] ppocr DEBUG: Namespace(help='==SUPPRESS==', use_gpu=True, ir_optim=True, use_tensorrt=False, min_subgraph_size=15, precision='fp32', gpu_mem=500, image_dir='./imgs/11.jpg', det_algorithm='DB', det_model_dir='../ch_PP-OCRv3_det_infer', det_limit_side_len=960, det_limit_type='max', det_db_thresh=0.3, det_db_box_thresh=0.6, det_db_unclip_ratio=1.5,...

sattychen

基于表单的信息抽取模型应该使用VQA的RE模型还是KIE模型呢

10

您好，我有两个问题需要请教： 1、基于form表单的信息抽取模型应该使用VQA的RE模型还是KIE模型呢？docs重点介绍了VQA的RE模型，没有找到关于KIE的更多介绍？ 2、VQA的RE模型或KIE模型有finetune的功能吗？如果有的话，可否提供一下呢（没找到）？谢谢

guoxiaoyue111111

VQA

DB config文件训练部分标签处理MakeBorderMap和MakeShrinkMap顺序错误问题

问题描述：所有DB 的config文件训练部分标签处理 MakeBorderMap和MakeShrinkMap需要调换顺序 https://github.com/PaddlePaddle/PaddleOCR/blob/bde8cad09668939a94fde066ffb556a703d7f7ca/configs/det/det_r50_vd_db.yml#L82-L88 原因分析： 1. MakeShrinkMap会有两个环节会判断标注是否需要ignore_tags： https://github.com/PaddlePaddle/PaddleOCR/blob/bde8cad09668939a94fde066ffb556a703d7f7ca/ppocr/data/imaug/make_shrink_map.py#L56-L59 https://github.com/PaddlePaddle/PaddleOCR/blob/bde8cad09668939a94fde066ffb556a703d7f7ca/ppocr/data/imaug/make_shrink_map.py#L81-L85 2.MakeBorderMap仅会根据ignore_tags进行绘制T图label https://github.com/PaddlePaddle/PaddleOCR/blob/bde8cad09668939a94fde066ffb556a703d7f7ca/ppocr/data/imaug/make_border_map.py#L57-L61 所以先MakeBorderMap再MakeShrinkMap，会存在T图与P图不匹配的情况 3.原作者的repo里是先计算P图label再计算T图label https://github.com/MhLiao/DB/blob/e5a12f5c2f0c2b4a345b5b8392307ef73481d5f6/experiments/seg_detector/base_ic15.yaml#L24-L25

KevinNuNu

ch_PP-OCRv3_rec训练SARHead报错

请提供下述完整信息以便快速定位问题/Please provide the following information to quickly locate the problem [- 系统环境/System Environment： - 版本号/Version：Paddle： PaddleOCR：问题相关组件/Related components： - 运行指令/Command Code： - 完整报错/Complete Error Message：](https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.5/configs/rec/PP-OCRv3/ch_PP-OCRv3_rec.yml) 训练中出现：维度报错 File "/home/xupeng/.conda/envs/paddleOCR/lib/python3.8/site-packages/paddle/fluid/dygraph/layers.py", line 915,...

xu-peng-7

关于ppocrV3的模型参数问题

文字识别模型中 model_type: rec algorithm: SVTR 1 neck设置为 SVTR其loss明显低于rnn Neck: name: SequenceEncoder encoder_type: svtr dims: 64 depth: 2 hidden_dims: 120 use_guide: True 2.backbone中不包含LCnet的参数该如何修改SVTR的参数？以及该如何在文字识别中实现backbone为lcnet模型？

xu-peng-7

PaddleOCR
PaddleOCR copied to clipboard

Metadata

Does paddle OCR have column identifying feature

kie doc

vqa的layoutxlm 官方文档一步一步跑出错

关于SVTR模型的长文本推理精度问题

使用use_gpu=True和False的预测时间相差不大，都需要3s左右很慢，请问该如何解决

运行时 paddleocr示例时，发生了core dump

基于表单的信息抽取模型应该使用VQA的RE模型还是KIE模型呢

DB config文件训练部分标签处理MakeBorderMap和MakeShrinkMap顺序错误问题

ch_PP-OCRv3_rec训练SARHead报错

关于ppocrV3的模型参数问题

← Metadata

Owner

Metadata

PaddleOCR PaddleOCR copied to clipboard

Metadata

← Metadata

Owner

Metadata

PaddleOCR
PaddleOCR copied to clipboard