PaddleOCR
PaddleOCR copied to clipboard
Awesome multilingual OCR toolkits based on PaddlePaddle (practical ultra lightweight OCR system, support 80+ languages recognition, provide data annotation and synthesis tools, support training and de...
I am testing paddle OCR and wanted to know if it has a column identifying feature instead of treating columns line by line and joining them. @tink2123 is there already...
kie doc
att.
你好, 我按照官方文档配置vqa的layoutxlm,严格按照readme的步骤进行,然后跑训练的时候就会出现错误,以下是其中一个,另一个错误是数据集corrupt了。 我的环境如下: numpy 1.21.6 pypi_0 pypi opencv-contrib-python 4.4.0.46 pypi_0 pypi opencv-python 4.6.0.66 pypi_0 pypi openpyxl 3.0.10 pypi_0 pypi openssl 1.1.1q h7f8727e_0 opt-einsum 3.3.0 pypi_0 pypi packaging 21.3 pypi_0 pypi...
将模型转为ONNX后默认图像输入为64*256,对于长文本的识别效果较差。自适应输出的Head参数为MultiHead,请问该如何修改训练参数,使得模型能较好的识别较长的文本图片。
请提供下述完整信息以便快速定位问题/Please provide the following information to quickly locate the problem - 系统环境/System Environment:windows10/tesla p4/NVIDIA-SMI 516.94/Driver Version: 516.94/CUDA Version: 11.7 - 版本号/Version:Paddle: PaddleOCR:release2.5 问题相关组件/Related components: - 问题描述:我按照[Windows下编译教程](https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.5/deploy/cpp_infer/docs/windows_vs2019_build.md)这个教程,自己用了VS2022+CMake部署的,使用的预测库是avx_mkl_cuda11.6_cudnn8.4_avx_mkl-trt8.4.1.5,执行命令后每一张图片都要3秒左右,这和我--use_gpu=False的速度差不多,我也试过把文件夹里的图片增加到4张,每一张图片也是3s左右的时间才能预测完。然后还想问一下的就是要怎么显示准确的每一张图的预测时间呢,是有什么参数嘛,翻了下文档没找着 - 运行指令/Command Code:.\ppocr.exe system...
(mxnet_py39) [root@AIServer-0 ppocr_img]# paddleocr --image_dir ./imgs/11.jpg --use_angle_cls true --det_model_dir="../ch_PP-OCRv3_det_infer" --rec_model_dir=../ch_PP-OCRv3_rec_infer --cls_model_dir=../ch_PP-OCRv3_rec_infer [2022/08/01 15:17:03] ppocr DEBUG: Namespace(help='==SUPPRESS==', use_gpu=True, ir_optim=True, use_tensorrt=False, min_subgraph_size=15, precision='fp32', gpu_mem=500, image_dir='./imgs/11.jpg', det_algorithm='DB', det_model_dir='../ch_PP-OCRv3_det_infer', det_limit_side_len=960, det_limit_type='max', det_db_thresh=0.3, det_db_box_thresh=0.6, det_db_unclip_ratio=1.5,...
您好,我有两个问题需要请教: 1、基于form表单的信息抽取模型应该使用VQA的RE模型还是KIE模型呢?docs重点介绍了VQA的RE模型,没有找到关于KIE的更多介绍? 2、VQA的RE模型或KIE模型 有finetune的功能吗?如果有的话,可否提供一下呢(没找到)?谢谢
问题描述: 所有DB 的config文件训练部分标签处理 MakeBorderMap和MakeShrinkMap需要调换顺序 https://github.com/PaddlePaddle/PaddleOCR/blob/bde8cad09668939a94fde066ffb556a703d7f7ca/configs/det/det_r50_vd_db.yml#L82-L88 原因分析: 1. MakeShrinkMap会有两个环节会判断标注是否需要ignore_tags: https://github.com/PaddlePaddle/PaddleOCR/blob/bde8cad09668939a94fde066ffb556a703d7f7ca/ppocr/data/imaug/make_shrink_map.py#L56-L59 https://github.com/PaddlePaddle/PaddleOCR/blob/bde8cad09668939a94fde066ffb556a703d7f7ca/ppocr/data/imaug/make_shrink_map.py#L81-L85 2.MakeBorderMap仅会根据ignore_tags进行绘制T图label https://github.com/PaddlePaddle/PaddleOCR/blob/bde8cad09668939a94fde066ffb556a703d7f7ca/ppocr/data/imaug/make_border_map.py#L57-L61 所以先MakeBorderMap再MakeShrinkMap,会存在T图与P图不匹配的情况 3.原作者的repo里是先计算P图label再计算T图label https://github.com/MhLiao/DB/blob/e5a12f5c2f0c2b4a345b5b8392307ef73481d5f6/experiments/seg_detector/base_ic15.yaml#L24-L25
请提供下述完整信息以便快速定位问题/Please provide the following information to quickly locate the problem [- 系统环境/System Environment: - 版本号/Version:Paddle: PaddleOCR: 问题相关组件/Related components: - 运行指令/Command Code: - 完整报错/Complete Error Message:](https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.5/configs/rec/PP-OCRv3/ch_PP-OCRv3_rec.yml) 训练中出现:维度报错 File "/home/xupeng/.conda/envs/paddleOCR/lib/python3.8/site-packages/paddle/fluid/dygraph/layers.py", line 915,...
文字识别模型中 model_type: rec algorithm: SVTR 1 neck设置为 SVTR其loss明显低于rnn Neck: name: SequenceEncoder encoder_type: svtr dims: 64 depth: 2 hidden_dims: 120 use_guide: True 2.backbone中不包含LCnet的参数 该如何修改SVTR的参数? 以及该如何在文字识别中实现backbone为lcnet模型?