PaddleOCR
PaddleOCR copied to clipboard
Awesome multilingual OCR toolkits based on PaddlePaddle (practical ultra lightweight OCR system, support 80+ languages recognition, provide data annotation and synthesis tools, support training and de...
你好,请问一下,训练集的batch_size置为16,验证集的batch_size置为128,这种设置影响最终结果吗?我的图片只有200张左右,训练集的batch_size过大时,就无法显示Loss了。
请提供下述完整信息以便快速定位问题/Please provide the following information to quickly locate the problem - 系统环境/System Environment:Ubuntu 20 - 版本号/Version:Paddle:2.3.2 PaddleOCR:2.6 问题相关组件/Related components:paddlehub 2.1.0 - 运行指令/Command Code:hub install deploy/hubserving/ocr_system/ - 完整报错/Complete Error Message: hub...
ser训练中前几轮次损失正常下降,后面就出现nanxxx,但是前几次的eval结果都是0.9以上 
### DBNet论文中的损失函数:   ### paddleocr里db复现代码部分的损失函数:  ### **请问,两者不一样的原因是什么呢?**
请提供下述完整信息以便快速定位问题/Please provide the following information to quickly locate the problem - 系统环境/System Environment:Windows - 版本号/Version:Paddle:2.3.1 PaddleOCR:2.6.0.1 问题相关组件/Related components:PPOCRLabel 2.1.1 - 运行指令/Command Code:PPOCRLabel 2.1.1 - 完整报错/Complete Error Message: File "C:\Users\happy\.conda\envs\pytorch\lib\site-packages\PPOCRLabel\libs\canvas.py", line...
修改此问题有2个方案: 1. 方案1,直接默认使用utf-8编码,强制固化。可能会带来另外的问题,如:用户把config.yml文件修改成其他编码格式会再次出现异常。 2. 方案2,引入chardet这类插件来动态进行编码格式转换,能从根本上解决此类问题,但是需要引入第三方包。 综合考虑选择方案1,因使用此项目的对象是研发人员,相对而言他的副作用相对较小。
看了一下PPOCR,DBNet文本检测部分的代码,训练时候使用了step_function函数来计算文本区域的二值化图,为什么预测时候是直接使用概率图然后利用一个固定的阈值0.3来得到二值化图,而没有用到模型预测阈值图结合step_function计算二值图,是为了推理速度的考虑吗?但是这样做对于模型的精度会不会有影响?
类似上图。我标注检测框的时候可以标注全部吧。但是文字是不是可以只写英文?还是需要全写呢? 顺便问下:假如说我想识别梵文+英文的话。是分开训练识别模型么。不同文字分开识别?还是创建一个多语言的字典一同训练呢?
请提供下述完整信息以便快速定位问题/Please provide the following information to quickly locate the problem - 系统环境/System Environment: - 版本号/Version:Paddle: PaddleOCR: 问题相关组件/Related components: - 运行指令/Command Code: - 完整报错/Complete Error Message: paddleocr 后续能结合语义识别吗