AON
AON copied to clipboard
您好,模型在英文数据集上表现可以,但是也有问题
模型在识别较短的文本行的时候loss的数量级在0.05左右,很准确,但是在识别较长的英文文本(20个字符以上)的时候,loss在0.6左右,有的时候甚至到了1.n,且预测结果相对不准确,有错误字符,我的训练数据都是水平的一行文本图片,论文上说对regular的文本图片表现也不错,但是我在英文数据集上得到了相对理想的结果,但是我在中文数据集(字符6000多,较多繁体字)上,loss在8左右震荡,始终不能降低,请问有什么模型调整的建议
训练数据集是用这个程序生成的,https://github.com/Belval/TextRecognitionDataGenerator; 如果您觉得不合适请建议一个更好的模拟数据的生成程序,此外,原程序的处理方法会把图片resize成(100,100) 对于字符数量较小的图片,resieze后产生的字符像素点的扭曲,相对较小,如果是20个字符以上的图片(高度大约20几像素,长度超过100像素),resize后会产生较多的扭曲,我直觉上认为直接resize成(100, 100)可能是不合适的,如果有什么好的修改能尽量减少像素信息的改变请提出,我会进全力去尝试
图片的预处理过程如何修改, CNN曾要如何修改? 我觉得模型应该很厉害,可是中文上不行
问一下,您跑这个模型的tensorflow环境是多少?