tesseract
tesseract copied to clipboard
arabic comma not recoginzed
Environment
I am using tesseract-ocr tesseract 4.00.00alpha on ubuntu 16.04 from this repostory https://launchpad.net/~alex-p/+archive/ubuntu/tesseract-ocr
Current Behavior:
When I convert the attached tiff, the arabic comma is converted to hamza image00086.zip
the current output:
وقد تركت قولين يقال بهما في الحجةء لأن من أدركنا من خيار أصحابنا بما("21 كنا نأخذ عنهم قالوا بتضعيف ذلك القولين ولم يميتوهماء وإن كان بعضن الناس يحتجون بهماء وأن كل ما حرم الله حراماء وما نهى عنه فهو الحرام الذي حرمه الكتاب والسنة» فاضاف فاعله إلى النار فهو كبيره يكفر أهله بمقارفته حين قارفوه حتى يتوبواء وكذلك نظيره» وإن لم يذكره الكتاب والسنة. وما سمى الله أهله بشىء من أسماء الضلال فهو كبيره» وما أمر الله عليه بالنكال في الدنيا فهو كبيرة» وما لم يعد عليه النار ولم يفسق أهلهء ولم يأمر بتكالهم فأهله1640 .
the error:

There is another problem with the numbers but this tracked here #1193
see also: https://github.com/tesseract-ocr/tessdata_best/issues/11
I think this issue related to training and the text used for the training because when I add arabic comma many times attached to a word not alone such as:
إحصائية، عددالزوار؛ كافة جميع، الشخصية أدوات، أخرى شاء، هما،
in ara.training_text then do fine tuning process, I got good result and all arabic commas get recognized.
@Fahad-Alsaidi can you share your .traineddata file ??