tesseract
tesseract copied to clipboard
Dropping words when trying with Telugu language
I tried to test with 4.0 with Telugu language and observed many words are dropping in between I given a 300 DPI PNG file.is this a known issue ? If solved how can I solve this??
Please provide a sample image.
What 'page segmentation mode' did you use?
Try with --psm 3 and --oem 1, also with --oem 0, --oem 2 to see if there is any difference.
Hi @Shreeshrii I tried with --psm 3 and --oem 2 now its fine ...Need more testing on other images... I'll close the issue once testing is passed.
hi @Shreeshrii
can u please guide me to ocr attached telugu tif (converted to jpg to upload in github).
Problem is with formatting....
I tried different psm but no luck...
I used gimagereader as gui interface for tesseract and tried OCR in different modes:
by selecting each column separately 4x1, as two big columns 2x2 and then as a single column 1x4, plus as uniform block of text -
the results are attached.
see https://github.com/tesseract-ocr/tesseract/wiki/4.0-with-LSTM for links for gimagereader
ShreeDevi
भजन - कीर्तन - आरती @ http://bhajans.ramparivar.com
On Tue, Jan 24, 2017 at 6:55 PM, Harinath [email protected] wrote:
hi @Shreeshrii https://github.com/Shreeshrii can u please guide me to ocr attached telugu tif (converted to jpg to upload in github). Problem is with formatting.... I tried different psm but no luck... [image: praasa] https://cloud.githubusercontent.com/assets/17981729/22248819/6c287b50-e266-11e6-9785-7f5c7ef1a7c7.jpg
— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub https://github.com/tesseract-ocr/tesseract/issues/673#issuecomment-274801560, or mute the thread https://github.com/notifications/unsubscribe-auth/AE2_ow7P7LqNv2h6-ORO6eH0qLbByHPCks5rVfuzgaJpZM4LqUYA .
పింగము _ = గోరోచన వర్ణము బంగారము = పసిడి
బింగము _ = _ ఆభ్రకము = బంగారము ప శృంగారము = అలలకారమ్రు మ్ ఇంగలము = నిష్టు కంగరు మ పింగలము = ఇత్తడి , బంగరు = స్వర్ణము సింగలము = లంకాద్వీసము రంగరు = _ వెలుగొందు ఉంగరము = బటువు లంగరు మ డింగరము = పరాభవము కాంగాణి = _ పనికిరానిది పాంగరము = ఒ కభక్ష్యము గ = ఒకదినుసుమట్టి బొంగరము = ఒక ఆటవస్తువు సింగాణీ = కొమ్మువిల్లు కంగాళము = పెద్దవంటగిన్నె గొంగలి = _ ఒకపురుగు గంగాళము = బాన తొంగలి = _ కాంతి జంగాళము = వదులు పొంగలి మ బంగాళము = పక్షివిశేషము చెంగలి మ జంగలము = అడవి మ మంగలము = మండ చింగిట్లు = - పింజెలు జాంగలము = మాంసము డింగిళ్లు = - మొక్కుటలు లాంగలము = నాగలి తొంగిల్లు = పాతబట్టలు టంగరము = వెలిగారము దొంగిళ్లు , బంగరము = బంగారము అంగణము = ముంగిలి సం౦గరము = యుద్ధము టంగణము = వెలిగారము . | డంగురము = వీరణము ఇంగనము = కదలిక భంగురము = నశించునది లి౦గనము = వ౦గడము = వంశము
అంగారము = నిష్ప) స౦గడము = కలయిక
పింగము _ = గోరోచన వర్ణము
మ లి౦గము _ = శివలింగము సింగము _ = 'క్రేసరి
కంగరు = నిచ్చెన బంగరు = స్వర్ణము రంగరు = _ చెలు(గొందు లంగరు మ
కాంగాణి __ = పనికిరానిది పింగాణీ = ఒకదినుసుమట్టి సింగాణీ = . కొమ్మువిల్లు గొంగలి = _ ఒకపురుగు తొంగలి. = _ కాంతి
పాంగలి = _ పాయసాన్నము ' చెంగలి మ
మ ర చింగిత్లు = _ పిందెలు న = _ మొక్కుటలు తొంగిల్లు = పాతబట్టలు దొంగిళ్లు =. కంటిజబ్బు
అంగణము = ముంగిలి టంగణము = వెలిగారము ఇంగనము = కదలిక లిం౦గనము = కౌ«గిలింత అంగారము =
బంగారము = పసిడి
= బంగారము శృంగారము = అలరికారమ్రు ఇంగలము = నిష్టు పింగలము = ఇత్తడి , న ఉంగరము = బటువు డింగరము = పరాభవము పాంగరము = ఒ కభక్ష్యము బొంగరము = ఒక ఆటవస్తువు కంగాళము = పెద్దవంటగిన్నె గంగాళము = బాన జంగాళము = వదులు బంగాళము = పక్షివిశేషము జంగలము = అడవి ర జాంగలము = మాంసము లాంగలము = నాగలి టంగరము = వెలిగారము బంగరము = బంగారము స౦గరము = యుద్ధము డంగురము = వీరణము భంగురము = నశించునది వ౦గడము = వంశము స౦గడము = కలయిక
పింగము బింగము లింగము సింగము కంగరు బంగరు రంగరు లంగరు కాంగాణీ పింగాణీ సింగాణీ గొంగలి తొంగలి. పొంగలి చెంగలి వెంగలి చింగిల్లు డింగిట్లు తొంగిళ్లు దొంగిళ్లు అంగణము ఓటంగణము ఇరిగవఘు లి౦గనము అంగారము
గోరోచన వర్ణము ఆబ్రకము శివలింగము కేసరి
నిచ్చెన
స్వర్ణము వెలు<గొందు జీను
పనికిరానిది ఒకదినుసుమట్టి కొమ్మువిల్లు ఒకపురుగు కాంతి పాయసాన్నము ' దగ్గఱ
మొఱకు పింజెలు మొక్కుటలు పాతబట్టలు కంటి జబ్బు ముంగిలి వెలిగారము కదలిక కి
మ
నిచ్చి)
బంగారము శృంగారము ఇంగలము పింగలము సింగలము ఉంగరము డింగరము పాంగరము బొంగరము కంగాళము గంగాళము జంగాళము బంగాళము జంగలము మంగలము జాంగలము లాంగలము టంగరము బంగరము స౦గరము డంగురము భంగురము వ౦గడము స౦గడము
పసిండి బంగారము అలరికారఘు నిప్పు ఇత్తడి అలకాద్వీక్ర్రీము బటువు పరాభవము ఒ కభక్ష్యము ఒక ఆటవస్తు వు పెద్దవంటగిన్నె బాన వదులు దు అడవి మండ మాంసము నాగలి వెలిగారము బంగారము యుద్ధము వీరణము నశించునది వంశము
కలయిక
పింగము _ = గోరోచన వర్ణము బంగారము = పసిడి బింగము _ = _ ఆభ్రకము = బంగారము ప శృంగారము = అలలకారమ్రు మ్ ఇంగలము = నిష్టు
కంగరు మ పింగలము = ఇత్తడి , బంగరు = స్వర్ణము సింగలము = లంకాద్వీసము రంగరు = _ వెలుగొందు ఉంగరము = బటువు లంగరు మ డింగరము = పరాభవము కాంగాణి = _ పనికిరానిది పాంగరము = ఒ కభక్ష్యము గ = ఒకదినుసుమట్టి బొంగరము = ఒక ఆటవస్తువు సింగాణీ = కొమ్మువిల్లు కంగాళము = పెద్దవంటగిన్నె గొంగలి = _ ఒకపురుగు గంగాళము = బాన
తొంగలి = _ కాంతి జంగాళము = వదులు పొంగలి మ బంగాళము = పక్షివిశేషము చెంగలి మ జంగలము = అడవి మ మంగలము = మండ చింగిట్లు = - పింజెలు జాంగలము = మాంసము డింగిళ్లు = - మొక్కుటలు లాంగలము = నాగలి తొంగిల్లు = పాతబట్టలు టంగరము = వెలిగారము దొంగిళ్లు , బంగరము = బంగారము ` అంగణము = ముంగిలి సం౦గరము = యుద్ధము టంగణము = వెలిగారము . | డంగురము = వీరణము ఇంగనము = కదలిక భంగురము = నశించునది లి౦గనము = వ౦గడము = వంశము అంగారము = స౦గడము = కలయిక
< నానా
Yeah @Shreeshrii it works with homage GUI but in command line not working
try with
--psm 11 --oem 1 -l tel
and
--psm 6 --oem 1 -l tel
@Shreeshrii Even many words dropping, It may b the problem with word segmentation..
@harinath141,
Please try with the latest commit from the master branch.
@Shreeshrii,
Was this fixed with my patch? Can we close it?
OMP_THREAD_LIMIT=1 tesseract $my_file "$lang/${my_file%.*}-$oem-$psm-$traineddata" \
--oem $oem --psm $psm -l $lang \
--tessdata-dir ../$traineddata \
-c page_separator="" \
-c preserve_interword_spaces=1
@amitdo This seems to be a different problem.
As far as I can tell, words are being dropped with default mode of --psm 3 (not with --psm 6).
I ran current version of tesseract vs the one from Jan2018. The output from both is same.
However, with --psm 3 many words are being dropped and = sign is being recognized as ||. (I think there is code for rotating the boxes during recognition).
@harinath141 Please review the attached output and provide any additional feedback.
tel-columns-1-3-tessdata_best-2018Jan.txt tel-columns-1-6-tessdata_fast.txt tel-columns-1-3-tessdata_fast.txt tel-columns-1-6-tessdata_best.txt tel-columns-1-3-tessdata_best.txt tel-columns-1-6-tessdata_fast-2018Jan.txt tel-columns-1-3-tessdata_fast-2018Jan.txt tel-columns-1-6-tessdata_best-2018Jan.txt
Thanks,
Does it drop entire lines or just a few words in some lines?
@Shreeshrii
Sure i will review it asap.
@amitdo See output below. --psm 3 treats it as 6 different columns so it is only single words.
tesseract 4.0.0-rc3-20-g9c2d leptonica-1.76.0 libgif 5.1.4 : libjpeg 8d (libjpeg-turbo 1.4.2) : libpng 1.2.54 : libtiff 4.0.6 : zlib 1.2.8 : libwebp 0.4.4 : libopenjp2 2.3.0
***** ./tel-columns.jpg LANG tel TESSDATA tessdata_best OEM 1 PSM 6 **** పింగము = గోరోచన వర్ణము బంగారము = పసిడి చింగము = ఆధభ్రకము భృంగారము = బంగారము లింగము = శివలింగము శృంగారము = అలంకారము సింగము = కేసరి ఇంగలము = నిప్పు కంగరు = నిచ్చెన పింగలము = ఇత్తడి టం బంగరు = స్వర్ణము సింగలము = లంకాద్వీసము రంగరు = చెలు/గొందు ఉంగరము = బటువు లంగరు = ళీన్సు డింగరము = పరాభవము కాంగాణి = పనికిరానిది పొంగరము = ఒకభక్ష్యము పింగాణీ = ఒకదినుసుమట్టి బొంగరము = ఒక ఆటవస్తువు సింగాణి = కొమ్మువిల్లు కంగాళము = పెద్దవంటగిన్నె గొంగలి = ఇఒకపురుగు గంగాళము = బాన తొంగలి. = కాంతి జంగాళము = వదులు పాంగలి = పాయసాన్నము బంగాళము = పక్షివిశేషము చెంగలి = దగ్గటి జంగలము = అడవి వెంగలి = మొజికు మంగలము = మండ చింగిళ్లు = పింజెలు జాంగలము = మాంసము డింగిళ్లు = (యమొక్కుటలు లాంగలము = నా6గలి తొంగిళ్లు = పాతబట్టలు టంగరము = వెలిగారము దొంగిళ్లు = కంటిజబ్బు బంగరము = బంగారము ఆ అంగణము = ముంగిలి సంగరము = యుద్ధము ఆ టంగణము = వెలిగారము డంగురము = వీరణము ఇంగనము = కదలిక భంగురము = నశించునది లింగనము = కౌగిలింత వంగడము = వంశము అంగారము = నిప్పు సంగడము = కలయిక Tesseract Open Source OCR Engine v4.0.0-rc3-20-g9c2d with Leptonica
***** ./tel-columns.jpg LANG tel TESSDATA tessdata_best OEM 1 PSM 3 **** పింగము బింగము లింగము సింగము కంగరు బంగరు రంగరు అంగరు కాంగాణీ పింగాణి సింగాణి గొంగలి తొంగలి. పొంగలి చెంగలి వెంగలి చింగిళ్లు డింగిళ్లు తొంగిళ్లు దొంగిళ్లు అంగణము టంగణము ఇంగనము లింగనము అంగారము
॥|
గోరోచన వర్ణము ఆ(భ్రకము శివలింగము కేసరి
నిచ్చెన స్వర్ణము వెలు(/గొందు జీను పనికిరానిది ఒకదినుసుమ కొమ్మువిల్లు ఒకపురుగు కాంతి
86
పాయసాన్నము -
దగ్గజి మొటజికు పింజెలు మొక్కుటలు పాఠతబట్టలు కంటిజబ్బు ముంగిలి వెలిగారము కదలిక కౌగిలింత నిప్పు
బంగారము భృంగారము శృంగారము ఇంగలము పింగలము సింగలము ఉంగరము డింగరము పాంగరము బొంగరము కంగాళము గంగాళము జంగాళము బంగాళము జంగలము మంగలము జాంగలము లాంగలము టంగరము బంగరము సంగరము డంగురము భంగురము వంగడము సంగడము
||
||
[|
| 1 | | ॥ ॥
|
|
||
పసి6డి బంగారము అలంకారము నిప్పు ఇత్తడి లంకాద్వీసము బటువు పరాభవము ఒకభక్ష్యము ఒక ఆటవస్తువు పెద్దవంటగిన్నె
బాన