tesseract icon indicating copy to clipboard operation
tesseract copied to clipboard

Dropping words when trying with Telugu language

Open harinath141 opened this issue 7 years ago • 13 comments

I tried to test with 4.0 with Telugu language and observed many words are dropping in between I given a 300 DPI PNG file.is this a known issue ? If solved how can I solve this??

harinath141 avatar Jan 22 '17 08:01 harinath141

Please provide a sample image.

What 'page segmentation mode' did you use?

Try with --psm 3 and --oem 1, also with --oem 0, --oem 2 to see if there is any difference.

Shreeshrii avatar Jan 22 '17 11:01 Shreeshrii

Hi @Shreeshrii I tried with --psm 3 and --oem 2 now its fine ...Need more testing on other images... I'll close the issue once testing is passed.

harinath141 avatar Jan 23 '17 04:01 harinath141

hi @Shreeshrii can u please guide me to ocr attached telugu tif (converted to jpg to upload in github). Problem is with formatting.... I tried different psm but no luck... praasa

harinath141 avatar Jan 24 '17 13:01 harinath141

I used gimagereader as gui interface for tesseract and tried OCR in different modes:

by selecting each column separately 4x1, as two big columns 2x2 and then as a single column 1x4, plus as uniform block of text -

the results are attached.

see https://github.com/tesseract-ocr/tesseract/wiki/4.0-with-LSTM for links for gimagereader

ShreeDevi


भजन - कीर्तन - आरती @ http://bhajans.ramparivar.com

On Tue, Jan 24, 2017 at 6:55 PM, Harinath [email protected] wrote:

hi @Shreeshrii https://github.com/Shreeshrii can u please guide me to ocr attached telugu tif (converted to jpg to upload in github). Problem is with formatting.... I tried different psm but no luck... [image: praasa] https://cloud.githubusercontent.com/assets/17981729/22248819/6c287b50-e266-11e6-9785-7f5c7ef1a7c7.jpg

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub https://github.com/tesseract-ocr/tesseract/issues/673#issuecomment-274801560, or mute the thread https://github.com/notifications/unsubscribe-auth/AE2_ow7P7LqNv2h6-ORO6eH0qLbByHPCks5rVfuzgaJpZM4LqUYA .

పింగము _ = గోరోచన వర్ణము బంగారము = పసిడి

బింగము _ = _ ఆభ్రకము = బంగారము ప శృంగారము = అలలకారమ్రు మ్ ఇంగలము = నిష్టు కంగరు మ పింగలము = ఇత్తడి , బంగరు = స్వర్ణము సింగలము = లంకాద్వీసము రంగరు = _ వెలుగొందు ఉంగరము = బటువు లంగరు మ డింగరము = పరాభవము కాంగాణి = _ పనికిరానిది పాంగరము = ఒ కభక్ష్యము గ = ఒకదినుసుమట్టి బొంగరము = ఒక ఆటవస్తువు సింగాణీ = కొమ్మువిల్లు కంగాళము = పెద్దవంటగిన్నె గొంగలి = _ ఒకపురుగు గంగాళము = బాన తొంగలి = _ కాంతి జంగాళము = వదులు పొంగలి మ బంగాళము = పక్షివిశేషము చెంగలి మ జంగలము = అడవి మ మంగలము = మండ చింగిట్లు = - పింజెలు జాంగలము = మాంసము డింగిళ్లు = - మొక్కుటలు లాంగలము = నాగలి తొంగిల్లు = పాతబట్టలు టంగరము = వెలిగారము దొంగిళ్లు , బంగరము = బంగారము అంగణము = ముంగిలి సం౦గరము = యుద్ధము టంగణము = వెలిగారము . | డంగురము = వీరణము ఇంగనము = కదలిక భంగురము = నశించునది లి౦గనము = వ౦గడము = వంశము

అంగారము = నిష్ప) స౦గడము = కలయిక

పింగము _ = గోరోచన వర్ణము

మ లి౦గము _ = శివలింగము సింగము _ = 'క్రేసరి

కంగరు = నిచ్చెన బంగరు = స్వర్ణము రంగరు = _ చెలు(గొందు లంగరు మ

కాంగాణి __ = పనికిరానిది పింగాణీ = ఒకదినుసుమట్టి సింగాణీ = . కొమ్మువిల్లు గొంగలి = _ ఒకపురుగు తొంగలి. = _ కాంతి

పాంగలి = _ పాయసాన్నము ' చెంగలి మ

మ ర చింగిత్లు = _ పిందెలు న = _ మొక్కుటలు తొంగిల్లు = పాతబట్టలు దొంగిళ్లు =. కంటిజబ్బు

అంగణము = ముంగిలి టంగణము = వెలిగారము ఇంగనము = కదలిక లిం౦గనము = కౌ«గిలింత అంగారము =

బంగారము = పసిడి

= బంగారము శృంగారము = అలరికారమ్రు ఇంగలము = నిష్టు పింగలము = ఇత్తడి , న ఉంగరము = బటువు డింగరము = పరాభవము పాంగరము = ఒ కభక్ష్యము బొంగరము = ఒక ఆటవస్తువు కంగాళము = పెద్దవంటగిన్నె గంగాళము = బాన జంగాళము = వదులు బంగాళము = పక్షివిశేషము జంగలము = అడవి ర జాంగలము = మాంసము లాంగలము = నాగలి టంగరము = వెలిగారము బంగరము = బంగారము స౦గరము = యుద్ధము డంగురము = వీరణము భంగురము = నశించునది వ౦గడము = వంశము స౦గడము = కలయిక

పింగము బింగము లింగము సింగము కంగరు బంగరు రంగరు లంగరు కాంగాణీ పింగాణీ సింగాణీ గొంగలి తొంగలి. పొంగలి చెంగలి వెంగలి చింగిల్లు డింగిట్లు తొంగిళ్లు దొంగిళ్లు అంగణము ఓటంగణము ఇరిగవఘు లి౦గనము అంగారము

గోరోచన వర్ణము ఆబ్రకము శివలింగము కేసరి

నిచ్చెన

స్వర్ణము వెలు<గొందు జీను

పనికిరానిది ఒకదినుసుమట్టి కొమ్మువిల్లు ఒకపురుగు కాంతి పాయసాన్నము ' దగ్గఱ

మొఱకు పింజెలు మొక్కుటలు పాతబట్టలు కంటి జబ్బు ముంగిలి వెలిగారము కదలిక కి

నిచ్చి)

బంగారము శృంగారము ఇంగలము పింగలము సింగలము ఉంగరము డింగరము పాంగరము బొంగరము కంగాళము గంగాళము జంగాళము బంగాళము జంగలము మంగలము జాంగలము లాంగలము టంగరము బంగరము స౦గరము డంగురము భంగురము వ౦గడము స౦గడము

పసిండి బంగారము అలరికారఘు నిప్పు ఇత్తడి అలకాద్వీక్ర్రీము బటువు పరాభవము ఒ కభక్ష్యము ఒక ఆటవస్తు వు పెద్దవంటగిన్నె బాన వదులు దు అడవి మండ మాంసము నాగలి వెలిగారము బంగారము యుద్ధము వీరణము నశించునది వంశము

కలయిక

పింగము _ = గోరోచన వర్ణము బంగారము = పసిడి బింగము _ = _ ఆభ్రకము = బంగారము ప శృంగారము = అలలకారమ్రు మ్ ఇంగలము = నిష్టు

కంగరు మ పింగలము = ఇత్తడి , బంగరు = స్వర్ణము సింగలము = లంకాద్వీసము రంగరు = _ వెలుగొందు ఉంగరము = బటువు లంగరు మ డింగరము = పరాభవము కాంగాణి = _ పనికిరానిది పాంగరము = ఒ కభక్ష్యము గ = ఒకదినుసుమట్టి బొంగరము = ఒక ఆటవస్తువు సింగాణీ = కొమ్మువిల్లు కంగాళము = పెద్దవంటగిన్నె గొంగలి = _ ఒకపురుగు గంగాళము = బాన

తొంగలి = _ కాంతి జంగాళము = వదులు పొంగలి మ బంగాళము = పక్షివిశేషము చెంగలి మ జంగలము = అడవి మ మంగలము = మండ చింగిట్లు = - పింజెలు జాంగలము = మాంసము డింగిళ్లు = - మొక్కుటలు లాంగలము = నాగలి తొంగిల్లు = పాతబట్టలు టంగరము = వెలిగారము దొంగిళ్లు , బంగరము = బంగారము ` అంగణము = ముంగిలి సం౦గరము = యుద్ధము టంగణము = వెలిగారము . | డంగురము = వీరణము ఇంగనము = కదలిక భంగురము = నశించునది లి౦గనము = వ౦గడము = వంశము అంగారము = స౦గడము = కలయిక

< నానా

Shreeshrii avatar Jan 24 '17 14:01 Shreeshrii

Yeah @Shreeshrii it works with homage GUI but in command line not working

harinath141 avatar Jan 25 '17 05:01 harinath141

try with

--psm 11 --oem 1 -l tel

and

--psm 6 --oem 1 -l tel

Shreeshrii avatar Jan 27 '17 05:01 Shreeshrii

@Shreeshrii Even many words dropping, It may b the problem with word segmentation..

harinath141 avatar Jan 30 '17 09:01 harinath141

@harinath141,

Please try with the latest commit from the master branch.

amitdo avatar Feb 24 '18 13:02 amitdo

@Shreeshrii,

Was this fixed with my patch? Can we close it?

amitdo avatar Oct 15 '18 12:10 amitdo

OMP_THREAD_LIMIT=1 tesseract $my_file  "$lang/${my_file%.*}-$oem-$psm-$traineddata" \
--oem $oem --psm $psm -l $lang \
--tessdata-dir ../$traineddata \
-c page_separator="" \
-c preserve_interword_spaces=1

@amitdo This seems to be a different problem.

As far as I can tell, words are being dropped with default mode of --psm 3 (not with --psm 6).

I ran current version of tesseract vs the one from Jan2018. The output from both is same.

However, with --psm 3 many words are being dropped and = sign is being recognized as ||. (I think there is code for rotating the boxes during recognition).

@harinath141 Please review the attached output and provide any additional feedback.

tel-columns-1-3-tessdata_best-2018Jan.txt tel-columns-1-6-tessdata_fast.txt tel-columns-1-3-tessdata_fast.txt tel-columns-1-6-tessdata_best.txt tel-columns-1-3-tessdata_best.txt tel-columns-1-6-tessdata_fast-2018Jan.txt tel-columns-1-3-tessdata_fast-2018Jan.txt tel-columns-1-6-tessdata_best-2018Jan.txt

Shreeshrii avatar Oct 18 '18 14:10 Shreeshrii

Thanks,

Does it drop entire lines or just a few words in some lines?

amitdo avatar Oct 18 '18 15:10 amitdo

@Shreeshrii

Sure i will review it asap.

harinath141 avatar Oct 18 '18 15:10 harinath141

@amitdo See output below. --psm 3 treats it as 6 different columns so it is only single words.

tesseract 4.0.0-rc3-20-g9c2d leptonica-1.76.0 libgif 5.1.4 : libjpeg 8d (libjpeg-turbo 1.4.2) : libpng 1.2.54 : libtiff 4.0.6 : zlib 1.2.8 : libwebp 0.4.4 : libopenjp2 2.3.0

***** ./tel-columns.jpg LANG tel TESSDATA tessdata_best OEM 1 PSM 6 **** పింగము = గోరోచన వర్ణము బంగారము = పసిడి చింగము = ఆధభ్రకము భృంగారము = బంగారము లింగము = శివలింగము శృంగారము = అలంకారము సింగము = కేసరి ఇంగలము = నిప్పు కంగరు = నిచ్చెన పింగలము = ఇత్తడి టం బంగరు = స్వర్ణము సింగలము = లంకాద్వీసము రంగరు = చెలు/గొందు ఉంగరము = బటువు లంగరు = ళీన్సు డింగరము = పరాభవము కాంగాణి = పనికిరానిది పొంగరము = ఒకభక్ష్యము పింగాణీ = ఒకదినుసుమట్టి బొంగరము = ఒక ఆటవస్తువు సింగాణి = కొమ్మువిల్లు కంగాళము = పెద్దవంటగిన్నె గొంగలి = ఇఒకపురుగు గంగాళము = బాన తొంగలి. = కాంతి జంగాళము = వదులు పాంగలి = పాయసాన్నము బంగాళము = పక్షివిశేషము చెంగలి = దగ్గటి జంగలము = అడవి వెంగలి = మొజికు మంగలము = మండ చింగిళ్లు = పింజెలు జాంగలము = మాంసము డింగిళ్లు = (యమొక్కుటలు లాంగలము = నా6గలి తొంగిళ్లు = పాతబట్టలు టంగరము = వెలిగారము దొంగిళ్లు = కంటిజబ్బు బంగరము = బంగారము ఆ అంగణము = ముంగిలి సంగరము = యుద్ధము ఆ టంగణము = వెలిగారము డంగురము = వీరణము ఇంగనము = కదలిక భంగురము = నశించునది లింగనము = కౌగిలింత వంగడము = వంశము అంగారము = నిప్పు సంగడము = కలయిక Tesseract Open Source OCR Engine v4.0.0-rc3-20-g9c2d with Leptonica

***** ./tel-columns.jpg LANG tel TESSDATA tessdata_best OEM 1 PSM 3 **** పింగము బింగము లింగము సింగము కంగరు బంగరు రంగరు అంగరు కాంగాణీ పింగాణి సింగాణి గొంగలి తొంగలి. పొంగలి చెంగలి వెంగలి చింగిళ్లు డింగిళ్లు తొంగిళ్లు దొంగిళ్లు అంగణము టంగణము ఇంగనము లింగనము అంగారము

॥|

గోరోచన వర్ణము ఆ(భ్రకము శివలింగము కేసరి

నిచ్చెన స్వర్ణము వెలు(/గొందు జీను పనికిరానిది ఒకదినుసుమ కొమ్మువిల్లు ఒకపురుగు కాంతి

86

పాయసాన్నము -

దగ్గజి మొటజికు పింజెలు మొక్కుటలు పాఠతబట్టలు కంటిజబ్బు ముంగిలి వెలిగారము కదలిక కౌగిలింత నిప్పు

బంగారము భృంగారము శృంగారము ఇంగలము పింగలము సింగలము ఉంగరము డింగరము పాంగరము బొంగరము కంగాళము గంగాళము జంగాళము బంగాళము జంగలము మంగలము జాంగలము లాంగలము టంగరము బంగరము సంగరము డంగురము భంగురము వంగడము సంగడము

||

||

[|

| 1 | | ॥ ॥

|

|

||

పసి6డి బంగారము అలంకారము నిప్పు ఇత్తడి లంకాద్వీసము బటువు పరాభవము ఒకభక్ష్యము ఒక ఆటవస్తువు పెద్దవంటగిన్నె

బాన

Shreeshrii avatar Oct 18 '18 15:10 Shreeshrii