korektor icon indicating copy to clipboard operation
korektor copied to clipboard

Check Czech dictionary for unknown words (garbage)

Open stranak opened this issue 9 years ago • 1 comments

Pro slovo 'odpoved' obsahuje slovník z Korektoru následující položky:

 odpověd|odpověd|NNMS-
 odpověd|odpověd|NN---
 odpověd|odpověd|NNM--
 odpověd|odpověd|NNMS1

Formát je forma|lemma|tag. Po chvilce jsem našel ještě například

 odpovedet|odpovedet|NNIS1
 odpovedel|odpovedel|NN---
 odpovedel|odpovedel|NNI--

Když místo spellcheckingu použiju doplňování diakritiky, uvidím následující (je tam toho víc, protože v tomhle případě se může lišit diakritikou libovolně mnoho písmenek):

 odpověď|odpověď|NNFS4
 odpověď|odpověď|NNFS4-----@----
 odpoved|odpoved|NN---
 odpověď|odpověď|NNFS1-----@----
 odpověd|odpověd|NNMS-
 ODPOVED|Odpoved|NN---
 odpověd|odpověd|NN---
 ODPOVED|Odpoved|AA---
 odpověd|odpověd|NNM--
 odpověď|odpověď|<unk>
 odpověd|odpověd|NNMS1

stranak avatar Feb 25 '16 18:02 stranak

I tried some Morphodita's guesser's bad suggestions (nonexistent lemma) and found more matches in our dictionary. E.g. odpovedentuelně, odpovedetica, odpovedoucí. So it seems this might have come from accidentaly using the guesser while compiling our dictionary.

stranak avatar Feb 25 '16 18:02 stranak