textblob-de icon indicating copy to clipboard operation
textblob-de copied to clipboard

Lemmatisation produces incorrect, weirdly formatted results

Open workflowsguy opened this issue 6 years ago • 0 comments

As word.lemmatize() is not implemented, I used

from textblob_de.lemmatizers import PatternParserLemmatizer
_lemmatizer = PatternParserLemmatizer()
text1 = "Das ist ein hässliches Auto."
print(text1)
print(_lemmatizer.lemmatize(text1))

to test various sample sentences. Unfortunately, basically every sentence had words that were either incorrectly or not lemmatized at all, some being wierdly formatted or including some extra escape codes, viz.:

Ich werde von ihr gerufen. [('ich', 'PRP'), ('werde', 'RB'), ('von', 'IN'), ('ihr', 'PRP'), ('gerufen', 'RP')]

Kinder tun es von Natur aus, den meisten Erwachsenen dagegen hat man es erfolgreich abgewöhnt. [('kinder', 'RB'), ('tun', 'VB'), ('es', 'PRP'), ('von', 'IN'), ('Natur', 'NN'), ('aus', 'RP'), ('den', 'DT'), ('meist', 'DT'), ('Erwachsenen', 'NN'), ('dagegen', 'VB'), ('haben', 'VB'), ('man', 'DT'), ('es', 'PRP'), ('erfolgreich', 'JJ'), ('abgewöhnt', 'NN')]

Ver­sprich mehr, als du hal­ten kannst! [('Ver\xadSprich', 'NNP'), ('mehr', 'RP'), ('als', 'IN'), ('du', 'PRP'), ('hal\xadten', 'NN'), ('können', 'VB')]

Es gibt be­deu­ten­de Schrift­stel­ler, die keine we­sent­li­chen Fra­gen stel­len, aber wer­den sie als große Den­ker an­ge­se­hen? [('es', 'PRP'), ('geben', 'VB'), ('be\xaddeu\xadten\xadde', 'NN'), ('Schrift\xadStel\xadLer', 'NN'), ('die', 'WDT'), ('kein', 'DT'), ('we\xadsent\xadli\xadch', 'JJ'), ('Fra\xadGen', 'NN'), ('stel\xadlen', 'NN'), ('aber', 'IN'), ('wer\xadden', 'NN'), ('sie', 'PRP'), ('als', 'IN'), ('gross', 'JJ'), ('Den\xadKer', 'NN'), ('an\xadge\xadse\xadhen', 'NN')]

Oder han­delt es sich nur um eine bes­se­re Frage als jene, die ihm auf La­tei­nisch ge­stellt wurde? [('ode', 'JJ'), ('han\xaddelt', 'NN'), ('es', 'PRP'), ('sich', 'PRP'), ('nur', 'RB'), ('um', 'IN'), ('ein', 'DT'), ('bes\xadse\xadre', 'NN'), ('Frage', 'NN'), ('als', 'IN'), ('jen', 'DT'), ('die', 'WDT'), ('ihm', 'PRP'), ('auf', 'IN'), ('La\xadTei\xadNisch', 'JJ'), ('ge\xadstellt', 'NN'), ('werden', 'VB')]

workflowsguy avatar Jan 14 '18 14:01 workflowsguy