textblob-de
textblob-de copied to clipboard
Lemmatisation produces incorrect, weirdly formatted results
As word.lemmatize()
is not implemented, I used
from textblob_de.lemmatizers import PatternParserLemmatizer
_lemmatizer = PatternParserLemmatizer()
text1 = "Das ist ein hässliches Auto."
print(text1)
print(_lemmatizer.lemmatize(text1))
to test various sample sentences. Unfortunately, basically every sentence had words that were either incorrectly or not lemmatized at all, some being wierdly formatted or including some extra escape codes, viz.:
Ich werde von ihr gerufen.
[('ich', 'PRP'), ('werde', 'RB'), ('von', 'IN'), ('ihr', 'PRP'), ('gerufen', 'RP')]
Kinder tun es von Natur aus, den meisten Erwachsenen dagegen hat man es erfolgreich abgewöhnt.
[('kinder', 'RB'), ('tun', 'VB'), ('es', 'PRP'), ('von', 'IN'), ('Natur', 'NN'), ('aus', 'RP'), ('den', 'DT'), ('meist', 'DT'), ('Erwachsenen', 'NN'), ('dagegen', 'VB'), ('haben', 'VB'), ('man', 'DT'), ('es', 'PRP'), ('erfolgreich', 'JJ'), ('abgewöhnt', 'NN')]
Versprich mehr, als du halten kannst!
[('Ver\xadSprich', 'NNP'), ('mehr', 'RP'), ('als', 'IN'), ('du', 'PRP'), ('hal\xadten', 'NN'), ('können', 'VB')]
Es gibt bedeutende Schriftsteller, die keine wesentlichen Fragen stellen, aber werden sie als große Denker angesehen?
[('es', 'PRP'), ('geben', 'VB'), ('be\xaddeu\xadten\xadde', 'NN'), ('Schrift\xadStel\xadLer', 'NN'), ('die', 'WDT'), ('kein', 'DT'), ('we\xadsent\xadli\xadch', 'JJ'), ('Fra\xadGen', 'NN'), ('stel\xadlen', 'NN'), ('aber', 'IN'), ('wer\xadden', 'NN'), ('sie', 'PRP'), ('als', 'IN'), ('gross', 'JJ'), ('Den\xadKer', 'NN'), ('an\xadge\xadse\xadhen', 'NN')]
Oder handelt es sich nur um eine bessere Frage als jene, die ihm auf Lateinisch gestellt wurde?
[('ode', 'JJ'), ('han\xaddelt', 'NN'), ('es', 'PRP'), ('sich', 'PRP'), ('nur', 'RB'), ('um', 'IN'), ('ein', 'DT'), ('bes\xadse\xadre', 'NN'), ('Frage', 'NN'), ('als', 'IN'), ('jen', 'DT'), ('die', 'WDT'), ('ihm', 'PRP'), ('auf', 'IN'), ('La\xadTei\xadNisch', 'JJ'), ('ge\xadstellt', 'NN'), ('werden', 'VB')]