spaCy
spaCy copied to clipboard
Italian tagger and lemmatizer performance dropped with the new v3.4 version
Hello,
I've recently upgraded the spaCy pretrained models from v3.2 to 3.4, but I found that the tagger and lemmatizer performance dropped significantly for italian and spanish.
I've prepared a table to show some examples for italian, along with the expected output (lemma, POS)
Text | Word analysed | Lemma detected | Lemma expected | Pos detected | Pos expected |
---|---|---|---|---|---|
efficiente e cortesissima. | cortesissima | cortesissima | cortese | ADJ | ADJ |
"Voglio disabbonarmi Newsletter | |||||
Non voglio che mi mandate le vostre email" | Voglio | Voglio | volere | PRON | VERB |
"Il tracking dell' ordine | |||||
non è ancora arrivato ed inoltre non riesco a tracciarlo. " | tracciarlo | tracciare lo | tracciare | VERB | VERB |
Potete | Potete | potere | AUX | VERB | |
Negozio pulito e ben fornito Cassiera gentile | Cassiera | Cassiera | cassiere | PROPN | NOUN |
Ho il buono bebe come posso utilizzarlo ed entro quando? | come | come | come | ADP | ADV |
posso | potere | potere | AUX | VERB | |
utilizzarlo | utilizzare lo | utilizzare | VERB | VERB | |
"I: Il tuo ordine è ancora disponibile | |||||
Spedizione gratis" | Spedizione | Spedizione | spedizione | NOUN | NOUN |
gratis | gratis | gratis | ADV | ADJ | |
Aprite altri centri Kiabi verso il centro di [city].. | Aprite | Aprite | aprire | VERB | VERB |
altri | altro | altro | DET | ADJ | |
che ora chiudete | che | che | che | PRON | DET |
chiudete | chiudetere | chiudere | VERB | VERB | |
Negozi in provincia di [city]? | Negozi | Negozi | negozio | NOUN | NOUN |
Staff gentilissimo e disponibile. | gentilissimo | gentilo | gentile | ADJ | ADJ |
Perfette | Perfette | Perfetta | perfetto | NOUN | ADJ |
Trovo sempre un sacco di cose per mio figlio e i prezzi sono rimasti gli stessi | Trovo | Trovare | trovare | VERB | VERB |
Richiedo la fatturazione elettronica dei seguenti ordini N° [number] N° [number] [name] Bevande | Richiedo | Richiedo | richiedere | VERB | VERB |
Cercavo una felpina nuova collezione e già non avevano più neanche una | Cercavo | Cercavo | cercare | VERB | VERB |
Consegna più veloce del previsto e vestiti neonato stupendi e di buona qualità | Consegna | consegnare | consegna | VERB | NOUN |
previsto | prevedere | previsto | NOUN | NOUN | |
neonato | neonare | neonato | VERB | NOUN | |
Some lemma are in uppercase, is there any reason that explains it ?
Thank you!
Your Environment
- Python Version Used: 3.8
- spaCy Version Used: 3.4
The output for Spanish v3.2.0-v3.4.0 pipelines should be very similar, since those pipelines are using the same rule-based lemmatizer and relatively similar settings otherwise. Open a separate issue if there are additional problems for Spanish?
Thanks for the feedback about Italian, this is related to #10953, which also includes some additional Italian examples: https://github.com/explosion/spaCy/issues/10953#issuecomment-1201328111
For v3.3.0 we mainly switched lookup lemmatizers to the new trainable lemmatizer, but the trainable lemmatizer will make very different kinds of mistakes than the lookup lemmatizer, which boil down to the expectations for statistical components as described in #3052.
If you want to switch back to the v3.3 lookup lemmatizer: https://spacy.io/usage/v3-3#pipeline-updates, https://spacy.io/models#design-modify
Thank you for your response! I will switch back to the v3.3 lookup lemmatizer and I will open a new issue for the Spanish examples, I may also have some other examples for French.