MorphoBr
MorphoBr copied to clipboard
missing words
Trabalhando em https://github.com/UniversalDependencies/UD_Portuguese-PUD/issues/19/. Identifiquei os seguintes tokens sem form no MorphoBr. Alguns são erros no corpus, mas alguns são efetivas faltas no MorphoBr:
1 | 1.º/ADJ |
2 | 1º/ADJ |
1 | 31º/ADJ |
1 | 3º/ADJ |
1 | 45º/ADJ |
1 | 96º/ADJ |
1 | AIDS/NOUN |
1 | Antilhas/NOUN |
1 | B-29s/NOUN |
1 | Balcãs/NOUN |
1 | Caesarians/NOUN |
1 | Cifuentes/NOUN |
2 | DNA/NOUN |
1 | Dr./NOUN |
1 | F1/NOUN |
1 | Franco-Monegasco/ADJ |
1 | GIFs/NOUN |
1 | HFCs/NOUN |
1 | Hispânia/NOUN |
5 | III/ADJ |
2 | IV/ADJ |
1 | IX/ADJ |
1 | Imobliliário/ADJ |
1 | Indo-Australiana/ADJ |
1 | Jr/ADJ |
1 | Kven/NOUN |
1 | MLASs/NOUN |
1 | Meänkieli/NOUN |
2 | Nem/ADV |
1 | No./NOUN |
1 | Pilatos/NOUN |
1 | Rifte/NOUN |
1 | Rugby/NOUN |
1 | Saara/NOUN |
2 | Sami/NOUN |
1 | Seguranca/NOUN |
1 | Select/NOUN |
1 | Simple/NOUN |
5 | Sr./NOUN |
2 | Sr.ª/NOUN |
2 | Sra./NOUN |
1 | Super-heróis/NOUN |
3 | VIII/ADJ |
1 | Z./NOUN |
15 | a.C./NOUN |
1 | acessar/VERB |
1 | aconchegador/NOUN |
1 | all/NOUN |
1 | and/NOUN |
1 | anti-fascista/ADJ |
2 | app/NOUN |
1 | apunhalamento/NOUN |
1 | audiencia/NOUN |
1 | austro-prussiano/ADJ |
1 | auto-governadas/ADJ |
1 | auto-governados/VERB |
1 | bjórr/NOUN |
1 | blogueiros/NOUN |
1 | bullying/NOUN |
1 | chat/NOUN |
1 | chats/NOUN |
1 | co-escritas/VERB |
1 | contigente/NOUN |
1 | contruídos/VERB |
3 | coprotagonizado/VERB |
1 | coprotagonizou/VERB |
1 | crecidas/VERB |
1 | customizados/ADJ |
1 | cúlticos/ADJ |
1 | daqui/ADV |
1 | designers/NOUN |
1 | ditato/VERB |
1 | drones/NOUN |
1 | emoji/NOUN |
2 | ex-ministro/NOUN |
1 | extra-conjugal/ADJ |
1 | feed/NOUN |
1 | flocagem/NOUN |
1 | incomumente/ADV |
1 | linguado-areeiro/NOUN |
1 | looping/NOUN |
1 | maglev/NOUN |
1 | maiorum/NOUN |
1 | massebot/NOUN |
1 | megárica/ADJ |
1 | memes/NOUN |
1 | meteorítico/ADJ |
1 | mos/NOUN |
5 | nem/ADV |
1 | norte-sul/NOUN |
1 | offshore/ADJ |
1 | personificador/NOUN |
1 | pessoas.../NOUN |
1 | photo-offset/NOUN |
1 | pro-cônsul/NOUN |
1 | proxima/ADJ |
2 | pré-históricos/ADJ |
1 | pré-pagamento/NOUN |
1 | pró-Pequim/ADJ |
1 | pós-clássico/ADJ |
1 | recém-chegados/NOUN |
1 | recém-criada/ADJ |
1 | reinforçado/VERB |
1 | reinvindicar/VERB |
1 | seguidoresda/NOUN |
1 | sem-teto/ADJ |
3 | smartphone/NOUN |
1 | smartphones/NOUN |
1 | subdução/NOUN |
2 | sul-coreana/ADJ |
1 | superpoder/NOUN |
1 | taiga/NOUN |
1 | teratoma/NOUN |
1 | timings/NOUN |
8 | tudo/NOUN |
1 | voucher/NOUN |
1 | wi-fi/NOUN |
1 | yazidis/ADJ |
1 | yuk/NOUN |
Caesarians/NOUN= translation error should be cesarianos (I've changed the translation)
timings/NOUN not a word in PT?
seguidoresda/NOUN typo
photo-offset/NOUN not a word in PT
mos/NOUN word in Latin
maiorum/NOUN word in Latin
feed/NOUN not a word in PT
ditato/VERB typo => ditado
all/NOUN not a word in PT
and/NOUN not a word in PT
crecidas/VERB typo => crescida
bjórr/NOUN
Obrigado, o caso de pessoas.../NOUN
também erro de tokenização, vou tratar lá no PUD.