MorphoBr
MorphoBr copied to clipboard
novos lemas verbais do dhbb
@lucasrct , pode apontar aqui para script e listas que vc produziu de possíveis verbos faltando no MorphoBr?
Eu não produzi uma lista específica dos possíveis verbos que não constam no MorphoBr, os que encontrei, foi olhando mesmo.... teve o "zerar" que de fato não existe no morphoBr e o "freqüentar" (com trema) que existe no morphoBr mas sem a trema, então não está de fato faltando.
Bem, não temos zerar
e freqüentar
no MorphoBr, isto é fato.
O que Lucas fez foi rodar https://github.com/cpdoc/dhbb-nlp/blob/master/udp/not_in_morpho.sh e obter esta lista https://github.com/cpdoc/dhbb-nlp/blob/master/udp/verbs.not_in_morpho!
Mas UDPipe comete errors como
# text = Batiam-se pelo intervencionismo governamental nos assuntos econômicos, com ênfase nas questões financeiras e nos problemas suscitados pela crescente importância dos transportes ferroviários.
1-2 Batiam-se _ _ _ _ _ _ _ _
1 Batiam Batir VERB _ Mood=Ind|Number=Plur|Person=3|Tense=Imp|VerbForm=Fin 0 root ...
Ou seja, ele errou o lema de Batiam
e ao invés de bater
lematizou para batir
. Note @lucasrct que tirei o seu downcase do script, não lematizar para minusculas é outro erro de UDPipe e não queremos mascarar né?
OK. Melhorei um pouco o script do comentário acima. Gerei dois arquivos, um que os dados dhbb de verbos são comparados por lemma com o morphobr, e outro onde são comparados por forma flexionada.
- https://github.com/cpdoc/dhbb-nlp/blob/master/udp/verbs-missing-by-form.tsv
- https://github.com/cpdoc/dhbb-nlp/blob/master/udp/verbs-missing-by-lemma.tsv
hmm, nao entendi o que aconteceu com downcasing do script. porque de 9.3K casos em https://github.com/cpdoc/dhbb-nlp/blob/master/udp/verbs-missing-by-lemma.tsv quase 2K (1870) sao de verbos que estao uppercase ne?
Correto, erros de lemmatização do UDPipe, por isso o by-form
.
erros de lemmatização do UDPipe, por isso o by-form
mas isso nao ajuda, nao e'? o que a gente quer (eu suponho) e' descobrir lemas que realmente estao faltando no Morpho. exemplos como "frequentar" com trema sao faceis de corrigir (vc pode simplesmente grep os verbos com "qu" e adicionar a forma com trema (que acho agora esta' errada, ms estava correta ate o ultimo acordo BR-PT). o que 'e interessante 'e descobrir exemplos como "zerar" que esta' no wiktionary (https://en.wiktionary.org/wiki/zerar) e tb no OWN-PT http://wn.mybluemix.net/synset?id=00297507-v