MorphoBr
MorphoBr copied to clipboard
experimento com corpus
reports sobre experimentos de cobertura do recurso com corpora: http://github.com/universaldependencies/UD_Portuguese-GSD e http://github.com/own-pt/bosque-UD.
Muitos problemas são relacionados a:
-
tokens partes de MWE. No bosque original (revisão a partir de análises do PALAVRAS, expressões MWE eram juntadas em um único token (ex:
em termos
). As guidelines de UD sugerem que estas expressões devem ser tratadas com tokens separados e existem relações de dependências específicas para estas MWE (fixed
). Quando o Bosque foi convertido para UD, tokens do tipoem_termos
foram desmembrados mas o tokentermos
ficou com lematermos
. -
Casos de nomes como em https://github.com/own-pt/UD_Portuguese-Bosque/blob/master/documents/CP8.conllu#L49-L54. Se entendermos que
Negócios Estrangeiros da Alemanha
é um nome/título , então os tokens individuais devem ser PROPN (nomes próprios)? Isto permitiria que os lemas fossem iguais as formas? Por outro lado, se entendermos que a decomposição do nome próprio em tokens individuais devem ter os nomes individuais tratados como nomes comuns, então o lema deNegócios
deve sernegócio
eEstrangeiros
deveria serestrangeiro
.
Estimo que boa parte dos problemas do relatório do @fcbr sobre o Bosque caiam nestes casos acima. O outro caso é:
-
Divergência de decisões sobre lematização: ótimo/bom, maior/grande, melhor/bom, superior/alto, pior/mau, mínimo/pequeno etc. Já vimos que diferentes dicionários adotam diferentes posições. Quando comparamos corpora vs dicionários, esta divergência também ocorre.
-
Particípio de verbos e tratamento inconsistente do corpus. Um token
agredito
estava com lemaagredir
nas Features tinhaVerbForm=Par
mas na POS tinhaNOUN
. Ou entendemos como um verbo corrigindo POS. Ou entendemos como um nome corrigindo Features e lema. No corpus fiz a segunda alternativa. Isto é um problema do corpus.
related to https://github.com/UniversalDependencies/UD_Portuguese-Bosque/issues/219
Em UniversalDependencies/UD_Portuguese-Bosque#219
Por favor, importante reportar aqui como vc gerou o relatório. Qual script vc rodou e como. Vc usou o esquema de unificação? Usou as features?
No relatório é importante ter a coluna POS e o ID do token também
Por favor, importante reportar aqui como vc gerou o relatório. Qual script vc rodou e como. Vc usou o esquema de unificação? Usou as features?
Código aqui, ainda não usei as features, assim que implementar essa parte aviso aqui.
Ah, então você não está usando o que tínhamos feito com a unificação de FST... Por isso os problemas com seu relatório...