MorphoBr icon indicating copy to clipboard operation
MorphoBr copied to clipboard

experimento com corpus

Open arademaker opened this issue 6 years ago • 7 comments

reports sobre experimentos de cobertura do recurso com corpora: http://github.com/universaldependencies/UD_Portuguese-GSD e http://github.com/own-pt/bosque-UD.

arademaker avatar Apr 18 '18 17:04 arademaker

Muitos problemas são relacionados a:

  1. tokens partes de MWE. No bosque original (revisão a partir de análises do PALAVRAS, expressões MWE eram juntadas em um único token (ex: em termos). As guidelines de UD sugerem que estas expressões devem ser tratadas com tokens separados e existem relações de dependências específicas para estas MWE (fixed). Quando o Bosque foi convertido para UD, tokens do tipo em_termos foram desmembrados mas o token termos ficou com lema termos.

  2. Casos de nomes como em https://github.com/own-pt/UD_Portuguese-Bosque/blob/master/documents/CP8.conllu#L49-L54. Se entendermos que Negócios Estrangeiros da Alemanha é um nome/título , então os tokens individuais devem ser PROPN (nomes próprios)? Isto permitiria que os lemas fossem iguais as formas? Por outro lado, se entendermos que a decomposição do nome próprio em tokens individuais devem ter os nomes individuais tratados como nomes comuns, então o lema de Negócios deve ser negócio e Estrangeiros deveria ser estrangeiro.

Estimo que boa parte dos problemas do relatório do @fcbr sobre o Bosque caiam nestes casos acima. O outro caso é:

  1. Divergência de decisões sobre lematização: ótimo/bom, maior/grande, melhor/bom, superior/alto, pior/mau, mínimo/pequeno etc. Já vimos que diferentes dicionários adotam diferentes posições. Quando comparamos corpora vs dicionários, esta divergência também ocorre.

  2. Particípio de verbos e tratamento inconsistente do corpus. Um token agredito estava com lema agredir nas Features tinha VerbForm=Par mas na POS tinha NOUN. Ou entendemos como um verbo corrigindo POS. Ou entendemos como um nome corrigindo Features e lema. No corpus fiz a segunda alternativa. Isto é um problema do corpus.

arademaker avatar Apr 18 '18 18:04 arademaker

related to https://github.com/UniversalDependencies/UD_Portuguese-Bosque/issues/219

arademaker avatar Oct 20 '21 17:10 arademaker

Em UniversalDependencies/UD_Portuguese-Bosque#219

analununes avatar Oct 21 '21 22:10 analununes

Por favor, importante reportar aqui como vc gerou o relatório. Qual script vc rodou e como. Vc usou o esquema de unificação? Usou as features?

arademaker avatar Oct 21 '21 22:10 arademaker

No relatório é importante ter a coluna POS e o ID do token também

arademaker avatar Oct 21 '21 22:10 arademaker

Por favor, importante reportar aqui como vc gerou o relatório. Qual script vc rodou e como. Vc usou o esquema de unificação? Usou as features?

Código aqui, ainda não usei as features, assim que implementar essa parte aviso aqui.

analununes avatar Oct 21 '21 23:10 analununes

Ah, então você não está usando o que tínhamos feito com a unificação de FST... Por isso os problemas com seu relatório...

arademaker avatar Oct 22 '21 02:10 arademaker