Alexandre Rademaker
Alexandre Rademaker
@wellington36, o problema de fazer queries muito específicas focando apenas no problema 'sem PronType' é que não prestamos atenção aos outros casos do corpus e podemos introduzir mais inconsistência. Veja...
Seria bom se @leoalenc pudesse dar uma olhada em algumas destas queries. Eu corrigi 1-2 apenas para termos como sugestão de análise. Quase todas estas inconsistências ocorreram por conta de...
``` ─┮ │ ╭───────────────────────────────────┮ Um NUM nsubj 1 7 │ │ │ ╭─╼ , PUNCT punct 2 4 │ │ │ ├─╼ o DET det 3 4 │ │ ├─┾...
A consulta acima busca por CCONJ começando sentenças, acho que poderíamos ter uma outra busca por CCONJ cujo pai seja um nó que não tem pai com relação `conj`. Esta...
O que me incomoda são estas inconsistências @leoalenc ``` % awk '$0 ~ /^[0-9]/ && $4 ~ /ADP|SCONJ/ {print $2,$3,$4,$8}' *.conllu | sort | uniq -c | sort -nr 16163...
alguns outros casos de números de telefone anotados de forma errada, casos de `(NNN)` como ADP. Corrigi em 1f7d196f0 usando analise de exemplos em https://universaldependencies.org/u/dep/appos.html.
@leoalenc o que vc acha, eu até gosto da idéia de separar etc = et cetera e et/CCONJ com `cc` para cetera/NOUN e este conj para o primeiro elemento da...
Bom, não separar significa termos que encontrar uma upostag adequada e deprel, veja discussão https://github.com/UniversalDependencies/docs/issues/820, opção por X talvez? Não vejo como ADV e acho estranho CCONJ.
41 casos para corrigir?
também temos alguns casos de anotação incompleta da passiva, nestes casos falta a feature de `Voice=Pass` http://match.grew.fr/?corpus=UD_Portuguese-Bosque@dev&custom=616f472dee493 Vide comentário do @leoalenc em https://github.com/LR-POR/PorGram/issues/19#issuecomment-946760413