openWordnet-PT
openWordnet-PT copied to clipboard
completando own-pt via listas de palavras
Estou abrindo esta issue para registrarmos as pendencias de processamento de corpus:
- https://softwarepublico.gov.br/social/articles/0003/1042/Dicion_rio_de_Libras_Listagem_v3.pdf
- http://hackingportuguese.com/sample-page/the-1000-most-common-nouns-in-portuguese/
Consegui extrair as palavras do primeiro link em um JSON. Mas antes de tentar comparar esta lista do Libras com a OWN-PT, comecei a fazer para termos uma idéia mas terminar fica como pendência:
- aparentemente palavras com hífen foram quebradas, isto precisa ser manualmente verificado no PDF e corrigido no arquivo JSON.
- Estou usando o http://aspell.net para corrigir a ortografia, acrescentando os acentos. Este exercício pode ser interessante para contribuirmos com o aspell em paralelo a checagem da lista. No site do aspell parece que tudo está meio parado. Em particular, estou trabalhando no Mac usando o aspell via Emacs, sendo o aspell instalado via macports. No macports, https://trac.macports.org/browser/trunk/dports/textproc/aspell-dict-pt_BR/Portfile, também parece que o dict PT_BR está sem ninguém mantendo.
Usei o aspell porque ele é um bom corretor, mas existem outros dicionários livres por ai que poderiamos tentar colaborar e pensar como usar:
https://addons.mozilla.org/en-US/firefox/language-tools/ https://pt-br.libreoffice.org/projetos/vero http://www.nilc.icmc.usp.br/nilc/projects/unitex-pb/web/dicionarios.html (vide abaixo)
Notem que contribuir com estes dicionários não é necessariamente trivial. Em geral além da lista de palavras eles usam arquivos com regras de afixos, logo o dicionário pode ser completado seja com adição de palavras ou regras de afixos.
Contribuir com estes dicionários também nos ajudaria a melhorar o dicionário de PT do FreeLing. Nos arquivos dicc.src e afixos.dat que segundo Garcia e Gamalo, veio do:
- LABEL-LEX (SW) (Eleuterio et al., 2003) e
- Muniz (2004) presented the DELAF PB6 lexicon, which contains 878, 651 forms from 61, 095 lemmas.
Outra questão é o que cada discionário contém. Os dicionários para serem úteis para o Freeling precisam ter a word form, lema e POS tag. Os demais dicionários acima, acho que apenas as palavras.
No zip anexo, preservei as versões anteriores do libras.json, com sufixo ~?~, para os interessados poderem comparar (diff) e ver o que mudei.
a ideia de investigar dicionarios mais completos pro Freeling me parece bem boa. principalmente se a gente quer (e eu quero muito!) fazer UDs pra portugues. mas o fato 'e que precisamos de um bom sistema de NER e de um bom pos-tagger, alem de um dependencies parser.
outra coisa a notar aqui 'e que esse dicionario do vLibras vem do repositorio de "open source" software do governo brasileiro https://softwarepublico.gov.br/ acho que a gente devia depositar o OWN-PT la' tambem.
Obrigada pelo arquivo .json acima. eu consegui transformar de maiusculas pra minusculas, mas ainda esta' faltando um bocado de cedilhas.
http://per-fide.di.uminho.pt/site.pl/resources.pt
shared by Hugo