openWordnet-PT icon indicating copy to clipboard operation
openWordnet-PT copied to clipboard

completando own-pt via listas de palavras

Open fcbr opened this issue 9 years ago • 5 comments

Estou abrindo esta issue para registrarmos as pendencias de processamento de corpus:

  • https://softwarepublico.gov.br/social/articles/0003/1042/Dicion_rio_de_Libras_Listagem_v3.pdf
  • http://hackingportuguese.com/sample-page/the-1000-most-common-nouns-in-portuguese/

fcbr avatar Dec 23 '15 15:12 fcbr

Consegui extrair as palavras do primeiro link em um JSON. Mas antes de tentar comparar esta lista do Libras com a OWN-PT, comecei a fazer para termos uma idéia mas terminar fica como pendência:

  1. aparentemente palavras com hífen foram quebradas, isto precisa ser manualmente verificado no PDF e corrigido no arquivo JSON.
  2. Estou usando o http://aspell.net para corrigir a ortografia, acrescentando os acentos. Este exercício pode ser interessante para contribuirmos com o aspell em paralelo a checagem da lista. No site do aspell parece que tudo está meio parado. Em particular, estou trabalhando no Mac usando o aspell via Emacs, sendo o aspell instalado via macports. No macports, https://trac.macports.org/browser/trunk/dports/textproc/aspell-dict-pt_BR/Portfile, também parece que o dict PT_BR está sem ninguém mantendo.

Usei o aspell porque ele é um bom corretor, mas existem outros dicionários livres por ai que poderiamos tentar colaborar e pensar como usar:

https://addons.mozilla.org/en-US/firefox/language-tools/ https://pt-br.libreoffice.org/projetos/vero http://www.nilc.icmc.usp.br/nilc/projects/unitex-pb/web/dicionarios.html (vide abaixo)

Notem que contribuir com estes dicionários não é necessariamente trivial. Em geral além da lista de palavras eles usam arquivos com regras de afixos, logo o dicionário pode ser completado seja com adição de palavras ou regras de afixos.

Contribuir com estes dicionários também nos ajudaria a melhorar o dicionário de PT do FreeLing. Nos arquivos dicc.src e afixos.dat que segundo Garcia e Gamalo, veio do:

  1. LABEL-LEX (SW) (Eleuterio et al., 2003) e
  2. Muniz (2004) presented the DELAF PB6 lexicon, which contains 878, 651 forms from 61, 095 lemmas.

Outra questão é o que cada discionário contém. Os dicionários para serem úteis para o Freeling precisam ter a word form, lema e POS tag. Os demais dicionários acima, acho que apenas as palavras.

No zip anexo, preservei as versões anteriores do libras.json, com sufixo ~?~, para os interessados poderem comparar (diff) e ver o que mudei.

libras.zip

arademaker avatar Dec 23 '15 17:12 arademaker

a ideia de investigar dicionarios mais completos pro Freeling me parece bem boa. principalmente se a gente quer (e eu quero muito!) fazer UDs pra portugues. mas o fato 'e que precisamos de um bom sistema de NER e de um bom pos-tagger, alem de um dependencies parser.

vcvpaiva avatar Jan 19 '16 03:01 vcvpaiva

outra coisa a notar aqui 'e que esse dicionario do vLibras vem do repositorio de "open source" software do governo brasileiro https://softwarepublico.gov.br/ acho que a gente devia depositar o OWN-PT la' tambem.

vcvpaiva avatar Jan 31 '16 20:01 vcvpaiva

Obrigada pelo arquivo .json acima. eu consegui transformar de maiusculas pra minusculas, mas ainda esta' faltando um bocado de cedilhas.

vcvpaiva avatar Feb 01 '16 23:02 vcvpaiva

http://per-fide.di.uminho.pt/site.pl/resources.pt

shared by Hugo

arademaker avatar Mar 22 '19 18:03 arademaker