openWordnet-PT
openWordnet-PT copied to clipboard
Semantically Tagged glosses
http://wordnet.princeton.edu/glosstag.shtml
- incorporar as glosas anotadas na interface e nos dados RDF (com links para respectivos synsets nas glosas).
- investigar possiveis projeções destas anotações nas glosas EN para as respectivas glosas em PT.
A implementação teria que ser robusta à revisão do texto das glosas em PT. Isto é, a interface deveria ter que mudar para permitir escrever glosas com anotações de WSD ao invés de simples texto. Novo issue para a interface também.
Possivelmente, durante este trabalho, temos que pensar na separação dos exemplos das glosas.
Alexandre acho que voce precisa detalhar un tanto. Sabemos que as glosas em ingles sao disambiguadas em relacao a propria PWN, portanto o corpus de glosas tem informacoes extras de que synsets sao referidos nessas glosas. Se aceitarmos como razoavelmente boas as glosas traduzidas pelo Alberto e/ou as vindas da traducao automatica via watson, entao temos um corpus disambiguado em relacao a OWN-PT. A minha sugestao era de considerarmos primeiro as glosas que fossem iguais nas duas traducoes automaticas. Sim, existem muitas glosas que sao ruins nas duas traducoes, mas as chances sao melhores quando as duas concordam.
Anyways, here's another small, easy project to compute, write and send, perhaps to Alberto's workshop http://slate-conf.org/2016/cfp pra ele mesmo apresentar.
ideia: as glosas que ele produziu pra gente nao sao perfeitas, mas sao MUITO boas. a gente deve aceita-las em batch, depois de fazer dois pequenos experimentos.
A. o corpos de PWN glosses existe com sense disambiguation em http://wordnet.princeton.edu/glosstag.shtml B. Alberto fez uma traducao automatica usando a API do Mymemory. C. A gente devia fazer uma traducao automatica usando a API do Watson (que o Fabricio ja instalou) e comparar. quem esta' na intersecao tem mais chances de estar correto. (o Fabricio ja' fez)
Perguntas: qual 'e a proporcao de glosas na intersecao? podemos usar um corretor gramatical pra consertar femininos e plurais errados? acho que sim.
-
depois pegamos 300 glosas ao acaso e verificamos manualmente e dizemos que essa 'e a nossa precisao. o recall 'e 100% pois temos glosa pra todo mundo.
-
com esses passos construimos tanto um corpus paralelo en/pt, como um corpus em pt disambiguado contra OWN-PT, o que a Livy queria antes. nao 'e um bom corpus, pois a maioria das glosas nao sao sentencas verdadeiras, sao pedacos de sentencas, mas pode ser que seja suficiente pra "seed" de machine learning pois deve ser da ordem de 50k glosas.(?) disse isso pois nao temos traducoes pra todos os synsets, mastemos sim glosas pra todos, dai que o corpus 'e mais do tipo 120K.
Outras perguntas: temos tipo quantas mil glosas manualmente corrigidas? 6 mil? acho que um paper com 1, 2 e 3 acima ja nos dao um uma coisa pequena, mas bem redondinha, um short paper pra ACL, deadline soon.
glossas poderiam ser revistas se pudéssemos explorar algum destes alinhamentos entre traduções PT e EN
- https://github.com/neulab/awesome-align
- https://github.com/robertostling/eflomal