MorphoBr
MorphoBr copied to clipboard
should we preserve old orthography forms?
@arademaker, como ressaltei em issue anterior (#92), existem muitas formas duplas por conta da inclusão de formas da ortografia de antes do Acordo Ortográfico da Língua Portuguesa de 1990 (doravante AOP), em vigor desde 2009 no Brasil e em Portugal. São, por exemplo, formas com ü, abolido de todo pelo AOP, e terminadas em éia(s), substituídas pelas formas com eia(s). Devemos preservar as formas antigas? Inclino-me, salvo melhor juízo, a eliminá-las, pois se alguém quiser utilizar o recurso para processar textos mais antigos, deveria realizar a normalização das formas seguindo o AOP. O português sofreu diversas reformas ortográficas ao longo do tempo, manter as formas do período imediatamente anterior ao AOP não ajudaria o processamento de formas de períodos mais antigos. Essa eliminação de formas, porém, pode não ser tão trivial, pois parece haver casos menos óbvios que os mencionados acima.
Uma discussão acredito parecida foi iniciada no Bosque https://github.com/UniversalDependencies/UD_Portuguese-Bosque/issues/306, mais voltada ao Portugal, acredito que seria interessante mencionar aqui.
Discordo @leoalenc ! O problema e' generico: temos o mesmo no OWN-PT, nos treebanks, em todos os lugares. acho que e' melhor termos as duas formas. os portugueses ja' nao mudaram a grafia deles ha' mais de dez anos. so' vai complicar a nossa vida, pra nenhum beneficio tangivel.
Seria bom tentarmos fazer um script para capturar as listas de http://www.portaldalinguaportuguesa.org/?action=novoacordo e comprar com o MorphoBr? Talvez conseguir identificar possiveis inconsistencias e talvez decidir se queremos marcar as formas antigas de alguma forma? Ou separa-las em arquivos diferentes?