MorphoBr icon indicating copy to clipboard operation
MorphoBr copied to clipboard

should we preserve old orthography forms?

Open leoalenc opened this issue 3 years ago • 3 comments

@arademaker, como ressaltei em issue anterior (#92), existem muitas formas duplas por conta da inclusão de formas da ortografia de antes do Acordo Ortográfico da Língua Portuguesa de 1990 (doravante AOP), em vigor desde 2009 no Brasil e em Portugal. São, por exemplo, formas com ü, abolido de todo pelo AOP, e terminadas em éia(s), substituídas pelas formas com eia(s). Devemos preservar as formas antigas? Inclino-me, salvo melhor juízo, a eliminá-las, pois se alguém quiser utilizar o recurso para processar textos mais antigos, deveria realizar a normalização das formas seguindo o AOP. O português sofreu diversas reformas ortográficas ao longo do tempo, manter as formas do período imediatamente anterior ao AOP não ajudaria o processamento de formas de períodos mais antigos. Essa eliminação de formas, porém, pode não ser tão trivial, pois parece haver casos menos óbvios que os mencionados acima.

leoalenc avatar Jun 01 '21 13:06 leoalenc

Uma discussão acredito parecida foi iniciada no Bosque https://github.com/UniversalDependencies/UD_Portuguese-Bosque/issues/306, mais voltada ao Portugal, acredito que seria interessante mencionar aqui.

wellington36 avatar Jun 01 '21 14:06 wellington36

Discordo @leoalenc ! O problema e' generico: temos o mesmo no OWN-PT, nos treebanks, em todos os lugares. acho que e' melhor termos as duas formas. os portugueses ja' nao mudaram a grafia deles ha' mais de dez anos. so' vai complicar a nossa vida, pra nenhum beneficio tangivel.

vcvpaiva avatar Jun 01 '21 14:06 vcvpaiva

Seria bom tentarmos fazer um script para capturar as listas de http://www.portaldalinguaportuguesa.org/?action=novoacordo e comprar com o MorphoBr? Talvez conseguir identificar possiveis inconsistencias e talvez decidir se queremos marcar as formas antigas de alguma forma? Ou separa-las em arquivos diferentes?

arademaker avatar Jun 17 '21 17:06 arademaker