rla-es icon indicating copy to clipboard operation
rla-es copied to clipboard

Propuestas para el diccionario gramatical

Open Almorca opened this issue 8 years ago • 7 comments

No me acuerdo si tenemos algo hecho con relación a un diccionario gramatical pero inicio este hilo con 2 propuestas para el mismo.

si mismo → sí mismo (tilde en la i) ¿porque → ¿Por qué

Probablemente este sea un bug a resolver a largo plazo pero lo dejo por aquí escrito por si alguien quiere ir mirándolo.

Almorca avatar Mar 27 '16 10:03 Almorca

si mismo → sí mismo (tilde en la i) ¿porque → ¿Por qué

Igual esas son cosas que se pueden añadir al archivo de corrección automática (por ejemplo, este cambio).

fitojb avatar Apr 04 '16 08:04 fitojb

Actualmente no hay en desarrollo un corrector gramatical. De hecho, recuerdo haber leído en algún lado que es uno de los objetivos de RLA desarrollar uno.

No estoy seguro si es correcto agregar esos reemplazos en el autocorrector, creo que esa herramienta está más enfocada a corrección de errores de ortográficos de palabras (generalmente errores de tipeo), no de sentencias (gramática). En los casos que plantea @Almorca las palabras no tienen errores ortográficos, pero gramaticalmente no son correctas. Por cierto, el corrector automático tampoco está desarrollado por RLA.

edittler avatar Apr 04 '16 12:04 edittler

No sé por qué no es correcto añadir patrones gramaticales a los archivos de corrección automática. En todo caso, los que añadí a LibreOffice por convicción propia ya estaban incluidos en el componente equivalente de Word 2013. Sé que dichos archivos no tienen nada que ver con RLA, pero tan solo los mencioné como una opción alternativa —si quieres, una stopgap measure, una medida provisional— para proporcionar a los usuarios esta funcionalidad en lo que se desarrolla un componente especializado para la tarea.

Otra cosa que me viene a la mente ahora es LanguageTool. ¿No sería mejor contribuir a la mejora de ese proyecto en lugar de «reinventar la rueda», como se dice popularmente?

Son solo ideas —malas, probablemente— de alguien que no sabe programar. Saludos :smiley:

fitojb avatar Apr 05 '16 19:04 fitojb

A costa de desviar más el tema del issue, quiero comentar que todas ideas son bienvenidas, y el hecho de que no sepas programas es positivo también, ya que nos otorgas un punto de vista diferente de las cosas.

No conocía LanguageTool, por lo que veo es una GUI de corrector ortográfico y gramatical. No sé de donde tomarán los diccionarios y reglas gramaticales, pero ya que es Código Abierto, podríamos colaborar. En cuanto tenga un tiempo libre, me contactaré con ellos.

Como nos hemos desviado del tema principal del issue, @fitojb cualquier duda o sugerencia que tengas, puedes crear un nuevo issue y lo seguimos discutiendo allí :wink:.

edittler avatar Apr 06 '16 04:04 edittler

LanguageTool utiliza el mismo diccionario nuestro para la corrección ortográfica, pero requiere una conversión previa al formato Morfologik, ya que no utiliza más Hunspell para la corrección ortográfica por razones de velocidad. El problema es que actualmente el diccionario de español que tiene integrado es únicamente el es_ES, pero en versión 0.2 (una de las versiones más antiguas). Habría que estudiar el proceso de conversión del formato para actualizar el diccionario a la última versión disponible. También sería interesante ver cómo se pueden generar diccionarios para las distintas variantes regionales del español, o si no es posible, ver de cambiar el es_ES por el es_ANY que es más abarcativo.

El 6 de abril de 2016, 1:05, Ezequiel [email protected] escribió:

A costa de desviar más el tema del issue, quiero comentar que todas ideas son bienvenidas, y el hecho de que no sepas programas es positivo también, ya que nos otorgas un punto de vista diferente de las cosas.

No conocía LanguageTool, por lo que veo es una GUI de corrector ortográfico y gramatical. No sé de donde tomarán los diccionarios y reglas gramaticales, pero ya que es Código Abierto, podríamos colaborar. En cuanto tenga un tiempo libre, me contactaré con ellos.

Como nos hemos desviado del tema principal del issue, @fitojb https://github.com/fitojb cualquier duda o sugerencia que tengas, puedes crear un nuevo issue y lo seguimos discutiendo allí [image: :wink:].

— You are receiving this because you are subscribed to this thread. Reply to this email directly or view it on GitHub https://github.com/sbosio/rla-es/issues/78#issuecomment-206110005

sbosio avatar Apr 06 '16 09:04 sbosio

Reavivo esta discusión dado que poco a poco me he informado sobre las características de hunspell. ¿Realmente se piensa llegar a este proyecto en algún momento? Mi pregunta va orientada a que sería necesario empezar a revisar las marcas especiales del analizador morfológico de hunspell para ser añadidas en los lemarios (y los lemas nuevos tener como requisito su inclusión con estas marcas). De otra forma, la conversión al formato de LT no sería de gran utilidad ya que la diferenciación que hay actualmente basada en las categorías más gruesas no es suficiente para lo requerido en LT.

cosmoscalibur avatar Sep 12 '17 15:09 cosmoscalibur

La idea inicial era poder generar la información para el etiquetado POS de acuerdo con la categoría gramatical donde se ubica el lema al "compilar" el diccionario, y añadir la información sobre cómo las reglas de afijos modifican esa categoría en el fichero de afijos.

Actualmente no hay nadie trabajando en eso. Y es casi un proyecto en sí mismo.

Es cierto lo que comentas sobre que únicamente quedarían los lemas separados en grandes categorías y faltaría especificar mejor cada uno en muchos casos que lo requieren, pero podría añadirse la información únicamente a los lemas que requieran un tratamiento especial, y si no especifican nada, se usa la etiqueta genérica asociada al fichero donde se encuentra alojado el lema. Por ejemplo, en el caso de los sustantivos. Por ejemplo, en el caso de los adjetivos, podrían etiquetarse automáticamente todos como calificativos (que son la mayoría), y únicamente ingresar la información específica para los numerales y gentilicios.

El 12 de septiembre de 2017, 12:24, Edward Yesid Villegas Pulgarin < [email protected]> escribió:

Reavivo esta discusión dado que poco a poco me he informado sobre las características de hunspell. ¿Realmente se piensa llegar a este proyecto en algún momento? Mi pregunta va orientada a que sería necesario empezar a revisar las marcas especiales del analizador morfológico de hunspell para ser añadidas en los lemarios (y los lemas nuevos tener como requisito su inclusión con estas marcas). De otra forma, la conversión al formato de LT no sería de gran utilidad ya que la diferenciación que hay actualmente basada en las categorías más gruesas no es suficiente para lo requerido en LT.

— You are receiving this because you commented. Reply to this email directly, view it on GitHub https://github.com/sbosio/rla-es/issues/78#issuecomment-328883177, or mute the thread https://github.com/notifications/unsubscribe-auth/ABO0GMjkdcz11yqX-7BhwuKeK95Y8xsQks5shqIlgaJpZM4H5b1N .

sbosio avatar Sep 12 '17 17:09 sbosio