rla-es icon indicating copy to clipboard operation
rla-es copied to clipboard

Gran colección de palabras

Open ghost opened this issue 10 years ago • 14 comments

Tengo un diccionario de usuario de OpenOffice con más de 2500 palabras. Contiene palabras cotidianas, específicas de mis estudios, nombres de personas, de lugares, de autores, de personajes históricos y mitológicos... un poco de todo.

Lo podéis ver aquí: https://github.com/algoban/dict

Está todo desordenado, no me he puesto a clasificar cada palabra, pero si os gusta puedo empezar a trabajar con él para mejorarlo. No conozco mucho de git pero todo es ponerse.

Perdón si aún es un poco pronto, supongo que os estaréis aclimatando a la nueva plataforma, pero no he podido resistirme al enterarme del cambio. Un saludo.

ghost avatar Jul 23 '14 23:07 ghost

No se si usas Linux o unix pero puedes usar algunas de las herramientas de bash para compararla con la lista actual y ver cuales son las que no estan incluidas y asi filtrarla.

Jzarecta avatar Jul 24 '14 04:07 Jzarecta

¿Existe algún tipo de documentación al respecto? He clonado el repositorio git pero no sé qué archivos tengo que mirar. Veo uno llamado "es_ES.dic" pero cada palabra tiene una terminación de tipo "/S", "/G" que no sé qué significan.

¿Alguien podría instruirme un poco? ¿Un canal IRC, una sala Jabber, un email?

ghost avatar Jul 25 '14 12:07 ghost

El archivo es_ES.dic es el resultado de "compilar" las listas de palabras (que están agrupadas debajo del directorio ortograf/palabras), y esas banderas o etiquetas que ves después de la barra inclinada hacen referencia a reglas de modificación que se utilizan para modificar la esa palabra raíz y que están definidas en el fichero de afijos (en ortograf/palabras/afijos/afijos.txt).

Esta forma de definir el diccionario está basada en el proyecto Hunspell, http://hunspell.sourceforge.net/, que es el motor de corrección ortográfica que usa LibreOffice, OpenOffice y Mozilla, además de varias distribuciones de Linux. En la página de Hunspell podrás encontrar más información para poder entender cómo funciona el sistema de palabras raíz y afijos, y cómo se definen las reglas.

Saludos,

Santiago

El 25 de julio de 2014, 9:06, aperalesf [email protected] escribió:

¿Existe algún tipo de documentación al respecto? He clonado el repositorio git pero no sé qué archivos tengo que mirar. Veo uno llamado "es_ES.dic" pero cada palabra tiene una terminación de tipo "/S", "/G" que no sé qué significan.

¿Alguien podría instruirme un poco? ¿Un canal IRC, una sala Jabber, un email?

— Reply to this email directly or view it on GitHub https://github.com/sbosio/rla-es/issues/11#issuecomment-50140400.

sbosio avatar Jul 25 '14 13:07 sbosio

Realicé el filtrado de los lemas faltantes y agregué un directorio contrib/ con la lista de palabras. Avancé también en la revisión de los 150 primeros lemas. Las modificaciones las estoy realizando en el branch https://github.com/sbosio/rla-es/tree/issue_11, por si alguien quiere revisar el avance.

sbosio avatar Aug 16 '14 21:08 sbosio

Cambio el milestone a Después.

Hay una cuestión en este issue: cuando publiquemos la versión 0.8, @Almorca va a recodificar los archivos del proyecto a UTF-8, lo que nos permitirá, entre otras cosas, utilizar la herramienta de Marco A. G. Pinto. Creo que eso puede afectar al desarrollo de este issue.

RickieES avatar Mar 08 '15 20:03 RickieES

El archivo que se había añadido fue eliminado, pero sigue presente en el branch issue_11.

De todas maneras, propongo lo siguiente: primero, filtrar las palabras que siguen sin ser reconocidas (puede que con las ultimas actualizaciones se hayan agregado algunas); y por último, reducir la cantidad de palabras por issue entre 50 y 100 palabras. Se llevaría un mejor avance, notando un progreso en el mismo, que con un solo issue con más de 2000 palabras. Se podrían abrir issues separados y usar este para gestionar el avance del mismo o cerrarlo.

edittler avatar Mar 27 '16 01:03 edittler

Creo q la mejor forma de aprovechar estas largas listas (y cualquier otro tipo de listas) serial ordenarlas por popularidad. Actualmente contamos con la lista q Cree de Wikipedia. Si existiera UN lematizador para la lengua castellana podria aprovechar aun mas ESA lista. Podria escribir UN script q ordene Las listas por popularidad con su respective porcentaje si Les parece q puede llegar a serles de utilidad

eksperimental avatar Apr 02 '16 03:04 eksperimental

¡Nos sería de mucha ayuda! ¿Cuál sería fuente para medir la popularidad de las palabras?

edittler avatar Apr 02 '16 13:04 edittler

Estoy de acuerdo con @ezeperez26 en que trabajar con una lista tan grande no es operativo y que algunas de las palabras pueden estar ya incluidas. Además, una vez empecemos con ella, no todas las palabras se van a añadir y, si no se hace rápido, hasta puede que antes de terminar algunas de ellas se hayan añadido por la RAE. En todo caso, esto no podemos tenerlo antes del 15 de julio, me temo.

RickieES avatar Jul 02 '16 21:07 RickieES

¿Sabemos en qué estado está este issue? Lo tenemos asignado para la versión 2.5, pero si no está completo, propongo pasarlo al milestone Después y, tras publicar la versión 2.5, partir el issue en varios pequeños de no más de 50 palabras. Se puede ir haciendo en orden alfabético y crear solo los issues de cada letra, documentándolo aquí y cerrando este issue solo cuando hayamos llegado a la Z. Hay que tener en cuenta que es probable que haya palabras que ya se habrán añadido de otras formas.

RickieES avatar Sep 03 '19 18:09 RickieES

Tenemos aún pendientes 1132 lemas :(

cosmoscalibur avatar Sep 07 '19 03:09 cosmoscalibur

Entonces creo que lo mejor es hacer lo que decía en mi comentario anterior. Cambio el milestone a Después.

RickieES avatar Sep 07 '19 18:09 RickieES

He tomado el fichero original, ya que el del branch tampoco existe ya, y he eliminado todas las entradas que no están marcadas como erróneas. Veo varios tipos de términos:

  • Nombres propios. Algunos me parecen universales, otros no sé si tienen sentido fuera de la variante es-ES. Hay también nombres y apellidos famosos, como Quevedo o Góngora.
  • Topónimos y algunos gentilicios, en general de España. Si se añaden, serían en es-ES.
  • Términos de todo tipo de uso relativamente habitual, como amplísimo, competencial, conductual, distópico, dramatización...
  • Términos de todo tipo con un uso mucho más limitado al ámbito de la filología y la lingüística. Algunos nos podrían interesar, como clítico, que lo usamos en nuestro propio Changelog.txt a menudo. :)
  • Extranjerismos ("flashback"), nombres propios extranjeros y clásicos (Freud, Aristófanes).
  • Términos erróneos (lo que significa que hay que revisar bien lo que se añade).
  • Formas conjugadas de verbos habituales, que se deberían arreglar con correcciones en los afijos existentes o creando nuevos.

He guardado el documento como de LibreOffice, con una o más páginas por letra (distinguiendo las mayúsculas de las minúsculas, simplemente porque así estaba ordenado el original) y me salen 60 páginas, algunas muy cortas y otras no tanto. Para poder terminar de una vez con esto, yo sugiero crear un issue para la suma de las colecciones más cortas y luego otro issue separado por letra, posiblemente incluso separando mayúsculas de minúsculas. Pero la idea sería que todos ellos se atendieran con preferencia. ¿Cómo lo veis?

RickieES avatar Jan 03 '23 22:01 RickieES

@RickieES si me das instrucciones concretas (pero no de codificación de afijos, que se me queda grande) te hago las tareas que me digas. En general cualquier operación de filtrado u organización de palabras que pueda resolverse en la línea de órdenes.

olea avatar Aug 16 '23 10:08 olea