rla-es
rla-es copied to clipboard
Gran colección de palabras
Tengo un diccionario de usuario de OpenOffice con más de 2500 palabras. Contiene palabras cotidianas, específicas de mis estudios, nombres de personas, de lugares, de autores, de personajes históricos y mitológicos... un poco de todo.
Lo podéis ver aquí: https://github.com/algoban/dict
Está todo desordenado, no me he puesto a clasificar cada palabra, pero si os gusta puedo empezar a trabajar con él para mejorarlo. No conozco mucho de git pero todo es ponerse.
Perdón si aún es un poco pronto, supongo que os estaréis aclimatando a la nueva plataforma, pero no he podido resistirme al enterarme del cambio. Un saludo.
No se si usas Linux o unix pero puedes usar algunas de las herramientas de bash para compararla con la lista actual y ver cuales son las que no estan incluidas y asi filtrarla.
¿Existe algún tipo de documentación al respecto? He clonado el repositorio git pero no sé qué archivos tengo que mirar. Veo uno llamado "es_ES.dic" pero cada palabra tiene una terminación de tipo "/S", "/G" que no sé qué significan.
¿Alguien podría instruirme un poco? ¿Un canal IRC, una sala Jabber, un email?
El archivo es_ES.dic es el resultado de "compilar" las listas de palabras (que están agrupadas debajo del directorio ortograf/palabras), y esas banderas o etiquetas que ves después de la barra inclinada hacen referencia a reglas de modificación que se utilizan para modificar la esa palabra raíz y que están definidas en el fichero de afijos (en ortograf/palabras/afijos/afijos.txt).
Esta forma de definir el diccionario está basada en el proyecto Hunspell, http://hunspell.sourceforge.net/, que es el motor de corrección ortográfica que usa LibreOffice, OpenOffice y Mozilla, además de varias distribuciones de Linux. En la página de Hunspell podrás encontrar más información para poder entender cómo funciona el sistema de palabras raíz y afijos, y cómo se definen las reglas.
Saludos,
Santiago
El 25 de julio de 2014, 9:06, aperalesf [email protected] escribió:
¿Existe algún tipo de documentación al respecto? He clonado el repositorio git pero no sé qué archivos tengo que mirar. Veo uno llamado "es_ES.dic" pero cada palabra tiene una terminación de tipo "/S", "/G" que no sé qué significan.
¿Alguien podría instruirme un poco? ¿Un canal IRC, una sala Jabber, un email?
— Reply to this email directly or view it on GitHub https://github.com/sbosio/rla-es/issues/11#issuecomment-50140400.
Realicé el filtrado de los lemas faltantes y agregué un directorio contrib/ con la lista de palabras. Avancé también en la revisión de los 150 primeros lemas. Las modificaciones las estoy realizando en el branch https://github.com/sbosio/rla-es/tree/issue_11, por si alguien quiere revisar el avance.
Cambio el milestone a Después.
Hay una cuestión en este issue: cuando publiquemos la versión 0.8, @Almorca va a recodificar los archivos del proyecto a UTF-8, lo que nos permitirá, entre otras cosas, utilizar la herramienta de Marco A. G. Pinto. Creo que eso puede afectar al desarrollo de este issue.
El archivo que se había añadido fue eliminado, pero sigue presente en el branch issue_11.
De todas maneras, propongo lo siguiente: primero, filtrar las palabras que siguen sin ser reconocidas (puede que con las ultimas actualizaciones se hayan agregado algunas); y por último, reducir la cantidad de palabras por issue entre 50 y 100 palabras. Se llevaría un mejor avance, notando un progreso en el mismo, que con un solo issue con más de 2000 palabras. Se podrían abrir issues separados y usar este para gestionar el avance del mismo o cerrarlo.
Creo q la mejor forma de aprovechar estas largas listas (y cualquier otro tipo de listas) serial ordenarlas por popularidad. Actualmente contamos con la lista q Cree de Wikipedia. Si existiera UN lematizador para la lengua castellana podria aprovechar aun mas ESA lista. Podria escribir UN script q ordene Las listas por popularidad con su respective porcentaje si Les parece q puede llegar a serles de utilidad
¡Nos sería de mucha ayuda! ¿Cuál sería fuente para medir la popularidad de las palabras?
Estoy de acuerdo con @ezeperez26 en que trabajar con una lista tan grande no es operativo y que algunas de las palabras pueden estar ya incluidas. Además, una vez empecemos con ella, no todas las palabras se van a añadir y, si no se hace rápido, hasta puede que antes de terminar algunas de ellas se hayan añadido por la RAE. En todo caso, esto no podemos tenerlo antes del 15 de julio, me temo.
¿Sabemos en qué estado está este issue? Lo tenemos asignado para la versión 2.5, pero si no está completo, propongo pasarlo al milestone Después y, tras publicar la versión 2.5, partir el issue en varios pequeños de no más de 50 palabras. Se puede ir haciendo en orden alfabético y crear solo los issues de cada letra, documentándolo aquí y cerrando este issue solo cuando hayamos llegado a la Z. Hay que tener en cuenta que es probable que haya palabras que ya se habrán añadido de otras formas.
Tenemos aún pendientes 1132 lemas :(
Entonces creo que lo mejor es hacer lo que decía en mi comentario anterior. Cambio el milestone a Después.
He tomado el fichero original, ya que el del branch tampoco existe ya, y he eliminado todas las entradas que no están marcadas como erróneas. Veo varios tipos de términos:
- Nombres propios. Algunos me parecen universales, otros no sé si tienen sentido fuera de la variante es-ES. Hay también nombres y apellidos famosos, como Quevedo o Góngora.
- Topónimos y algunos gentilicios, en general de España. Si se añaden, serían en es-ES.
- Términos de todo tipo de uso relativamente habitual, como amplísimo, competencial, conductual, distópico, dramatización...
- Términos de todo tipo con un uso mucho más limitado al ámbito de la filología y la lingüística. Algunos nos podrían interesar, como clítico, que lo usamos en nuestro propio Changelog.txt a menudo. :)
- Extranjerismos ("flashback"), nombres propios extranjeros y clásicos (Freud, Aristófanes).
- Términos erróneos (lo que significa que hay que revisar bien lo que se añade).
- Formas conjugadas de verbos habituales, que se deberían arreglar con correcciones en los afijos existentes o creando nuevos.
He guardado el documento como de LibreOffice, con una o más páginas por letra (distinguiendo las mayúsculas de las minúsculas, simplemente porque así estaba ordenado el original) y me salen 60 páginas, algunas muy cortas y otras no tanto. Para poder terminar de una vez con esto, yo sugiero crear un issue para la suma de las colecciones más cortas y luego otro issue separado por letra, posiblemente incluso separando mayúsculas de minúsculas. Pero la idea sería que todos ellos se atendieran con preferencia. ¿Cómo lo veis?
@RickieES si me das instrucciones concretas (pero no de codificación de afijos, que se me queda grande) te hago las tareas que me digas. En general cualquier operación de filtrado u organización de palabras que pueda resolverse en la línea de órdenes.