diccionario-espanol-txt icon indicating copy to clipboard operation
diccionario-espanol-txt copied to clipboard

Corrección de orden alfabético (Ñ y N)

Open marthellius opened this issue 6 months ago • 1 comments

En el archivo 0_palabras_todas_no_conjugaciones.txt las palabras que comienzan con Ñ aparecen en orden incorrecto, intercaladas con las palabras que comienzan con N (como si las eñes fuesen enes).

Algunos ejemplos:

  • ñandú aparece antes que nanear
  • ñaño aparece antes que nanociencia
  • ñoña aparece antes que nonada

El README del repositorio incluye una nota relacionada, pero creo que no está del todo clara:

Words in file has no order and can be duplicates:

cat palabras_todas.txt | grep -v '.*-$' | grep -v ^- | sort | uniq > 0_palabras_todas.txt

Entiendo que ese es un paso que se debe ejecutar cuando alguien obtiene su propio listado ejecutando el script rae_downloader.py.

Pero para quienes descargan el listado directamente del repositorio (0_palabras_todas.txt, o 0_palabras_todas_no_conjugaciones.txt), tal vez sería buena idea que dichos archivos ya estuvieran procesados, con las palabra ordenadas alfabéticamente tal como figuran en el diccionario.

Vale mencionar que he utilizado en diferentes aplicaciones los listados de palabras provistos en el repositorio , y nunca tuve dificultades, por lo que agradezco el gran aporte que han hecho con esta herramienta.

Pero en mi último proyecto tuve la necesidad de calcular con precisión la ubicación y distancia de ciertas palabras con relación a otras, encontrando que las palabras con eñe siempre me devolvían información errónea al consultar el listado (indicando por ejemplo que ñandú es anterior a nobel, cuando lógicamente no es así). Y así fue como advertí el problema.

Les dejo la inquietud, expresando mi gratitud por tan valiosa herramienta que han compartido libremente.

marthellius avatar Aug 10 '24 02:08 marthellius