rla-es icon indicating copy to clipboard operation
rla-es copied to clipboard

Añadir topónimos de países

Open Almorca opened this issue 8 years ago • 16 comments

Añadir los topónimos de las localizaciones que todavía no tienen dicha información.

Almorca avatar Apr 05 '16 14:04 Almorca

En algunas localizaciones hay nombres de ciudades y provincias en los respectivos archivos NombresPropiosSiglas.txt, que habría que extraer, pero soy muy ignorante y no tengo facilidad para distinguirlos. Lo ideal sería involucrar a alguien de cada país para que hiciera, al menos, una limpieza inicial.

RickieES avatar Apr 05 '16 14:04 RickieES

Para Argentina: Provincias: https://es.wikipedia.org/wiki/Provincias_de_Argentina Ciudades: https://es.wikipedia.org/wiki/Anexo:Ciudades_de_Argentina_por_poblaci%C3%B3n

Almorca avatar Jul 28 '16 12:07 Almorca

Buen día

quisiera aportar topónimos de entidades peruanas. Se trata de los departamentos, provincias y distritos según el listado oficial (llamado UBIGEO) que mantiene el Instituto Nacional de Estadística e Informática del Perú (INEI). Son en total unas 2000 lineas.

He leído el issue 38 donde se habla de ordenar el contenido alfabéticamente y además descomponer los nombre compuestos y eliminar las repeticiones. Pero consulto: ¿existen otros requisitos? ¿Hay alguna herramienta que ayude a reducir las palabras comunes que ya existen en otras partes del diccionario?

¡Gracias!

javierdiezcanseco avatar Dec 09 '16 01:12 javierdiezcanseco

Hola Javier, ¡bienvenido!

Para Perú tendrías que colocar los archivos en el directorio ortograf/palabras/toponimos/l10n/es_PE. Podés organizarlos en archivos separados para provincias, ciudades u otro orden que desees. Los archivos de topónimos deben tener el prefijo toponimos- para que sean agregados.

Con respecto a la eliminación de palabras que ya existen en otras partes, no es necesario que hagas algo, ya que las palabras duplicadas se eliminan durante la compilación del diccionario. Creo que con el fin de mantener completa la información de topónimos es mejor repetir los nombres que omitirlos por la existencia en otra parte del diccionario.

Dada la falta de topónimos, creo que es una buena idea armar una página en la wiki con estos comentarios.

¡Saludos!

edittler avatar Dec 09 '16 02:12 edittler

Hola, ¡gracias!

lo he organizado según la estructura oficial en el Perú: departamentos, provincias y distritos.

Efectivamente, sería útil hacer una entrada en el wiki para tener claro el formato que se espera. Con el tiempo se pueden ir sumando países y será útil seguir una misma estructura.

Saludos

        Javier.

javierdiezcanseco avatar Dec 09 '16 14:12 javierdiezcanseco

Creé una página en la wiki para documentar la forma en que se deben incluir los topónimos.

edittler avatar Dec 09 '16 14:12 edittler

¡Excelente proyecto! He clonado el repositorio y comenzaré a trabajar en los topónimos para Colombia.

cosmoscalibur avatar Jun 02 '17 04:06 cosmoscalibur

Muchos topónimos presentan números romanos. ¿Deben incluirse los números romanos como lemas válidos? En caso de ser lemas válidos, ¿debe seguirse la convención de usar mayúscula inicial?

cosmoscalibur avatar Jun 02 '17 15:06 cosmoscalibur

¿Cómo se escriben esos topónimos en los documentos oficiales?

Almorca avatar Jun 06 '17 09:06 Almorca

@Almorca , en los documentos oficiales los entes territoriales poseen la indicación de los números romanos en mayúscula, ejemplo Atalaya I, Juan Pablo II, Juan XXIII. En el PR lo tengo temporalmente sin incluir los números romanos, considerando que la identificación de estos por parte del diccionario sería en un contexto general, y por ende no tendría sentido que asuma válidos solo algunos números romanos y no al menos una cierta secuencia.

cosmoscalibur avatar Jun 22 '17 16:06 cosmoscalibur

He vuelto a retomar el tema de los topónimos para terminar de añadir los de Argentina. Puesto que muchos de topónimos están formados por palabras compuestas creo que sería útil permitir que los ficheros de topónimos tuviesen los nombres compuestos y que fuese el script que crea el diccionario el que separase cada palabra en una nueva línea. Así el fichero de topónimos de Argentina tendría una línea con Buenos Aires y el script lo separaría en 2 líneas Buenos Aires

Esto genera una molestia y es que muchas de las palabras que forman parte de los topónimos compuestos son en realidad palabras corrientes que ya están en el diccionario. Es una molestia en el sentido de que el diccionario contiene lemas repetidos, ocupará más y será más lento (imagino que en un tiempo insignificante) a la hora de comprobar las palabras. Esto se puede solucionar generando el diccionario en 2 fases:

  1. Se genera el diccionario sin los topónimos.
  2. Se ejecuta hunspell contra los ficheros de topónimos obteniendo las palabras que dan error.
  3. Se añaden las palabras obtenidas en el paso 2 al diccionario generado en el paso 1.

De esta manera la generación del diccionario sería un poco más compleja pero solo se añadirían aquellas palabras pertenecientes a topónimos que realmente no sean palabras correctas del Español. En el diccionario Argentino no se añadiría ni Buenos ni Aires y sí Tucumán

¿Cómo lo veis?

Almorca avatar Aug 18 '17 15:08 Almorca

Me queda tal vez una inquietud porque aún no comprendo del todo bien el funcionamiento. Si Hunspell es el encargado de corregir los casos de mayúsculas y minúsculas bien usadas (finalmente eso sigue siendo ortografía), entonces Buenos Aires sería marcado como un error pues solo los nombres propios podrían tener mayúscula inicial sin corresponder al inicio de un párrafo o posterior a un punto. ¿Es correcta mi afirmación?

cosmoscalibur avatar Aug 18 '17 17:08 cosmoscalibur

Ya ví que hunspell no se relaciona con lo que comento en el caso anterior, pero igual si veo un posible contra. En el proyecto he visto las menciones a herramienta de gramática también, y en ese sentido la separación de lemas que sean topónimos pero ya incluidos en otras categorías sería importante.

cosmoscalibur avatar Aug 23 '17 01:08 cosmoscalibur

Añadidas listas para:

  • Filipinas: 2d6cca5431701dfe23a62c7e59cb2cd34c75fa00
  • Guinea Ecuatorial: e8a2fc43a2bf692ec62ff8a224d9627b90d8d492

olea avatar Apr 28 '20 11:04 olea

Nota: si alguien se anima tengo alguna consulta para extraer datos de Wikidata que parecen ser bastante apropiados, sobre todo si los revisa un nacional.

olea avatar Apr 28 '20 11:04 olea

Por completitud añado un PR mexicano que, por ahora se queda en el aire: #260

olea avatar Aug 16 '23 11:08 olea