lemarios icon indicating copy to clipboard operation
lemarios copied to clipboard

Recursos disponibles por el estado español

Open rlunaro opened this issue 10 years ago • 6 comments

Hola Olea:

Veo que tienes entre las tareas pendientes varias cosas que aparentemente hemos pagado con nuestros impuestos:

  1. listado de topónimos. El Instituto Geográfico Nacional publica el nomenclator geográfico nacional en formato access, que es una lista de todos los pueblos de españa, más otras entidades geográficas.
  2. listado de apellidos. El INE publica una lista de los apellidos más comunes (http://www.ine.es/apellidos/formGeneral.do?vista=1). El listado arroja 5000 apellidos, con lo que el trabajo estaría resuelto.

Por supuesto el problema está en determinar la titularidad de esos datos, si son públicos o no.

rlunaro avatar Aug 10 '14 22:08 rlunaro

Perdona por el infinito retraso en atenderte.

listado de topónimos. desde hace mucho tiempo tengo un listado como el que dices a medio hacer. Si lo tienes listo estaré encantado de aceptar un PR.

listado de apellidos

Ídem con el PR. Mi lista de apellidos es sólo un subconjunto de la que dices.

Por supuesto el problema está en determinar la titularidad de esos datos, si son públicos o no.

Cuando se refiere a listas de palabras yo me lío la manta a la cabeza y la publico igual, obviamente indicando la fuente. Y en este caso con más énfasis por provenir de una institución pública. Si tratase con datos más elaborados sí que investigaría la licencia de explotación.

olea avatar Aug 25 '17 10:08 olea

Hola, el listado de topónimos no es que lo tenga listo... es que el instituto geográfico nacional ya lo elabora por nosotros.  Lo podrás encontrar en esta url:  http://centrodedescargas.cnig.es/CentroDescargas/equipamiento.do?method=mostrarEquipamiento

Al descargar, te informa de la licencia que es "CC-By", así que supongo que afortunadamente la maquinaria del estado ha zanjado este problema para comodidad nuestra.  Actualmente se distribuye en formato mdb y odb (cuando yo lo consulté sólamente era mdb). Pasar de ese formato a otros formatos (base de datos) es trivial. 

rlunaro avatar Aug 25 '17 19:08 rlunaro

@rlunaro

Hola, el listado de topónimos no es que lo tenga listo... es que el instituto geográfico nacional ya lo elabora por nosotros. Lo podrás encontrar en esta url: http://centrodedescargas.cnig.es/CentroDescargas/equipamiento.do?method=mostrarEquipamiento

tiene buena pinta, sí

Al descargar, te informa de la licencia que es "CC-By", así que supongo que afortunadamente la maquinaria del estado ha zanjado este problema para comodidad nuestra.

ferpecto

Actualmente se distribuye en formato mdb y odb (cuando yo lo consulté sólamente era mdb). Pasar de ese formato a otros formatos (base de datos) es trivial.

sí y no. aún hay que hacer una serie de pasos de extracción y limpieza de los datos para que se quede en un formato usable (en general un puro listado de texto en UTF-8 de una entrada por línea.

yo estoy liadete estos días con varios pendientes para resolverlo ahora :-m

olea avatar Aug 28 '17 19:08 olea

hola amiguetes de la web, parece que hay unas 580 millones de personas hablando español, un 8% del planeta. https://es.wikipedia.org/wiki/Distribuci%C3%B3n_geogr%C3%A1fica_del_idioma_espa%C3%B1ol La responsabilidad y/o oportunidad recaería en al menos 20 gobiernos e innumerables personas. Será cuestión de seguir luchando con creatividad. La gente "colabora" mas cuando le hablas en su "idioma" que es mas "idio" que "ma". Asi que por ahi con alguna herramienta de rimas o grafos y que les hable de lo "espiritual de las palabras de su dia" o bien una de canciones para rimar, algo de NLP con AI basado en metainformacion poco tradicional de las palabras y sus efectos.

zurcacielos avatar Jun 10 '20 03:06 zurcacielos

Hola @zurcacielos pues ya nos comentarás de tus progresos. Estamos expectantes.

olea avatar Jun 10 '20 09:06 olea

Hola Ismael. Gracias por tu trabajo, es muy completo y útil. Enhorabuena! Tengo una pregunta, en el listado de palabras general no hay femeninos, no? Por ejemplo, veo la palabra "digno", pero no "digna" y es algo generalizado creo. ¿Sabes si hay forma de obtener el mismo listado https://github.com/olea/lemarios/blob/master/lemario-general-del-espanol.txt pero que contenga las formas femeninas? muchas gracias por adelantado!

oriolvillaret avatar Mar 19 '22 17:03 oriolvillaret