rla-es icon indicating copy to clipboard operation
rla-es copied to clipboard

Compendio de palabras faltantes de la Wikipedia en castellano

Open Almorca opened this issue 8 years ago • 18 comments

Abro esta incidencia para seguir con el listado de palabras de la incidencia #24 @eksperimental ¿Puedes generar una nueva lista de palabras? Si no continuaré con la lista https://gist.github.com/eksperimental/acfc34a7bed80b967a42 con las palabras del 101 al 200.

Almorca avatar Nov 30 '16 13:11 Almorca

@Almorca voy a actualizar los diccionarios, y veré si puedo bajar una copia mas reciente de Wikipedia, pero no creo que haya mayor diferencia en las palabras del tope de la lista.

Te agradecería que las palabras que no incluyas por equis motivo, me las compartas en un archivo de texto (si es por grupos mejor), asi las incluyo en mi script, y podemos ir generando una lista lo mas correcta posible.

eksperimental avatar Nov 30 '16 13:11 eksperimental

@Almorca puedes asignarme tambien a esta issue? asi no lo pierdo de vista en las cosas que tengo que hacer.

eksperimental avatar Nov 30 '16 13:11 eksperimental

@eksperimental No me deja asignarte la incidencia. Imagino que será porque no estás puesto como desarrollador del proyecto.

Almorca avatar Nov 30 '16 13:11 Almorca

entiendo. no hay problema. gracias!

eksperimental avatar Nov 30 '16 14:11 eksperimental

@eksperimental De todas maneras el sacar un nuevo listado es sólo si no te implica mucho trabajo. Como bien dices los resultados no deberían variar mucho de la lista actual.

Almorca avatar Nov 30 '16 14:11 Almorca

lleva bastante tiempo correr el script y a veces el compu se apagaba por el excesivo uso de recursos, y los archivos de wikipedia pesan varios Gigas, pero voy a ver de hacerlo de todos modos.

eksperimental avatar Nov 30 '16 14:11 eksperimental

Disculpen, pero antes de que me olvide, el script que creé se encuentra en https://github.com/eksperimental/qorpora no se encuentra ni en version alfa, pero decidí subirlo porque no creo que en un futuro cercano ni mediano pueda tenerlo listo. Así que al menos le pueda servir a alguien como referencia, o incluso para crear sus propias listas de palabras.

Referido a correr el script en Travis sería:

  • una locura
  • abusar de los servicio que Travis da gratuitamente a la comunidad de código libre
  • un sin-sentido, porque como ya dije anteriormente, Wikipedia no va a cambiar ni en un mes ni en un año, ni mucho menos en el dia a dia que se suba un nuevo PR y haya que ver que palabra cambios. Hay una lista lo suficientemente grande como preocuparnos por alguna palabra que pueda aparecer nueva, o que cambien de posición algunas palabras que ya se encuentran en la lista.

eksperimental avatar Jun 25 '17 01:06 eksperimental

¿Convendría valorar cambiar el milestone de este issue, si no lo vamos a tener listo próximamente?

RickieES avatar Dec 09 '17 19:12 RickieES

@eksperimental en eksperimental/qorpora#1 reporte 236 lemas para incluir en la lista negra con el respectivo motivo de exclusión. Aún tengo una lista de 162 lemas pendientes de validar (posibles noRAE) y los demás están confirmados como lemas validos (RAE y noRAE).
Al igual que @RickieES me parece pertinente cambiar el milestone. Espero poder tener resuelta la adición de los lemas RAE (estoy elaborando una rutina para la adición masiva partiendo de la definición extraída del DLE) en enero pero los noRAE pendientes de validar aún son muchos.

cosmoscalibur avatar Dec 20 '17 01:12 cosmoscalibur

Cambio el milestone a Después en espera de que terminemos la 2.3 y cree el milestone 2.4.

RickieES avatar Dec 22 '17 19:12 RickieES

Para ir adelantando, el reporte 95 tiene pendientes los siguientes lemas RAE (los noRAE los tengo pendientes por validar): https://gist.github.com/cosmoscalibur/34f5d326efc5864a65b9c022b0fc792d
Por la cantidad, dispongo este avance en la revisión de definiciones y categorías para que otros puedan colaborar en la adición. Aún tengo pendiente implementar una rutina que se encargue de la adición masiva.

cosmoscalibur avatar Jun 27 '19 02:06 cosmoscalibur

Por el tamaño de la lista que indica @cosmocalibur, creo preferible pasar este issue también a Después.

RickieES avatar Sep 07 '19 18:09 RickieES

Para ir adelantando, el reporte 95 tiene pendientes los siguientes lemas RAE (los noRAE los tengo pendientes por validar): https://gist.github.com/cosmoscalibur/34f5d326efc5864a65b9c022b0fc792d Por la cantidad, dispongo este avance en la revisión de definiciones y categorías para que otros puedan colaborar en la adición. Aún tengo pendiente implementar una rutina que se encargue de la adición masiva.

Muchas gracias @cosmoscalibur. Acabo de ordenar la lista de palabras RAE, por su porcentaje. lo pueden encontrar aquí. https://gist.github.com/eksperimental/cb451fe1d0312551921a8cab4201ac0d

Creo que sería bueno cubrir el 90% (son solo 33 palabras) y luego ir por metas, de 1 en 1%, hasta llegar al 95%. Al menos si se van a agregar palabras, tiene sentido que sean las mas populares, y especialmente las que estan reconocidas por la RAE, por el simple motivo de que evita tener que debatir si se las incluye o no.

eksperimental avatar Sep 11 '19 02:09 eksperimental

@eksperimental puedes validar las frecuencias de la lista del reporte #15 (lista). Y con la lista del #11 (la original del reporte). Sería de gran ayuda para priorizar los lemas que se agregan y hacer más fácil el avance a estados parciales que sean realmente útiles y no lemas aleatorios.

cosmoscalibur avatar Sep 18 '19 19:09 cosmoscalibur

@eksperimental puedes validar las frecuencias de la lista del reporte #15 (lista). Y con la lista del #11 (la original del reporte). Sería de gran ayuda para priorizar los lemas que se agregan y hacer más fácil el avance a estados parciales que sean realmente útiles y no lemas aleatorios.

Estas son las palabras que estan en el top 95% de Wikipedia en español para la issue 15. https://gist.github.com/eksperimental/6f7e7ac1d5289e342379a92d10700046 El resto que son las mayoria, fuera de este rango del 95%.

eksperimental avatar Sep 19 '19 02:09 eksperimental

y esta es de la issue 11. https://gist.github.com/eksperimental/08d94e26cd34774292a91e609b8944b7

eksperimental avatar Sep 19 '19 02:09 eksperimental

No le veo demasiado sentido encontrar en la issue #11 cuáles son las palabras, porque ya estan listadas en la lista que publique del 95%. Lo que sí se podría hacer sería con un lematizador, extraer los lemas y crear una nueva lista de las palabras segun frecuencia en Wikipedia.

eksperimental avatar Sep 19 '19 07:09 eksperimental

Gracias @eksperimental . Estoy validando con esas listas reducidas cuales nos faltan para priorizar.

cosmoscalibur avatar Sep 19 '19 18:09 cosmoscalibur