subvenciones icon indicating copy to clipboard operation
subvenciones copied to clipboard

Preparación de datos de los ficheros juridicas1y2

Open elsatch opened this issue 2 years ago • 1 comments

He estado revisando los ficheros juridicas_1.csv.gz y juridicas_2.csv.gz. He añadido las cabeceras para las columnas y separado el cif del beneficiario de la descripción. El proceso se puede seguir a través del cuaderno de Jupyter.

Como salida he regenerado los ficheros originales con un nuevo nombre para evitar colisiones.

elsatch avatar Apr 04 '22 02:04 elsatch

Los fichero es formato gzip no son splitables. Su tratamiento por software de big data como Spark es ineficiente. Sugiero cambiar la compresión a bzip2

Por otro lado, el formato csv es muy cómodo visualemente, pero no permite almacenar esquema. En big data el estándar es parquet con compresión snappy.

Ánimo!!

santifinland avatar Apr 06 '22 07:04 santifinland