subvenciones
subvenciones copied to clipboard
Preparación de datos de los ficheros juridicas1y2
He estado revisando los ficheros juridicas_1.csv.gz y juridicas_2.csv.gz. He añadido las cabeceras para las columnas y separado el cif del beneficiario de la descripción. El proceso se puede seguir a través del cuaderno de Jupyter.
Como salida he regenerado los ficheros originales con un nuevo nombre para evitar colisiones.
Los fichero es formato gzip no son splitables. Su tratamiento por software de big data como Spark es ineficiente. Sugiero cambiar la compresión a bzip2
Por otro lado, el formato csv es muy cómodo visualemente, pero no permite almacenar esquema. En big data el estándar es parquet con compresión snappy.
Ánimo!!