subvenciones icon indicating copy to clipboard operation
subvenciones copied to clipboard

Hay varios registros con el mismo índice en el fichero juridicas_1.csv.gz

Open elsatch opened this issue 2 years ago • 1 comments

He estado revisando los datos del fichero juridicas_1.csv.gz y me he encontrado con registros distintos que comparten el mismo ID.

Por ejemplo, para el ID 58300439, encontramos los siguientes registros:

ID IDConv convocanteN1 convocanteN2 convocanteN3 convocatoria bbreguladoras programa fechaconc beneficiario importe instrumento ayudaequiv detalles proyecto sancion numcov cif_beneficiario
58300439 720181 COMUNIDAD DE MADRID CONSEJERÍA DE FAMILIA, JUVENTUD Y POLÍTICA SOCIAL NaN SUBV.A E.S.F.L PROGRAMAS INTERES GENERAL FINES... http://www.bocm.es/boletin/CM_Orden_BOCM/2020/... 2021-. 2021-01-21 FEDERACION MUJERES PROGRESISTAS 31436.27 SUBVENCIÓN Y ENTREGA DINERARIA SIN CONTRAPREST... 31436.27 0 518621 10413793 7947114 G78764966
58300439 720181 COMUNIDAD DE MADRID CONSEJERÍA DE FAMILIA, JUVENTUD Y POLÍTICA SOCIAL NaN SUBV.A E.S.F.L PROGRAMAS INTERES GENERAL FINES... http://www.bocm.es/boletin/CM_Orden_BOCM/2020/... 2021-. 2021-01-21 FEDERACION MUJERES PROGRESISTAS 31436.27 SUBVENCIÓN Y ENTREGA DINERARIA SIN CONTRAPREST... 31436.27 0 518621 10435022 7968285 G78764966

A primera vista parecen la misma subvención, con valores diferentes para los campos numcov y sanción (que hasta donde se, son campos ocultos). Son las dos últimas columnas del csv.

En total hay 15894 registros con índice duplicado. Sería necesario averiguar para qué sirven estas dos últimas columnas para decidir que se hace con estos datos.

P.D El campo cif_beneficiario no aparecen en el dataset original y se ha añadido a partir de la columna beneficiario.

elsatch avatar Apr 04 '22 02:04 elsatch

Veo que se han actualizado los ficheros csv y ahora los índices duplicados que me aparecen se han multiplicado!

En concreto:

# Comprobación índices duplicados
idx = df.index
df_dup = df[idx.duplicated()]
df_dup.shape

La salida del comando:

(1935866, 18)

¿Qué se ha cambiado en los ficheros de origen?

elsatch avatar Apr 04 '22 12:04 elsatch