subvenciones
subvenciones copied to clipboard
Hay varios registros con el mismo índice en el fichero juridicas_1.csv.gz
He estado revisando los datos del fichero juridicas_1.csv.gz y me he encontrado con registros distintos que comparten el mismo ID.
Por ejemplo, para el ID 58300439, encontramos los siguientes registros:
ID | IDConv | convocanteN1 | convocanteN2 | convocanteN3 | convocatoria | bbreguladoras | programa | fechaconc | beneficiario | importe | instrumento | ayudaequiv | detalles | proyecto | sancion | numcov | cif_beneficiario |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
58300439 | 720181 | COMUNIDAD DE MADRID | CONSEJERÍA DE FAMILIA, JUVENTUD Y POLÍTICA SOCIAL | NaN | SUBV.A E.S.F.L PROGRAMAS INTERES GENERAL FINES... | http://www.bocm.es/boletin/CM_Orden_BOCM/2020/... | 2021-. | 2021-01-21 | FEDERACION MUJERES PROGRESISTAS | 31436.27 | SUBVENCIÓN Y ENTREGA DINERARIA SIN CONTRAPREST... | 31436.27 | 0 | 518621 | 10413793 | 7947114 | G78764966 |
58300439 | 720181 | COMUNIDAD DE MADRID | CONSEJERÍA DE FAMILIA, JUVENTUD Y POLÍTICA SOCIAL | NaN | SUBV.A E.S.F.L PROGRAMAS INTERES GENERAL FINES... | http://www.bocm.es/boletin/CM_Orden_BOCM/2020/... | 2021-. | 2021-01-21 | FEDERACION MUJERES PROGRESISTAS | 31436.27 | SUBVENCIÓN Y ENTREGA DINERARIA SIN CONTRAPREST... | 31436.27 | 0 | 518621 | 10435022 | 7968285 | G78764966 |
A primera vista parecen la misma subvención, con valores diferentes para los campos numcov y sanción (que hasta donde se, son campos ocultos). Son las dos últimas columnas del csv.
En total hay 15894 registros con índice duplicado. Sería necesario averiguar para qué sirven estas dos últimas columnas para decidir que se hace con estos datos.
P.D El campo cif_beneficiario no aparecen en el dataset original y se ha añadido a partir de la columna beneficiario.
Veo que se han actualizado los ficheros csv y ahora los índices duplicados que me aparecen se han multiplicado!
En concreto:
# Comprobación índices duplicados
idx = df.index
df_dup = df[idx.duplicated()]
df_dup.shape
La salida del comando:
(1935866, 18)
¿Qué se ha cambiado en los ficheros de origen?