data.gouv.fr
data.gouv.fr copied to clipboard
Faire le ménage sur les vieux JDD
Bien avant le temps d'Alex, il y a eu une migration de datagouv vers udata qui ont laissé des vieux restes périmés.
Nous pouvons les réperer avec des extras (datagouv_ckan_id
). Ex: https://www.data.gouv.fr/fr/datasets/reseau-cyclable-et-vert-tm/. Donc générer une liste sur ces JDD là et les passer en archiver.
q = {'extras__harvest:source_id': None, 'extras__ datagouv_ckan_id__ne': None}
Dataset.objects.filter(**q)
Extract fait ce jour, à valider @restuccia
Awesome merci beaucoup !
Stratégie de bizdev à appliquer :)
Sur ce nettoyage, il faudra penser à mettre à jour les url des vieilles ressources qui sont en http://static.data.gouv
(et non https
). Cela concerne notamment certaines données des élections importantes. (Cela entraîne un bug sur mon ordi sur Chrome lorsque j'essaie de télécharger une ressource sur data.gouv.fr).
Ci-dessous un extrait csv du catalogue avec la liste des 1433 ressources à date dont l'url est en http://static.data.gouv
:
Le code pour le refaire :
import pandas as pd
# Url du catalogue ressource :
df = pd.read_csv('https://www.data.gouv.fr/fr/datasets/r/4babf5f2-6a9c-45b5-9144-ca5eae6a7a6d', dtype=str, sep=";")
df = df[df['url'].str.contains('http://static.data.gouv.fr')]
df.to_csv('resources-http-static.csv', index=False)
Exemple de cas où il y a des doublons et cet archivage se fait ressentir : https://www.data.gouv.fr/fr/datasets/?organization=534fff8ea3a7292c64a77f02&q=P%C3%A9rim%C3%A8tre+des+interventions+%C3%A9conomiques
@maudetes tjr d'actu ? Si oui c'est problématique non ?
On est toujours bon pour les http://static.data.gouv.fr
qui ont été convertis en https
.
Par contre pas pour le nettoyage, il faut mettre en place une stratégie bizdev pour voir ce qu'on fait de ces vieux JDDs et éventuellement prévenir les producteurs.