data.gouv.fr Faire le ménage sur les vieux JDD

Bien avant le temps d'Alex, il y a eu une migration de datagouv vers udata qui ont laissé des vieux restes périmés. Nous pouvons les réperer avec des extras (datagouv_ckan_id). Ex: https://www.data.gouv.fr/fr/datasets/reseau-cyclable-et-vert-tm/. Donc générer une liste sur ces JDD là et les passer en archiver.

Apr 13 '22 09:04 maudetes

q = {'extras__harvest:source_id': None, 'extras__ datagouv_ckan_id__ne': None}
Dataset.objects.filter(**q)

Apr 22 '22 13:04 abulte

Extract fait ce jour, à valider @restuccia

Apr 22 '22 13:04 abulte

Awesome merci beaucoup !

Apr 22 '22 14:04 restuccia

Stratégie de bizdev à appliquer :)

May 11 '22 12:05 maudetes

Sur ce nettoyage, il faudra penser à mettre à jour les url des vieilles ressources qui sont en http://static.data.gouv (et non https). Cela concerne notamment certaines données des élections importantes. (Cela entraîne un bug sur mon ordi sur Chrome lorsque j'essaie de télécharger une ressource sur data.gouv.fr).

Ci-dessous un extrait csv du catalogue avec la liste des 1433 ressources à date dont l'url est en http://static.data.gouv :

resources-http-static.csv

Le code pour le refaire :

import pandas as pd
# Url du catalogue ressource :
df = pd.read_csv('https://www.data.gouv.fr/fr/datasets/r/4babf5f2-6a9c-45b5-9144-ca5eae6a7a6d', dtype=str, sep=";")
df = df[df['url'].str.contains('http://static.data.gouv.fr')]
df.to_csv('resources-http-static.csv', index=False)

May 16 '22 13:05 geoffreyaldebert

Exemple de cas où il y a des doublons et cet archivage se fait ressentir : https://www.data.gouv.fr/fr/datasets/?organization=534fff8ea3a7292c64a77f02&q=P%C3%A9rim%C3%A8tre+des+interventions+%C3%A9conomiques

Dec 14 '23 16:12 maudetes

@maudetes tjr d'actu ? Si oui c'est problématique non ?

Apr 18 '24 09:04 agarrone

On est toujours bon pour les http://static.data.gouv.fr qui ont été convertis en https. Par contre pas pour le nettoyage, il faut mettre en place une stratégie bizdev pour voir ce qu'on fait de ces vieux JDDs et éventuellement prévenir les producteurs.

Apr 19 '24 14:04 maudetes

data.gouv.fr data.gouv.fr copied to clipboard

Faire le ménage sur les vieux JDD

data.gouv.fr
data.gouv.fr copied to clipboard