data.gouv.fr icon indicating copy to clipboard operation
data.gouv.fr copied to clipboard

Faire le ménage sur les vieux JDD

Open maudetes opened this issue 2 years ago • 8 comments

Bien avant le temps d'Alex, il y a eu une migration de datagouv vers udata qui ont laissé des vieux restes périmés. Nous pouvons les réperer avec des extras (datagouv_ckan_id). Ex: https://www.data.gouv.fr/fr/datasets/reseau-cyclable-et-vert-tm/. Donc générer une liste sur ces JDD là et les passer en archiver.

maudetes avatar Apr 13 '22 09:04 maudetes

q = {'extras__harvest:source_id': None, 'extras__ datagouv_ckan_id__ne': None}
Dataset.objects.filter(**q)

abulte avatar Apr 22 '22 13:04 abulte

Extract fait ce jour, à valider @restuccia

abulte avatar Apr 22 '22 13:04 abulte

Awesome merci beaucoup !

restuccia avatar Apr 22 '22 14:04 restuccia

Stratégie de bizdev à appliquer :)

maudetes avatar May 11 '22 12:05 maudetes

Sur ce nettoyage, il faudra penser à mettre à jour les url des vieilles ressources qui sont en http://static.data.gouv (et non https). Cela concerne notamment certaines données des élections importantes. (Cela entraîne un bug sur mon ordi sur Chrome lorsque j'essaie de télécharger une ressource sur data.gouv.fr).

Ci-dessous un extrait csv du catalogue avec la liste des 1433 ressources à date dont l'url est en http://static.data.gouv :

resources-http-static.csv

Le code pour le refaire :

import pandas as pd
# Url du catalogue ressource :
df = pd.read_csv('https://www.data.gouv.fr/fr/datasets/r/4babf5f2-6a9c-45b5-9144-ca5eae6a7a6d', dtype=str, sep=";")
df = df[df['url'].str.contains('http://static.data.gouv.fr')]
df.to_csv('resources-http-static.csv', index=False)

geoffreyaldebert avatar May 16 '22 13:05 geoffreyaldebert

Exemple de cas où il y a des doublons et cet archivage se fait ressentir : https://www.data.gouv.fr/fr/datasets/?organization=534fff8ea3a7292c64a77f02&q=P%C3%A9rim%C3%A8tre+des+interventions+%C3%A9conomiques

maudetes avatar Dec 14 '23 16:12 maudetes

@maudetes tjr d'actu ? Si oui c'est problématique non ?

agarrone avatar Apr 18 '24 09:04 agarrone

On est toujours bon pour les http://static.data.gouv.fr qui ont été convertis en https. Par contre pas pour le nettoyage, il faut mettre en place une stratégie bizdev pour voir ce qu'on fait de ces vieux JDDs et éventuellement prévenir les producteurs.

maudetes avatar Apr 19 '24 14:04 maudetes