data icon indicating copy to clipboard operation
data copied to clipboard

Données COVID-19 erronées

Open maxcorbeau opened this issue 4 years ago • 2 comments

Tout d'abord merci pour votre contribution sur les données libre du gouvernement.

Je suis en train de jeter un oeil aux données du COVID-19 et elles me paraissent erronées a de nombreux endroits. En effet la colonne "deces" représente le "total cumulé du nombre de décès", ce qui ne peut donc pas diminuer, en revanche je compte plusieurs points de données où c'est le cas:

  • CSV: http://www.sharecsv.com/s/cf23c4103281c7168282b19488ab6df0/errors.csv

Par exemple:

  • le Haut-Rhin qui passe de 437 décès le 2020-04-01 à 418 le jour suivant: https://imgur.com/a/kJOCL3x

Je constate que les données sont compilées avec NodeJS. J'ai rien contre NodeJS, mais à mon avis pour travailler avec des données il serait plus judicieux de basculer sur Python, où des librairies comme pandas peuvent faciliter grandement le travail.

Par exemple détecter ce genre d'erreurs se fait en quelques lignes:

# Loading data
# Sorting by nom+date so we can use .diff() method
# For each location (group on nom), we get diff of deaths with previous time period
# if the diff is negative, it means total deaths went down which isn't possible
# we export data to CSV and raise exception
import pandas as pd
df = pd.read_json(path+'chiffres-cles.json')
df = df.sort_values(['nom','date'])
df['diff'] = df.groupby(['nom'])['deces'].diff().fillna(0)
df_errors = df[df['diff']<0]
if not df_errors.empty:
    df_errors[cols].to_csv(path+'errors.csv',index=False)
    raise Exception('Total deaths for certain locations decreasing, not possible')

Voilà, ma modeste contribution...

maxcorbeau avatar Apr 19 '20 10:04 maxcorbeau

Bonjour,

Je remonte le même problème pour le département "Charente". Problème identifié sur le dashboard officiel du gouvernement : https://dashboard.covid19.data.gouv.fr/departements/16

image

Sait-on expliquer cette anomalie ?

benoitdemaegdt avatar Apr 20 '20 18:04 benoitdemaegdt

A priori j'observe les erreurs dans les données sources pour les deux cas cités https://www.data.gouv.fr/fr/datasets/donnees-hospitalieres-relatives-a-lepidemie-de-covid-19/, donc je suppose qu'elles se répercutent ici. A ma connaissance il n'y a aucun calcul d'accumulation fait par le traitement, il faut donc reporter l'erreur au niveau de Santé Publique France.

Nous avons observé ce type d'erreur également de notre côté en proposant https://github.com/kalisio/covid-19 et avons choisi de rajouter un traitement visant à combler les trous dans les données à partir des valeurs de la vieille et en conservant également les valeurs max observées concernant les cumuls pour y pallier.

claustres avatar Apr 22 '20 10:04 claustres