sirene-ld icon indicating copy to clipboard operation
sirene-ld copied to clipboard

Identifier les PME

Open ColinMaudry opened this issue 5 years ago • 1 comments

Dans les données d'août 2019, sur les 20 608 558 unité légales, 14 015 833 ne sont pas catégorisées (PME, ETI, GE).

Comptage effectué avec la commande suivante:

awk -F "," '$18 == "" {print $1;}' StockUniteLegale_utf8.csv | wc -l

Seules 6 488 205 sont identifiées comme étant des PME, alors qu'il est de notoriété publique qu'elles constituent la très grande majorité des entreprises.

awk -F "," '$18 == "PME" {print $1;}' StockUniteLegale_utf8.csv | wc -l

La définition des PME selon l'INSEE est inscrite ici : https://www.insee.fr/fr/metadonnees/definition/c1962

  • CA annuel inférieur à 50 M€
  • total de bilan n'excédant pas 43 M€
  • moins de 250 employés

Dans les données SIRENE, nous disposons de la tranche de CA annuel (colonne TCA) et de la tranche du nombre d'employés (colonne TEF).

Même s'il manque la colonne bilan, je vais utiliser les colonnes TEF et TCA pour déterminer quelles unités légales sont des PME. Elles auront une classe distincte des PME identifiées par l'INSEE.

ColinMaudry avatar Aug 18 '19 16:08 ColinMaudry