annuaire-entreprises-site
annuaire-entreprises-site copied to clipboard
[META] Utiliser l'API de recherche pour récupérer toutes les données INSEE
Parce que nous avons sollicité l'API de l'INSEE de manière excessive, ce qui a entraîné des problèmes pour eux, nous utiliserons désormais l'API de Recherche comme substitut à l'API de l'INSEE pour obtenir les données.
Cela nécessitera une mise à jour plus fréquente de notre propre stock de données INSEE, avec une fréquence quotidienne.
Cependant, il existe quelques défis que nous devons relever :
- Le décalage entre la mise à jour de l'API de l'INSEE et notre propre API, en raison du temps nécessaire pour traiter le workflow, qui peut prendre jusqu'à 12 heures.
- La mise en place d'une architecture capable d'exécuter ces mises à jour quotidiennes de manière efficace.
Nouvelle archi
API
- MAJ quotidienne
- Pagination des établissements
site :
Default : on appelle l'API de recherche
Si EI => on appelle l'Insee pour connaitre le statut Si 404 ou 5xx => on appelle l'Insee Si plus de 100 etablissements -> Insee
ETL :
découpler la récupération des données de non-diffusibles de celles de données diffusibles.
Issues :
- [x] EI & unite legale de grandes tailles #767
- [x] EI pour les etablissements #772
- [ ] ajouter les variables manquantes :
- [x] anciens sieges https://github.com/etalab/annuaire-entreprises-search-infra/issues/217,
- [x] effectif uniteLegale #590
- [ ] effectif & taille etablissement
- [x]
anneeEffectifsEtablissement
,caractereEmployeurEtablissement
,trancheEffectifsEtablissement
,caractereEmployeurUniteLegale
- [ ] la date de fermeture de l'uniteLegale ?
- exemple : https://annuaire-entreprises.data.gouv.fr/entreprise/ganymede-880878145
- ressource : https://entreprise.api.gouv.fr/catalogue/insee/unites_legales
- [x]
- [x] pagination des établissements (attention à modifier le site
resultsPerPage.etablissements
)