infrastructure icon indicating copy to clipboard operation
infrastructure copied to clipboard

umap: synchro / redondance / haute dispo

Open cquest opened this issue 7 years ago • 6 comments

Evolution de l'issue et des tâches à effectuer:

  • [x] migration d'osm144 en ZFS
  • [x] réplication sur les 2 autres noeuds
  • [x] supression du rsync d'osm144 vers osm159
  • [ ] activer snapshot/backups
  • [x] suppression d'osm159
  • [x] activation de la haute-dispo de proxmox pour osm144

______ Issue d'origine _______

uMap tourne actuellement sur la VM osm144 qui est sur le noeud osm26 Comme c'est un service jugé critique (impact pour l'exterieur si down) est synchronisé via rsync par un cron horaire sur osm159 pour avoir une copie fraiche des données et permettre de le relancer rapidement.

Ce rsync provoque des pic d'IO sur les disques /dev/sdd des deux noeuds (osm26 et osm28) qui durent pas loin de 30mn, soit 50% du temps d'après les graphes munin (j'ai coupé la synchro qui a bien confirmé ça).

J'ai déjà migré osm159 sur ZFS (1h20 pour le déplacement) et créé un réplique sur osm27. La synchro de la réplique prend juste quelques secondes au lieu de 30mn et ne sature pas les I/O.

Je propose donc de basculer dans un proche avenir umap sur osm159. Cela consiste à:

  • passer umap en read only sur osm144
  • faire un rsync osm144>osm159
  • changer la config des proxy nginx pour diriger le flux vers osm159
  • remettre osm159 en read/write.

On aura du coup :

  • une réplique (déjà existante) et à faible impact pour le reste des VM et de l'infra.
  • la possibilité de le mettre en haute dispo (HA) avec bascule automatique en cas de panne d'un noeud

cquest avatar Jan 05 '19 15:01 cquest

J'ai profité de l'upgrade proxmox pour déplacer umap sur ZFS. J'ai ajouté les réplications toutes les 5mn sur les deux autres noeuds du cluster. Plus besoin de rsync et plus besoin d'osm159. Il est maintenant possible d'activer la haute dispo (HA) au niveau de proxmox pour que si le noeud du cluster où tourne umap tombe, le CT d'umap soit automatiquement démarrer sur un autre noeud. Je met à jour les cases à cocher sur l'issue initiale...

cquest avatar Jun 23 '20 13:06 cquest

Haute-dispo activée et rsync comment en crontab sur osm159.

Le bénef est flagrant sur les I/O d'osm26... reste plus qu'à supprimer osm159.

Quid des backups d'osm144/umap ? C'est un bon candidat pour les snapshots et un backup distants.

cquest avatar Jun 23 '20 17:06 cquest

Je vote +1 pour mettre des backups via les snapshots automatiques de proxmox.

jocelynj avatar Jun 25 '20 18:06 jocelynj

Hier, coupure hard d'osm26 sur lequel tourne umap/osm144... et la haute dispo a fait son job et relancé osm144 sur osm27 :)

Last step... activer snapshot/backup et supprimer osm159

cquest avatar Jun 26 '20 08:06 cquest

RIP osm159

cquest avatar Jun 29 '20 08:06 cquest

@cquest : on peut fermer le ticket, non ? Il me semble que la réplication de umap sur les autres hosts est maintenant activée.

jocelynj avatar May 14 '22 13:05 jocelynj