umap: synchro / redondance / haute dispo
Evolution de l'issue et des tâches à effectuer:
- [x] migration d'osm144 en ZFS
- [x] réplication sur les 2 autres noeuds
- [x] supression du rsync d'osm144 vers osm159
- [ ] activer snapshot/backups
- [x] suppression d'osm159
- [x] activation de la haute-dispo de proxmox pour osm144
______ Issue d'origine _______
uMap tourne actuellement sur la VM osm144 qui est sur le noeud osm26 Comme c'est un service jugé critique (impact pour l'exterieur si down) est synchronisé via rsync par un cron horaire sur osm159 pour avoir une copie fraiche des données et permettre de le relancer rapidement.
Ce rsync provoque des pic d'IO sur les disques /dev/sdd des deux noeuds (osm26 et osm28) qui durent pas loin de 30mn, soit 50% du temps d'après les graphes munin (j'ai coupé la synchro qui a bien confirmé ça).
J'ai déjà migré osm159 sur ZFS (1h20 pour le déplacement) et créé un réplique sur osm27. La synchro de la réplique prend juste quelques secondes au lieu de 30mn et ne sature pas les I/O.
Je propose donc de basculer dans un proche avenir umap sur osm159. Cela consiste à:
- passer umap en read only sur osm144
- faire un rsync osm144>osm159
- changer la config des proxy nginx pour diriger le flux vers osm159
- remettre osm159 en read/write.
On aura du coup :
- une réplique (déjà existante) et à faible impact pour le reste des VM et de l'infra.
- la possibilité de le mettre en haute dispo (HA) avec bascule automatique en cas de panne d'un noeud
J'ai profité de l'upgrade proxmox pour déplacer umap sur ZFS. J'ai ajouté les réplications toutes les 5mn sur les deux autres noeuds du cluster. Plus besoin de rsync et plus besoin d'osm159. Il est maintenant possible d'activer la haute dispo (HA) au niveau de proxmox pour que si le noeud du cluster où tourne umap tombe, le CT d'umap soit automatiquement démarrer sur un autre noeud. Je met à jour les cases à cocher sur l'issue initiale...
Haute-dispo activée et rsync comment en crontab sur osm159.
Le bénef est flagrant sur les I/O d'osm26... reste plus qu'à supprimer osm159.
Quid des backups d'osm144/umap ? C'est un bon candidat pour les snapshots et un backup distants.
Je vote +1 pour mettre des backups via les snapshots automatiques de proxmox.
Hier, coupure hard d'osm26 sur lequel tourne umap/osm144... et la haute dispo a fait son job et relancé osm144 sur osm27 :)
Last step... activer snapshot/backup et supprimer osm159
RIP osm159
@cquest : on peut fermer le ticket, non ? Il me semble que la réplication de umap sur les autres hosts est maintenant activée.