Une coupure d'une heure a eu lieu en fin d'après-midi hier (02/07/15). Dans une logique de transparence, voici quelques détails sur ce qui a été la source du problème.
L'alimentation d'un hyperviseur (n'hébergeant que des services annexes) a commencé à montrer des signes de faiblesse au cours de la semaine dernière. Après quelques explications avec notre hébergeur, nous avons décidé du changement du composant pour 15h20, jeudi après-midi.
Cependant, nous avons été informé à 18h05 que l'intervention venait de commencer... Alors que tout était prêt pour une intervention dès 15h20 comme annoncé.
En parallèle, un routeur sur le réseau de l'hébergeur a crashé puis est devenu instable. Malheureusement, un noeud de notre cluster Galera a été impacté et est devenu alternativement injoignable puis joignable très rapidement. Ce comportement a rendu la synchronisation du cluster instable.
À partir de ce moment, le site est devenu indisponible. Dès que nous avons compris l'origine du problème sur le cluster, nous avons isolé la machine impactée par le comportement du routeur afin de permettre au cluster de se synchroniser correctement.
Lorsque le routeur est redevenu stable, nous avons réintégré la machine dans le cluster. L'ensemble des opérations a conduit à un peu moins d'une heure de coupure de service entre 18h et 19h GMT+2.
Depuis, tout est redevenu dans la normale. Nous nous excusons pour la gêne occasionnée.