vInfra.ch

Guillaume LACAILLE's Blog

Hyper-V 2012: Problème critique avec l’outil Test-Cluster

Petit problème, grosses conséquences, avec un bug dans l’outil Test-Cluster qu’il est nécessaire de lancer avant la création d’un cluster Hyper-V ou l’ajout d’un nœud. 

Ces dernières semaines, nous avons rencontré quelques soucis de stabilité du cluster Hyper-V chez mon client actuel.
Le problème était très simple: les LUNs n’étaient pas présentées à tous les nœuds !

Si le problème de zoning est somme toute très simple à corriger, comment avons-nous été en mesure d’ajouter des noeuds qui n’ont pas accès aux disques ?! D’autant plus que ce bug n’a pas empêché de démarrer les machines virtuelles sur ces serveurs Hyper-V (démontrant que CSV2.0 reste une tuerie de fiabilité même en cas de défaillance des liens FC).

Chaque nœud a été ajouté après vérification avec l’outil Test-Cluster (comme indiqué dans cet article). Or, la vérification des disques apparait en Success dans le rapport.

1354_1

Or, quand on regarde le rapport de plus près, en cliquant sur List Potential Cluster Disks, nous avons bien l’erreur suivante:

1354_2

Le point a été remonté à Microsoft. Espérons qu’il sera corrigé dans les prochaines mises à jour.

Conclusion

Vérifiez bien avant l’ajout d’un nœud que les disques sont bien présentés avant de créer le cluster ou d’ajouter un nœud. Si le CSV 2.0 est très « resilient », le cluster teste toutes les 3 min l’accès aux disques et se sont les liens du cluster (aussi appelé HeartBeat) qui sont utilisés pour accéder aux disques et dès saturation, le service cluster devient instable, ce qui peut se traduire par:

  • I/O Disques mis en pause sur les nœuds qui n’ont pas d’accès aux disques;
  • Qui peut impliquer: VM qui plante si la pause est trop longue;
  • Qui peut impliquer: Si la VM devient instable, le service cluster tente de la redémarrer sans succès;
  • Qui peut impliquer: Si plusieurs VMs sont instable, le service cluster redémarre sur le nœud/et ou tous les nœuds du cluster;
  • Qui peut impliquer: Toutes les VMs redémarrent sans préavis.

Une vérification simple avec le script suivant qui permettra de lister les disques sur chaque noeud:

Ce qui donne un résultat de ce type:

 

Deux vérifications valent toujours mieux qu’une.

 Article initialement publié sur blog.sogeti.ch

, ,

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *