Picto Extranat Picto Carte

Récupérer des données sur un vSAN: un de nos derniers succès

RAID 5 dégradé, serveur de sauvegarde hors service, vSAN HP LeftHand en panne. Découvrez comment les experts Recoveo ont reconstruit logiquement l’infrastructure et récupéré près de 100% des données en moins de 2 jours.

Quand tout tombe en panne en même temps

Fin de semaine dernière, une collectivité nous a contactés en astreinte pour un cas rare: un RAID 5 sévèrement dégradé, un serveur de sauvegarde hors service et une infrastructure virtuelle critique à l’arrêt.
En quelques heures, l’ensemble de leur système reposant sur des machines virtuelles était indisponible, avec un risque majeur de perte de données et d’interruption prolongée de leur activité. Plusieurs intervenants spécialisés de la virtualisation sont intervenus… sans succès.

2 RAID 5 du serveur de production et 1 RAID 5 du serveur de backup HS

Le premier symptôme : un RAID 5 composé de 4 disques fonctionnels sur 6 (celui de back up), alors qu’il en faut au moins 5 en bon état pour espérer une reconstruction classique. Il avait subi une panne mécanique sur les deux disques. Impossible de lire les disques donc.

Ensuite un double RAID 5 contenait le serveur de production… sur ces 12 disques il y en avait un HS et un autre commençait à être défaillant. Avec 11 disques sur 12, nous avons pu faire une récupération. Mais la panne ne venait pas de la panne mécanique ! Mais d’un problème de traitement et de l’interprétation des données.

La situation était donc la suivante :

  • On a pu reconstruire le RAID par nos moyens classiques de récupération mais le serveur principal restait inexploitable par nos outils habituels 
  • Le serveur de back up s’est avéré inopérationnel pour faire une reconstruction habituelle.

Dans un contexte de production, ce type de scénario peut signer l’arrêt complet de l’activité pendant plusieurs jours, voire davantage, si aucune solution de récupération de données n’est possible.

Une infrastructure complexe : RAID 5, vSAN HP LeftHand et VMFS

Le client nous avait donc confié les éléments de son infrastructure :

  • Un serveur intégrant 2 RAID 5 avec du VMFS contenant des fichiers VMDK,
  • Ces VMDK contiennent un système particulier et rare => HP LeftHand (vSAN).
système vSAN LeftHand HP

Pour rappel, sur ce double RAID 5, les deux RAID avaient au moins 1 disque défectueux: l’un avec une panne mécanique, l’autre avec plusieurs secteurs défectueux.

Notre mission : retrouver l’accès aux volumes virtuels et aux machines virtuelles hébergées, malgré l’absence de sauvegarde exploitable et l’état sain de la structure de stockage pourtant.

Après analyse, nos équipes sont parvenues à extraire 4 volumes VMFS 6 d’environ 1,2 To chacun, soit près de 4,8 To de données utiles, comprenant une vingtaine de machines virtuelles.

les 4 partitions en VMFS

Un développement logiciel sur mesure pour réorganiser les blocs

La particularité de ce dossier : aucune réparation logicielle avec des outils classiques dans la récupération de données ou reconstruction de vSAN n’était possible.
Pour accéder à la donnée, nous avons dû aller au-delà des outils habituels.

Les ingénieurs Recoveo ont développé un logiciel maison spécifique permettant de :

  • Reconstituer la logique de répartition des blocs mémoire
  • Réorganiser les blocs issus du vSAN
  • Redonner une cohérence exploitable aux volumes VMFS afin de retrouver les fichiers VMDK.

Cette approche de reconstruction logicielle avancée a été la clé du succès sur ce cas extrêmement rare, en compensant l’absence d’interprétation logique par le serveur et l’absence de la configuration initiale du client.

Une intervention en urgence : du vendredi soir au dimanche midi

Compte tenu de l’impact pour le client, l’intervention a été menée en horaires décalés, soirs et week-end :

  • Début des opérations : vendredi à 21h07
  • Analyse, développement de l’outil, reconstruction logique et extraction des données
  • Remise du bilan de récupération : dimanche à 13h46

En moins de 2 jours non ouvrés, l’entreprise disposait :

  • De la liste des données récupérables,
  • Des machines virtuelles nécessaires à la reprise,
  • Des supports prêts à être réimplantés par leurs équipes.

Le taux de réussite a été de 100%, notamment sur les VMs dont le client souhaitait assurer lui-même la réintégration dans son infrastructure.

Impact pour le client : une reprise d’activité en un temps record

Sans cette opération de récupération, le client faisait face à :

  • Une perte totale de ses machines virtuelles,
  • Un serveur de backup irrécupérable,
  • Un temps et coût d’arrêt difficile à estimer, mais potentiellement long et coûteux.

Grâce à cette intervention :

  1. Les données critiques ont été récupérées en moins de 2 jours et rendues en moins de 4 jours,
  2. la totalité (après confirmation client)  des VMs a pu être réimplantée par le client dès la réception,
  3. La collectivité a pu reprendre son activité au plus vite dès réintégration de ses données par son service

Ce cas a mis en lumière à quel point la reconstruction logicielle avancée peut faire la différence lorsqu’aucune solution de restauration “classique” n’est possible.

Ce qu’il faut retenir de cette success story

  1. Un cas extrêmement rare combinant RAID 5 dégradé, backup HS et vSAN complexe. Le raid commençait à tomber avec 2 disques sur 12 en défaut dont 1 qui était HS.
  2. Une reconstruction logicielle sur mesure pour réorganiser les blocs mémoire et accéder aux volumes VMFS.
  3. 4,8 To de données utiles récupérées, soit une vingtaine de machines virtuelles.
  4. Une intervention du vendredi soir au dimanche midi, avec un taux de réussite total

Chez Recoveo, ce type de dossier confirme l’importance de :

  • Consulter rapidement des spécialistes dès les premiers symptômes,
  • Miser sur des compétences de R&D et de développement logiciel interne pour faire face aux cas les plus critiques.

Vous faites face à un RAID 5 dégradé, un vSAN injoignable ou des machines virtuelles inaccessibles ?

Contactez nos équipes avant toute manipulation : un diagnostic rapide peut faire la différence entre une récupération complète et une perte définitive.

Cellule d'urgence ransomware

Ligne direct 24/7

Contactez dès à présent nos experts pour vous accompagner et accélérer votre reprise d’activité.

Whatsapp