100 millions de fichiers perdus sur une baie de stockage Dell T630

Publiée le 16/07/2021

Nous avons quotidiennement des demandes de récupération de données sur des systèmes RAID divers (RAID 1, RAID 0, RAID 5, RAID 6). Lorsqu’un client nous sollicite pour récupérer des données sur un serveur, nous savons qu’il y aura un certain volume de données à traiter. Mais nous n’avons pas des demandes de récupération pour un RAID de 80 To tous les jours !

 

LA PROBLÉMATIQUE

Un client spécialisé en ingénierie logicielle nous contacte pour récupérer les données perdues sur son serveur Dell PowerEdge T630. La baie se compose de 12 disques durs Seagate et Toshiba de 8 To assemblés en RAID5 (ainsi que 3 disques de 300 Go en RAID1 pour l’OS).

Plusieurs disques Seagate ST8000NM0195 défectueux ont déjà été remplacés par le client suite à des alertes. Malheureusement, une coupure de courant a occasionné la panne de 2 disques supplémentaires lors du redémarrage. La tolérance aux pannes du RAID5 n’étant que de 1 disque, le volume de données NTFS est inaccessible. Le client a perdu l’accès à 5 machines virtuelles VHDX dont une très importante de 45 To.
Un début de reconstruction est initié par le client en remplaçant les 2 disques en défaut, mais stoppée sur le  conseil de nos experts.
 


NOTRE PROCESS DE RÉCUPÉRATION DE DONNÉES SUR SERVEUR

  1. Évaluation de la problématique avec le client et nos experts
  2. Rapatriement du matériel par notre transporteur
  3. Analyse des états des disques et duplication avec gestion de secteurs défectueux
  4. Dépannage en salle blanche des disques en panne
  5. Recherche des paramètres du RAID5 et tests de différentes combinaisons
  6. Vérification des structures et tests d’intégrité de fichiers
  7. Extraction des données sur un serveur de prêt
  8. Retour des données récupérées au client
     


LE SUCCÈS DE LA RÉCUPÉRATION

Nos experts sont parvenus à dépanner et à dupliquer les disques en erreur pour émuler le volume RAID d’origine. Les 3 machines virtuelles importantes au format Hyper-V (VHDX) ont pu être sauvées, ainsi que le contenu : plus de 100 millions de fichiers au total !
La difficulté qui a été rencontrée par nos équipes techniques est que le début du volume RAID a été endommagé à cause de la reconstruction qui a été lancée. 
Pourquoi ? Parce qu'il y avait déjà un disque en erreur parmi les 2 qui était donc désynchronisé.
Pour plus d’explications, rendez-vous sur notre page de précautions sur les RAID.
Heureusement, le client a arrêté le processus suite aux conseils de nos experts, ce qui a limité l’impact de cette mauvaise manipulation sur l’intégrité des données importantes (même si cela a engendré des difficultés supplémentaires pour le travail de récupération).
Une reconstruction totale avec le disque désynchronisé aurait provoqué un endommagement important des données.


LES ENSEIGNEMENTS À RETENIR

  • Les reconstructions sur systèmes RAID5 sont à lancer avec précautions et sous certaines conditions :
    - Si  1 seul disque est en erreur, les données sont toujours accessibles (mode dégradé) et il est envisageable de remplacer le disque défectueux par un neuf.
    - Si 2 disques ou plus sont en erreurs, réintégrer des disques potentiellement désynchronisés pour effectuer une reconstruction est extrêmement dangereux et fortement déconseillé.
  • Le traitement de volumes de données important demande un équipement spécifique pour connecter un nombre de nombreux disques simultanément, ainsi qu’une capacité de stockage conséquente.  Notre laboratoire dispose actuellement d’une capacité de clonage de 3000 To (ou 3 Po), que nous pouvons augmenter en cas de besoin.