240 TB récupérés ?
Nouveau record pour nos experts !

Une société d’architecture du Sud de la France vient de perdre l’accès à son système d’information ce 15 juillet. Il s’agit d’une PME basée à Marseille de plus de 100 personnes. Ils souhaitent retrouver en priorité des machines virtuelles, leurs sauvegardes, ainsi que des fichiers d’Archicad notamment. 

L’infrastructure touchée est composée d’une dizaine de serveurs Dell PowerEdge R730xd pour un volume record de plus de 240Tb ! Elle est particulièrement complexe dans sa composition, car elle est basée en plus sur la technologie S2D, autrement appelée Microsoft Storage Space. Cette dernière permet de regrouper plusieurs serveurs en clusters partagés. Nous avons réalisé un article technique dédié, que vous pouvez retrouver sur ce lien. Ici, nous retrouvons plusieurs pools de stockage, répartis sur une centaine de SSD de 8Tb.

Afin de gagner du temps, nos experts ont travaillé sur une seule grappe contenant les fichiers prioritaires de notre client. Cette dernière contenait 3 pools de stockage, dont celui de sauvegarde, enregistrés sur une trentaine de SSD au format nvme, représentant un volume de données total d’environ 100Tb. Les machines virtuelles sont des Hyper-V stockées sur un système Windows Server en ReFS.

SSD en panne : métadonnées corrompues ?

La problématique : 4 SSD sont en panne et bloquent le démarrage serveur. Ils contiennent les données et leur sauvegarde virtuelle. Suite à une mise à jour des drivers, une perte des indexs a engendré ce blocage. Il s’agit d’un cas récurrent de corruption des métadonnées des SSD pour lequel nos experts ont l’habitude d’intervenir. Cependant l’environnement S2D ajoute une surcouche de complexité particulière à ce dossier.

Les données étant dans un pool de stockage important, nous avons confié la responsabilité du clonage des supports au client. Nous leur avons fourni la procédure afin de réaliser des clones bas niveau de chaque nvme, ainsi que les 30 disques de destination. Grâce aux logs, nous avons pu vérifier et confirmer le bon fonctionnement de l’opération.

Diagnostic des SSD

Nous ne travaillerons que sur ces derniers. Dès réception le 28 juillet, nos experts corroborent le premier diagnostic client qui indiquait 4 SSD défaillants mais se rendent vite compte qu’un cinquième comporte également des métadonnées corrompues. 

Les disques sont ensuite montés dans notre baie d’accueil pouvant contenir plus de 120 éléments. Nous pouvons désormais travailler sur l’assemblage et la reconstruction du système S2D / ReFS. Très rapidement, nous parvenons à comprendre la plus grosse problématique : il existe plusieurs versions des métadonnées, dont certaines avec des conflits d’information. Par exemple, des adressages de fichiers qui désignent un même emplacement sur le pool de stockage.

Développement sur mesure et récupération de données totale !

Nos experts développent donc un outil sur mesure pour tester l’ensemble des métadonnées retrouvées, et vérifier la cohérence de ces dernières plus rapidement. Nous avons ainsi détecté le 5 août, une vingtaine de versions de métadonnées potentielles.

Il a ensuite été nécessaire de débloquer manuellement les conflits identifiés pour rétablir les accès au pool de stockage. Après plusieurs heures de travail et de nombreux tests de configuration, nous parvenons enfin à accéder à une arborescence complète le 6 août.

Nous procédons enfin à un scan complet avec les paramètres systèmes obtenus. Après quelques jours d’analyse et de vérification d’intégrité, nous obtenons un résultat exceptionnel avec plus de 90% des données récupérées fonctionnelles. Au total, les chiffres donnent le vertige et ce ne sont pas moins de 92,3Tb qui auront été retrouvés et plus de 10 millions de fichiers sauvés. (Archicad, bureautique, etc.)

S2D-microsoft-storage-space

Retour et reprise d'activité

Nous effectuons un transfert des données récupérées sur notre NAS de prêt, exceptionnellement équipé avec des disques de grande capacité, afin de supporter l’ensemble des données clients. Le retour se fait par transporteur dédié à nouveau, en ce 10 août. Ce cabinet d’architecture a ainsi pu reprendre son activité très rapidement, malgré cet incident impactant ses données importantes.