Coupure de courant et perte de données sur serveur ou NAS : le scénario le plus sous-estimé

Les pannes de disques et les erreurs humaines concentrent l’attention des administrateurs, mais les coupures de courant provoquent une part significative des corruptions de données que notre laboratoire traite chaque année. Le scénario est presque toujours le même : une interruption électrique, un onduleur qui n’a pas rempli son rôle, un serveur qui redémarre sans contrôle de cohérence, et un volume RAID ou un système de fichiers qui bascule dans un état irrécupérable sans intervention spécialisée. La plupart de ces situations auraient pu être évitées. Si votre serveur ou NAS a subi une coupure de courant et que vos données sont inaccessibles, notre équipe intervient en urgence sur toutes les configurations.

Ce qui se passe réellement lors d’une coupure brutale

Un serveur ou un NAS en fonctionnement maintient en permanence des opérations d’écriture en cours : mises à jour de fichiers, écritures dans les journaux du système de fichiers, modifications des métadonnées RAID. Ces opérations ne sont pas instantanées. Elles transitent par plusieurs couches de mémoire volatile, le cache du contrôleur RAID, la mémoire vive du système, le cache interne des disques, avant d’être définitivement inscrites sur le support physique.

Lorsque l’alimentation est coupée, tout ce qui se trouve dans ces mémoires volatiles disparaît. Si une opération d’écriture de métadonnées était en cours à cet instant précis, le système de fichiers se retrouve dans un état incohérent : une entrée de répertoire pointe vers un bloc de données qui n’a jamais été écrit, un journal de transactions est tronqué en milieu d’opération, ou la table de parité RAID ne correspond plus aux données réelles des disques. C’est ce que les systèmes Linux désignent comme un dirty shutdown (arrêt non synchronisé).

Les systèmes de fichiers modernes utilisés par les NAS (ext4 sur la plupart des NAS Synology et QNAP QTS, Btrfs sur les Synology récents, ZFS sur QNAP QuTS hero) intègrent des mécanismes de protection (journalisation pour ext4, copy-on-write pour Btrfs et ZFS) conçus pour limiter les dégâts. Ces mécanismes fonctionnent dans la majorité des cas. Mais ils ont des limites, notamment lorsque la coupure survient pendant une phase d’écriture intensive, une reconstruction RAID, une synchronisation de sauvegarde, une mise à jour du firmware, ou lorsque le cache des disques eux-mêmes contenait des données non encore écrites sur les plateaux.

Le cache du contrôleur RAID : la zone de danger invisible

Sur les serveurs équipés d’un contrôleur RAID matériel (Dell PERC, HP Smart Array, Broadcom MegaRAID), les performances d’écriture reposent sur le cache du contrôleur. En mode write-back, le contrôleur confirme l’écriture à l’application dès que les données atteignent son cache, avant même qu’elles soient inscrites sur les disques. Ce mode offre des performances nettement supérieures au mode write-through (où chaque écriture est confirmée uniquement après inscription physique), mais il crée une fenêtre de vulnérabilité : les données présentes dans le cache et non encore écrites sur les disques sont perdues en cas de coupure.

Pour couvrir cette fenêtre, les contrôleurs RAID professionnels disposent d’une protection du cache : soit une batterie (BBU, Battery Backup Unit), soit un supercondensateur couplé à une mémoire flash (CacheVault chez Broadcom, Flash-Backed Write Cache chez HP). La BBU maintient le cache sous tension pendant une durée limitée, typiquement jusqu’à 72 heures, le temps que l’alimentation soit rétablie et que le contrôleur puisse écrire les données en attente sur les disques. Le supercondensateur, lui, transfère le contenu du cache vers une mémoire flash non volatile en quelques secondes, ce qui le rend insensible à la durée de la coupure.

Le problème survient quand cette protection ne fonctionne plus. Les batteries BBU ont une durée de vie de trois à cinq ans. Avec le vieillissement chimique, leur capacité diminue jusqu’à ne plus pouvoir maintenir le cache assez longtemps. Lorsque le contrôleur détecte une batterie défaillante, il bascule automatiquement en mode write-through pour protéger les données, mais au prix d’une chute de performances que certains administrateurs contournent en forçant le mode write-back manuellement. Cette décision expose le serveur à une perte de données en cas de coupure, exactement comme s’il n’y avait pas de batterie du tout.

Les NAS grand public et PME (Synology, QNAP, Asustor) n’ont pas de contrôleur RAID matériel. Leur RAID est logiciel (mdadm pour Synology DSM et QNAP QTS, ZFS pour QNAP QuTS hero), et ils ne disposent d’aucune protection de cache équivalente à une BBU. Le cache d’écriture des disques eux-mêmes, activé par défaut sur la plupart des disques SATA, constitue alors la seule zone de données volatiles non protégée.

Contacter Recoveo

L’onduleur : indispensable, mais insuffisant s’il n’est pas maintenu

Un onduleur (UPS) est la première ligne de défense contre les coupures de courant. Son rôle est double : fournir une alimentation temporaire pour permettre un arrêt propre du système, et filtrer les micro-coupures et les surtensions qui peuvent endommager les alimentations.

Synology DSM et QNAP QTS/QuTS hero intègrent tous deux une gestion native de l’onduleur, accessible dans le panneau de configuration. Le NAS, connecté à l’onduleur par USB ou via SNMP sur le réseau, détecte le passage sur batterie et déclenche un arrêt propre, arrêt des services, démontage des volumes, puis extinction, avant que la batterie ne soit épuisée. Cette fonctionnalité est documentée dans le Knowledge Center Synology (Panneau de configuration > Matériel et alimentation > Onduleur) et dans la FAQ QNAP dédiée à la configuration UPS.

Le problème réside rarement dans la configuration logicielle. Il réside dans la batterie de l’onduleur lui-même. Les batteries plomb-acide (VRLA) des onduleurs grand public et PME ont une durée de vie de trois à cinq ans dans des conditions optimales, souvent moins en environnement chaud ou mal ventilé. Une batterie dégradée peut ne tenir que quelques secondes au lieu des minutes nécessaires à un arrêt propre. L’onduleur signale le passage sur batterie, le NAS commence sa procédure d’extinction, mais l’alimentation tombe avant que les volumes soient démontés.

La seule parade est de tester régulièrement la capacité réelle de l’onduleur, un auto-test mensuel est un minimum, et de remplacer la batterie dès que l’autonomie mesurée passe sous le seuil nécessaire à l’arrêt complet du système. Ce seuil dépend du nombre de NAS ou serveurs alimentés et du temps d’arrêt de chacun, mais un minimum de cinq minutes d’autonomie réelle sous charge constitue une marge raisonnable.

Un onduleur protège contre les coupures du réseau électrique. Il ne protège pas contre une défaillance de l’alimentation interne du serveur. Si le bloc d’alimentation du NAS ou du serveur tombe en panne, l’onduleur continue de fournir du courant au câble, mais la machine s’éteint quand même brutalement. C’est pour cette raison qu’un onduleur ne remplace pas une BBU sur un contrôleur RAID matériel : les deux protègent contre des scénarios différents.

Les corruptions typiques après une coupure

Les conséquences d’un arrêt brutal varient selon le système de fichiers et la configuration RAID. Sur ext4, le journal de transactions est rejoué automatiquement au redémarrage suivant. Dans la majorité des cas, le système de fichiers retrouve un état cohérent, au prix éventuel de la perte des dernières secondes d’écriture. Si le journal lui-même est corrompu, e2fsck tente de reconstruire la cohérence, mais peut être amené à supprimer des entrées orphelines ou à tronquer des fichiers.

Sur Btrfs, le mécanisme copy-on-write est en principe plus résilient : les nouvelles données sont écrites à un nouvel emplacement avant que le superbloc ne soit mis à jour pour pointer vers elles. Mais si la mise à jour du superbloc est interrompue, ou si l’arbre de chunks (qui fait la correspondance entre adresses logiques et emplacements physiques sur les disques) est endommagé, le volume peut devenir entièrement impossible à monter. La récupération passe alors par des outils spécialisés comme btrfs-restore, qui parcourent les blocs de métadonnées bruts sans monter le système de fichiers.

Sur les systèmes ZFS (QNAP QuTS hero), la résilience est généralement meilleure grâce aux checksums systématiques et aux copies multiples de métadonnées, mais une coupure pendant une opération de resilvering (l’équivalent ZFS du rebuild RAID) reste un scénario à risque.

Au niveau du RAID lui-même, une coupure peut provoquer une incohérence de parité. Les données écrites sur un disque de la grappe, mais pas encore répliquées sur les disques de parité correspondants, créent ce qu’on appelle un write hole. Au redémarrage, le système RAID ne sait pas quels blocs sont cohérents et lesquels ne le sont pas. Sur les NAS utilisant mdadm, un bitmap d’écriture (write-intent bitmap) limite l’étendue de la resynchronisation nécessaire, mais ne l’élimine pas.

Ce qu’il faut mettre en place concrètement

La protection contre les coupures de courant repose sur trois niveaux complémentaires, chacun couvrant un scénario que les deux autres ne couvrent pas. Il est par ailleurs indispensable de rester vigilant à tous les signes avant-coureurs d’une panne NAS ou serveur, qui peuvent vous alerter sur de futures défaillances probables.

L’onduleur, connecté au NAS ou au serveur et correctement configuré pour déclencher un arrêt automatique, est le premier niveau. Il couvre les coupures du réseau électrique, les micro-coupures et les surtensions. Sa batterie doit être testée au moins une fois par mois (la plupart des onduleurs proposent un auto-test) et remplacée tous les trois à cinq ans, ou dès que l’autonomie mesurée sous charge devient insuffisante pour un arrêt propre.

Sur les serveurs équipés d’un contrôleur RAID matériel, la vérification de la BBU ou du module supercondensateur constitue le deuxième niveau. L’état de la batterie est consultable via les outils du fabricant : arcconf chez Adaptec, storcli chez Broadcom/LSI, ssacli chez HPE. Un contrôleur qui signale une batterie en fin de vie ne doit jamais être maintenu en mode write-back manuellement. Le remplacement de la BBU (ou la migration vers un module supercondensateur, qui ne souffre pas du même vieillissement chimique) est la réponse appropriée.

La sauvegarde 3-2-1 constitue le troisième niveau. Un onduleur et une BBU réduisent considérablement le risque de corruption, mais aucun dispositif matériel ne couvre tous les scénarios. Une sauvegarde récente, stockée sur un support distinct et hors site, reste la seule garantie absolue de pouvoir restaurer les données après un sinistre électrique majeur. C’est d’ailleurs après une coupure de courant ayant corrompu simultanément le volume principal et le NAS de sauvegarde local, tous deux branchés sur la même alimentation, que beaucoup d’entreprises réalisent la nécessité d’une copie réellement distante.

Après une coupure : les réflexes qui évitent d’aggraver la situation

Un serveur ou un NAS qui redémarre après une coupure brutale passe par une phase de vérification automatique, replay du journal ext4, vérification Btrfs, resynchronisation RAID. Cette phase est normale et ne doit pas être interrompue. Éteindre la machine pendant cette opération provoque une seconde interruption qui aggrave les incohérences.

Si le volume ne remonte pas après cette vérification, ou si le NAS affiche un état « planté » ou « crashé », la situation exige de la prudence. Lancer un contrôle de fichiers manuellement (fsck, btrfs check) sur un volume dégradé peut supprimer des métadonnées utiles à la récupération. Les erreurs à ne pas commettre sur un NAS en panne sont détaillées dans notre article dédié. De la même manière, accepter une proposition de réinitialisation du volume par l’interface du NAS détruit les métadonnées RAID existantes et rend la récupération considérablement plus difficile.

Le réflexe le plus sûr dans ce cas : ne rien toucher, éteindre proprement, étiqueter les disques avec leur numéro de baie, et contacter un laboratoire de récupération de données. Les métadonnées RAID (superblocs mdadm ou configuration ZFS) sont stockées sur les disques eux-mêmes et restent exploitables tant qu’aucune opération de réécriture n’a été lancée.

FAQ coupure de courant et perte de données

Mon onduleur a une LED verte, cela signifie-t-il que la protection fonctionne ?

La LED indique que l’onduleur est sous tension et alimente le NAS, mais elle ne renseigne pas sur la capacité réelle de la batterie. Seul un test de charge réel (auto-test ou débranchement contrôlé) permet de vérifier que l’autonomie est suffisante pour un arrêt propre.

Mon NAS Synology ou QNAP a redémarré après une coupure et semble fonctionner normalement. Dois-je m’inquiéter ?

Si le volume est remonté, que les données sont accessibles et qu’aucune alerte n’apparaît dans les journaux système, le mécanisme de journalisation a probablement fait son travail. Il est néanmoins prudent de lancer un scrubbing (nettoyage des données) depuis l’interface du NAS pour détecter d’éventuelles incohérences silencieuses, et de vérifier que la dernière sauvegarde est intacte.

Mon serveur a un contrôleur RAID avec batterie BBU. Ai-je quand même besoin d’un onduleur ?

Oui. La BBU protège uniquement le cache du contrôleur RAID. Elle ne protège pas le système d’exploitation, les applications en cours d’exécution, ni le système de fichiers contre un arrêt brutal. L’onduleur et la BBU couvrent des couches différentes et sont complémentaires.

Comment savoir si la batterie de mon onduleur est encore fonctionnelle ?

La plupart des onduleurs proposent un auto-test (APC, Eaton, CyberPower). Sur les modèles APC, le logiciel PowerChute ou l’interface réseau affiche la capacité restante et l’autonomie estimée. Un remplacement est recommandé tous les trois à cinq ans, ou dès que l’autonomie estimée passe sous cinq minutes sous charge réelle.

Une coupure de courant pendant une reconstruction RAID peut-elle provoquer une perte de données ?

Oui, c’est l’un des scénarios les plus critiques. Le rebuild RAID lit l’intégralité des disques survivants et écrit en continu sur le disque de remplacement. Une coupure à ce moment interrompt les deux opérations simultanément, laissant la grappe dans un état partiellement reconstruit. Selon la configuration, le rebuild repart de zéro ou la grappe bascule en état crashé. Un onduleur fonctionnel est particulièrement indispensable pendant cette phase.

Les coupures de courant répétées sont-elles cumulatives en termes de dommages ?

Les mécanismes de récupération (journal ext4, vérification Btrfs) rattrapent généralement chaque coupure isolée. Mais les arrêts brutaux répétés usent les composants physiques, alimentation, condensateurs des disques, batterie de l’onduleur, et des micro-corruptions non détectées peuvent s’accumuler silencieusement. Un scrubbing régulier depuis l’interface du NAS reste le meilleur moyen de les détecter avant qu’elles ne deviennent critiques.

Les SSD sont-ils plus résistants que les disques durs aux coupures de courant ?

Pas nécessairement. Les SSD n’ont pas de pièces mécaniques vulnérables, mais leur table de correspondance interne (FTL) est maintenue en mémoire volatile. Une coupure pendant une écriture peut corrompre cette table et rendre le SSD entièrement inaccessible. Les SSD entreprise intègrent des condensateurs de protection (PLP) qui permettent de sauvegarder la FTL en cas de coupure. Les SSD grand public n’ont généralement pas cette protection matérielle.

Votre serveur ou NAS a subi une coupure de courant et vos données sont inaccessibles ? Notre laboratoire intervient en urgence sur toutes les marques et configurations. Demander un diagnostic gratuit.