La restauration «Bare Metal» accélère le redémarrage de vos machines hors services

Par Morgan Edwards, CEO d'UltraBac Software

PROTECTION DES SAUVEGARDES : UN PLUS POUR L'INTEGRITE DE VOS DONNEES

Morgan Edwards, CEO d'UltraBac Software Depuis les débuts de l'informatique il a été universellement reconnu que la sauvegarde est un élément critique de protection contre la perte des données. De nos jours les montagnes de données saisies en ligne la capacité de récupérer des données perdues n'est pas un luxe, mais fait partie intégrante de l'activité d'une organisation.

La restauration dite "Bare Metal" (BMR, Bare Metal Recovery ou Bare Metal Restore) est souvent considérée comme une couche supplémentaire de protection pour isoler une organisation contre des arrêts-machines non-planifiés. Alors que les logiciels de sauvegarde et restauration fichier-par-fichier sont excellents pour se prémunir des pertes de données, il existe un désavantage inhérent à cette solution si l'on souhaite faire redémarrer rapidement une machine non-bootable vers un état totalement opérationnel. Les inconvénients sont les nombreuses étapes requises pour effectuer une restauration fichier par fichier, et le manque de garantie que chaque modification du système d'exploitation a été réintroduite même après la restauration. Ainsi La restauration Bare Metal devrait être en fait une partie vitale du plan de reprise après sinistre (Disaster Recovery plan) de chaque entreprise, et pas seulement une pensée après-coup.

HISTOIRE DE LA RESTAURATION BARE METAL

Au début de l'informatique le coût de stockage était si élevé que les transactions individuelles étaient imprimées sur cartes perforées, bandes de papier, ou fiches de comptes. Les totaux des transactions des clients étaient stockés sur une bande magnétique au dos de leur fiche de compte, sur une cassette, ou pour ceux pouvant se le payer, de gros disques de métal. En raison des grandes dépenses pour des petits montants de stockage, et parce que le matériel était souvent défectueux, les systèmes ont été conçus pour permettre aux entreprises de fonctionner clopin-clopant en utilisant le papier comme solution de repli pendant les longues périodes de réparation qui arrivaient souvent.

Au fur et à mesure que les avancées techniques dans le monde du stockage diminuaient les coûts, plus de données pouvaient être conservées en ligne. Cela signifiait que les vendeurs de matériel devaient garder le rythme en conservant une meilleur technologie. Dans certains cas les avancées étaient requises, et pas seulement produites pour le désire d'inventer la prochaine innovation révolutionnaire. Un bon exemple de développement nécessaire a été la restauration Bare Metal (BMR). La BMR était une fonction obligatoire pour les utilisateurs VAX de Digital Equipment Corporation (DEC), à l'époque où DEC était un acteur majeur sur le marché des mini ordinateurs. C'était le cas parce qu'un VAX ne prenait en charge qu'un seul système d'exploitation. Les ordinateurs d'autres constructeurs prenaient souvent en charge les lecteurs de plusieurs systèmes d'exploitation différents, ainsi en cas de défaillance de l'un d'entre eux (pour n'importe quelle raison), vous pouviez simplement redémarrer depuis un autre lecteur. La BMR était une technologie née d'une requête par les utilisateurs finaux de VAX pour restaurer rapidement et facilement une machine 'morte' ayant perdu sa capacité à booter. On y fait souvent référence comme le démarrage 'à froid' d'une machine.

Quand Microsoft a développé Windows NT, ils avaient également conçu une machine ne prenant en charge qu'un seul système d'exploitation. Les utilisateurs finaux de Windows se virent confrontés aux mêmes problèmes que les utilisateurs de VAX - il n'était pas facile de réinstaller un Système d'exploitation et de restaurer la machine au même point qu'elle l'était avant l'incident empêchant son redémarrage. Il n'a pas fallu longtemps aux utilisateurs de VAX qui s'étaient convertis à Windows NT pour qu'ils demandent un équivalent de restauration Bare Metal.

La communauté des logiciels tiers spécialisés dans la sauvegarde a été lente à comprendre le sens de la restauration Bare Metal. Pour de nombreux utilisateurs, un échec du système d'exploitation n'avait jamais été un grand problème pour l'équipement qu'ils prenaient en charge avant de migrer vers NT. Cependant au fur et à mesure que les utilisateurs finaux devenaient sophistiqués et migraient vers le nouveau système d'exploitation, la demande pour une nouvelle méthode par restaurer rapidement et facilement une machine hors service a pris de l'ampleur. Afin de créer cette solution il a été demandé aux éditeurs de penser au-delà des méthodes traditionnelles de sauvegarde et restauration fichier-par-fichier qui prévalaient encore jusqu'à quelques années. Ainsi les produits de Bare Metal restore disponible aujourd'hui ont été grandement influencés par le succès de Windows en environnement d'entreprise.

Ces cinq dernières années ont connu une croissance exponentielle des nouvelles options matérielles et logicielles offrant une meilleure protection à l'utilisateur final. En raison de la quantité des choix disponibles il n'est pas surprenant que beaucoup d'utilisateurs finaux ne parviennent pas à décider quelle approche de la protection des données est critique et mérite une dépense, à l'opposé de ce qui pourrait être optionnel pour leur environnement particulier.

L'arrêt des machines est une donnée majeure dans l'arrêt de l'activité de l'entreprise, c'est pourquoi il est prudent d'en minimiser le risqué. Cependant un problème majeur est l'équilibre entre le coût d'une solution viable et quelques niveaux acceptables d'arrêt non-planifié des machines puisqu'il est extrêmement coût d'acheter et d'implémenter un sytème informatique fonctionnant en continu.

L'ERE WINDOWS NT

Quand Microsoft a publié Windows NT, pratiquement la totalité des utilisateurs effectuait des sauvegardes régulières sur bande en utilisant le programme de sauvegarde natif. Alors que les solutions tierces commençaient à émerger UltraBac Software a introduit le premier produit de sauvegarde pour serveurs Windows qui non seulement sauvegardait sur bandes, mais avait été également conçu pour écrire sur disque comme une options de stockage. Alors que le prix du disque continuait de baisser à la fin des années 1990, tout produit de sauvegarde compétitif sur le marché de Windows proposait des fonctionnalités disque-vers-disque. La demande du consommateur a inspiré ce déplacement vers une forme de média différente et plus stable, alors que les bandes ont souvent prouvé qu'elles étaient moins que fiables. Ces requêtes pour du stockage alternatif s'est seulement accéléré au fur et à mesure que les prix des disques durs ont continué de chuter.

Alors que les utilisateurs finaux devenaient de plus en plus confiants envers les sauvegardes de disque-vers-disque ils réalisèrent que ces derniers avaient un trou énorme dans leurs restaurations fichier-par-fichier. La possibilité de sauvegarder plus rapidement que les bandes en utilisant les disques a généré des attentes en termes de restaurations plus rapides. Cependant avec les méthodes de restauration traditionnelles ceci n'était pas possible. Quand il fallait cinq heures pour sauvegarder sur bandes, la récupération d'une machine défectueuse en cinq heures était considérée comme normal, voir exceptionnel. Quand les temps de sauvegarde ont été divisés par deux il restait à créer la technologie pour restaurer rapidement une machine totalement hors service.

Après la sortie de Windows NT les consommateurs avaient fréquemment l'expérience de " l'écran bleu de la mort ". un écran bleu ne causait normalement aucune perte de données ; la machine refusait seulement de démarrer, non inutilisable, jusqu'à sa récupération. Pour la récupérer, l'administrateur devait installer un système d'exploitation temporaire, installer le logiciel de sauvegarde, utiliser le logiciel de sauvegarde pour restaurer la partition de système d'exploitation d'origine, puis redémarrer. Les sauvegardes et les restaurations étaient souvent effectuées vers et depuis les bandes avec un problème commun - une sauvegarde restaurée n'avait pas les informations-clés installées sur la machine depuis l'installation. Hormis le temps pris par la restauration, le fait qu'une machine défaillante n'était pas entièrement restaurée à son étant antérieur avant l'incident a généré la demande pour une meilleure manière de restaurer. Ceci a conduit au développement de la restauration Bare Metal pour Windows. Malheureusement beaucoup d'utilisateurs y résistèrent initialement parce qu'ils percevaient le manque de fonctionnalités et présumaient un coût exorbitant.

TIME IS MONEY - LE TEMPS C'EST DE L'ARGENT

Alors que la définition (et la valeur monétaire) d'une restauration rapide d'une machine défaillante peut varier d'une organisation à une autre, un fait indiscutable est celui qu'un arrêt non-planifié coûte de l'argent. La perte provenant d'un arrêt du système est une dépense qui n'est pas tout le temps bien appréhendée dans bien des organisations. Elle peut même varier selon les heures de la journée.

Le temps d'arrêt pour l'entreprise A peut coûter € 5000 de l'heure pendant que le coût pour l'entreprise B peut se monter à € 100.000. Même le taux par serveur à l'intérieur d'une entreprise peut être grandement différent selon la criticité des applications exécutées. Voici une formule très simple pour estimer le coût d'un temps arrêt * :
(masse salariale par heure) x
(Fraction des collaborateurs impactés par l'incident + revenue moyen par heure) x
(Fraction du revenue affecté par l'incident)
= coût moyen estimé pour une heure d'arrêt critique
*source : A Simple Way to Estimate the Cost of Downtime - David A. Patterson, Computer Science Division, UC Berkeley

Les coûts lies aux temps d'arrêt sont divisés en deux catégories : les coûts tangibles et les intangibles. Le calcul des coûts tangibles tels que la rémunération des employés, les coûts de fonctionnement et les dépenses des locaux peuvent s'estimer directement avec une grande en utilisant une formule simple telle que celle fournie ci-dessus. La difficulté réside dans la détection de tous les coûts intangibles potentiels tels que la diminution du moral des employés, occasions ratées, ventes non suivies et perte de la bonne volonté du client. Ce sont des coûts difficiles à estimer. Mais le dénominateur commun est que toutes les organisations reconnaissent que le temps d'arrêt non-planifié des machines signifie perte d'argent. Il est regrettable de constater que peu sont ceux qui ont vraiment conscience des coûts que cela représente.

DIMINUER TEMPS DE RESTAURATION - AUGMENTER LA DISPONIBILITE

Les organisations peuvent significativement diminuer leur temps de restauration en implémentant une solution de restauration Bare Metal de qualité. Les méthodes standard de récupération fichier-par-fichier ne peuvent ramener un serveur en ligne rapidement ou simplement. Les logiciels de Bare Metal Restore offrent une manière économique d'éliminer le temps d'arrêt non-nécessaire, en rendant les défaillances de la machine moins coûteuse. Dans certains cas le retour sur investissement peut survenir dès la première utilisation d'une solution de Bare Metal Restore.

Il existe trop de matériel et de logiciels coûteux sur le marché conçus pour gérer les données sans interruption. Ils font un travail remarquable, mais bien souvent ils n'éliminent ou ne résolvent pas le cas d'événements où la machine ne peut redémarrer. Par exemple, quelle que soit la qualité d'un système RAID, ou quelle que soit la fiabilité d'un cluster de serveurs ou d'un logiciel de réplication, aucun de ces logiciels ne peut aider à surmonter l'installation d'un mauvais driver provoquant un écran bleu. Dans une situation comme celle-ci le logiciel de réplication cause un double problème parce que le mauvais driver est répliqué sur la machine de basculement, la rendant également non-bootable.

DEFINITION DE LA RECUPERATION BARE METAL

La récupération Bare Metal se définit essentiellement comme le processus permettant d'effectuer un snapshot bas niveau (une photo) de la partition système d'une machine et de la stocker dans un endroit rapide et facile d'accès quand cela est requis. Une solution BMR est constituée de deux parties. La première est un programme conçu pour prendre périodiquement des snaphots (photos) de la partition système en utilisant la technologie de sauvegarde image. Le programme est installé comme un service et est livré avec un ordonnanceur. L'ordonnanceur est ainsi programmé pour effectuer des sauvegardes 'à chaud' (live) de la machine sans avoir besoin de fermer les services, fermer les applications ou s'exécuter hors-ligne. Les sauvegardes images sont normalement stockées vers un chemin UNC, un SAN ou un NAS pour un stockage en ligne avec un accès rapide en cas de besoin.

La seconde partie d'une solution de BMR est le procédé utilisé pour démarrer une machine hors service. Elle permet aux utilisateurs de se connecter à l'emplacement en ligne où les sauvegardes ont été stockées et de lancer la restauration. Une fois la partition restaurée (ce qui peut prendre entre cinq et trente minutes), les seules étapes restantes nécessaires pour terminer l'opération de reprise après sinistre consistent à ôter le média de démarrage, puis de redémarrer la machine. Cette dernière phase prend approximativement deux minutes avant de retrouver la machine dans l'état exact où elle se trouvait lors de l'exécution de la sauvegarde

Les sauvegardes d'images statiques sont typiquement exécutées toutes les 24 heures, avec des options pour les sauvegardes incrémentales et différentielles avec les sauvegardes complètes. La nouvelle fonctionnalité de la restauration Bare Metal est la protection de l'image en continu ou CIP (continuous image protection). Le CIP, également connu comme CDP (continuous data protection), mais le terme CDP ne fait pas de différente entre la sauvegarde fichier ou par bloc. Beaucoup de solutions actuelles du marché ne fournissent de la protection en continu uniquement pour des applications telles qu'SQL ou Exchange, alors que la CIP offre une protection globale des applications du disque. L'avantage offert à la fois par la CDP et la CIP est de pouvoir restaurer une machine à un point de restauration proche du moment de la défaillance rendant le boot impossible, à l'opposé d'une sauvegarde image classique pouvant remonter jusqu'à 23 heures avant l'incident, voire davantage.

L'utilisation d'un logiciel de sauvegarde 'classique' fichier-par-fichier et restaurer un serveur défectueux prend entre deux heures et deux jours quelle que soit l'organisation. En implémentant une solution de Restauration Bare Metal, la récupération de la même partition système - qui a pris des heures en utilisant la restauration fichier 'traditionnelle' - peut s'accomplir parfois en moins de dix minutes. Non seulement la restauration Bare Metal est rapide, mais elle est simple comparée à une restauration fichier. Un produit de restauration Bare Metal peut également être entièrement scripté - même un gardien de nuit pourrait récupérer un serveur stratégique fonctionnant en 24/7.

QUE CHERCHER DANS UNE SOLUTION DE RESTAURATION BARE METAL

La première fois que la reprise après sinistre (Disaster Recovery) est apparue pour l'environnement Windows, la majorité des utilisateurs étaient étonnés comment la récupération de serveurs défectueux était devenue si simple et si rapide. Malheureusement certaines restrictions s'appliquaient. Afin de restaurer les fichiers image sauvegardés il était requis de restaurer sur du matériel identique ou presque. Au fure et à mesure de l'évolution de la restauration Bare Metal de nouvelles fonctions-clés ont été introduites pour rendre cette solution réellement flexible.

La technologie est devenue une application intégrale de reprise après sinistre au niveau des exigences des grandes entreprises, et maintenant les petites et moyennes entreprises réalisent que le BMR leur est également vital. Quand on s'interroge pour savoir quel logiciel et bon pour une entreprise voici quelques fonctions-clés à considérer dans une solution de Restauration Bare Metal :

  1. restaurations sur matériel dissemblable
  2. Consolidations virtuelles et reprise après sinistre (disaster recovery)
  3. Restaurer vers des partitions et/ou disques plus grands
  4. Restaurer vers des partitions et/ou disques plus petits
  5. Possibilité de restaurer Active Directory et contrôleurs de Domaines de manière fiable
  6. Options de sauvegarde complète, incrémentale, et différentielle
  7. Protection de l'image en continu (CIP)
  8. Sauvegardes et restaurations entièrement scriptées
  9. Administration à distance
  10. Sauvegarde et restauration en utilisant FTP/SFTP
  11. Sauvegarde et restauration en utilisant IBM Tivoli Storage Manager
  12. Sauvegarde et restauration en utilisant tout lecteur de bande local ou distant
  13. Backup and restore using any local or remote library
  14. Sauvegarde et restauration en utilisant tout disque local, chemin UNC, SAN, NAS, USB, ou appareil FireWire
  15. Sauvegarde et restauration en utilisant CD, SAN, NAS, DVD, clé USB, ou PXE/RIS
  16. Sauvegarde et restauration en au travers de pare-feux très étanches
  17. Options de disque-vers-disque-vers bande pour stockage redondant et hors-site

COMMENT LA RESTAURATION BARE METAL ECONOMISE DE L'ARGENT

Chaque minute d'arrêt machine non planifié coûte du temps et de l'argent à une organisation. Ainsi il devrait être admis que limiter le temps d'arrêt serait fortement souhaité, en particulier si son prix est raisonnablement abordable. Pour démontrer le retour sur investissement (ROI) voici un scénarion de restauration Bare Metal :

Si la moyenne nationale de l'arrêt machine est de 15.000 euros de l'heure (et il s'agit d'une estimation basse), cela signifie que chaque minute d'arrêt coûte € 250. Si une solution standard de reprise après sinistre Bare Metal (Disaster Recovery) ne met que 20 minutes, au contraire d'une solution fichier-par-fichier qui en met 40 pour sauvegarder ou restaurer, les 20 minutes économisées en utilisant la solution de Bare Metal fait économiser dès la première utilisation 250*20=€ 5000.

Partant de cette constatation, si le prix d'une solution de haute qualité est de € 1000 par serveur, une organisation pourrait soustraire de prix de l'achat de la solution de BMR à celui de l'argent économisé sur le temps de restauration. Ainsi en estimation basse l'entreprise économiserait encore € 4000 sur ses coûts. Peu de produits offrent un tel ROI, particulièrement dès la première utilisation. En environnement de production réel l'économie de temps est plutôt d'un rapport de 6 pour 1, ce qui mène encore à de plus grandes économies que celui de 2 pour 1 contenues notre exemple.

LES ETAPES DE LA RESTAURATION BARE METAL (BMR, RESTAURATION IMAGE)

Afin de bien comprendre la différence des deux méthodes, voici une comparaison des procédures entre les restauration fichier-par-fichier et image.
Exemple de restauration fichier-par-fichier :

  1. Installer la partition EISA (53 minutes)
  2. Installer le système Windows (45 minutes)
  3. Installer le logiciel de sauvegarde (5 minutes)
  4. Créer les partitions de données (10 minutes)
  5. Restaurer le disque système de 4Go (35 minutes)
  6. Restaurer l'état du système et la base de registres (1 heure)
  7. Redémarrer le serveur (2 minutes)

Nombre d'étapes totales pour restaurer= 7
Temps de restauration = 3 ½ hours

Exemple de restauration Bare Metal en utilisant UBDR GOLD :

  1. Lancer le serveur en utilisant le media de boot universel UBDR Gold Restore Media (5 min)
  2. Connectez-vous à un chemin UNC et lancez une restaurez une partition système de 10Go avec un taux de transfert minimal de 2Go par minute (8 minutes)
  3. Redémarrez le serveur (2 min)

Nombre d'étapes totales pour restaurer = 3
Temps de restauration = 15 minutes
Comme l'exemple le prouve une solution de restauration Bare Metal peut facilement récupérer une partition système de 10 Go en 15 minutes, si on se base sur une estimation basse du débit de restauration à 2Go par minute sur un réseau Gigabit. Les systèmes rapides peuvent obtenir un débit de restauration d'au moins 5 Go/minute. Les organisations utilisant la procédure de restauration Bare Metal à présent " se plaignent " que le temps de démarrage de la machine est supérieur au temps de restauration. Si l'on veut comparer la BMR à la sauvegarde 'classique' fichier-par-fichier, la comparaison n'a pas lieu d'être, c'est incomparable.

RESUME

L'achat et l'implémentation d'une solution de restauration Bare Metal (BMR) est devenu une priorité pour bien des organisations - et devrait le rester. La BMR est un élément-clé de tout plan formel de reprise après sinistre (Disaster Recovery). Non seulement elle offre des moyens rapides de restaurer un serveur défectueux, mais également offre des avantages extraordinaires pour faciliter la reprise après un événement catastrophique. Avec la possibilité de restaurer sur du matériel différent et/ou vers des environnements virtuels, les organisations peuvent fournir un chemin bien balisé pour récupérer les serveurs hors-service en emmenant hors-site les sauvegardes vers des prestataires pouvant fournir un équipement temporaire. Plutôt que de tenter une compatibilité matérielle exacte, ou d'entreprendre de laborieuses restaurations de fichiers sur du nouveau matériel, les utilisateurs peuvent restaurer l'image d'un serveur Dell vers un serveur HP ou IBM. En utilisant la bonne solution de restauration Bare Metal, les entreprises ont également la possibilité de restaurer de multiples serveurs physiques vers un gôte VMware ESX/GSX et redevenir opérationnel en littéralement quelques minutes.

Avec les technologies disponibles aujourd'hui il n'est plus acceptable d'avoir une solution de sauvegarde fichier-par-fichier comme seul moyen de protéger les données. Qu'une organisation ne dispose que d'un serveur ou plus d'un millier une solution de récupération Bare Metalest une mesure préventive nécessaire contre l'arrêt machine non-planifié coûteux. La restauration Bare Metal devrait faire partie de tout plan de reprise après sinistre (Disaster Recovery Plan)