Comment diminuer les coûts des données inactives ?

Par Guy Chesnot, Senior Consultant « Storage and Cloud Infrastructure » chez SGI

La croissance massive des volumes de données s’accompagne d’une constante : la plupart des données une fois lues ne sont jamais relues ou modifiées. Le traitement indifférencié de ces données inactives pèse considérablement sur les infrastructures de stockage et sur leur exploitation, notamment leur protection par sauvegarde. Une séparation claire entre données actives soumises à sauvegarde, et données inactives prises en charge par une fonctionnalité d’archive vivante permet de soulager l’opération des centres  de données.

D’après toutes les études et analyses récentes, le volume de données des entreprises croît à un rythme effréné. Les recherches Gartner de mars 2011 tablent sur un taux de croissance annuel cumulé de 55 % sur les 5 prochaines années. Cette croissance engendre directement l’augmentation de l’infrastructure de stockage des entreprises bien que le taux d’utilisation des données n’augmente pas au même rythme. Autrement dit, les usagers créent de plus en plus de fichiers, mais ils continuent de n’en utiliser que quelques-uns. Une récente étude de la NSF (National Science Foundation) portant sur l’utilisation d’une vingtaine de To de fichiers par 1 500 employés a démontré que les fichiers vivent plus longtemps que dans les études précédentes et qu’ils sont très rarement rouverts : 95 % des fichiers sont ouverts moins de cinq fois, plus de 76 % des fichiers ne sont jamais ouverts par plus d’un client, la plupart des fichiers ne sont pas rouverts après leur fermeture. A l’échelle d’une entreprise, le problème devient dramatique de par la nécessité commerciale : mon entreprise doit accéder à ses données à tout moment même si elles sont inutilisées la plupart du temps.

Les infrastructures des disques des centres de données ne cessent donc de croître à une vitesse vertigineuse entraînant dans leur sillage la croissance du coût de la sauvegarde, de l’électricité et du refroidissement des centres de données, et tout cela pour des disques qui tournent continuellement mais ne sont presque jamais utilisés. Les utilisateurs peuvent à tout moment accéder aux données inactives. Mais à quel prix ?

Le problème est la confusion entre sauvegarde et archivage dans la pratique quotidienne. La sauvegarde est nécessaire afin de protéger les disques primaires, et la croissance du volume de données entraîne directement l’accroissement des fenêtres de sauvegarde. Les responsables informatiques n’ont pas d’autre choix que de prendre les données excédentaires et de les placer dans une armoire en tant qu’« archives », mélangeant ainsi données à forte et à faible valeur.

La solution consiste à créer une distinction claire entre sauvegarde et archivage, et à séparer les besoins de protection des données de ceux de conservation sur le plus long terme. Les stratégies de sauvegarde doivent concerner les données de production à court terme, afin de les prémunir contre des défaillances catastrophiques. Dans l’archive vivante, les données inactives sont toujours disponibles « en ligne » sans occuper de coûteuses capacités du disque primaire : elles sont placées sur un niveau de stockage en état de veille utilisant la technologie MAID qui met en sommeil les disques, et supprime ainsi totalement la consommation énergétique de la baie.

L’archive est qualifiée de vivante du fait de la disponibilité des données et de la protection continue associée à la technologie MAID qui examine périodiquement les données afin de vérifier leur intégrité. Les données inactives ne dorment pas au fond d’une armoire mais font l’objet d’une surveillance permanente.

Ainsi les données actives qui représentent un faible pourcentage de la masse de données ne sont contenues que sur les unités de disque primaire, limitant ainsi les coûts et durées de sauvegarde et de restauration éventuelle.
Cette séparation entre données actives et inactives ne perturbe pas pour autant la visibilité de l’ensemble des données. Une virtualisation des niveaux de stockage par l’intermédiaire d’une solution de gestion hiérarchique du stockage telle que SGI DMF (Data Migration Facility) permet de présenter l’ensemble des données indépendamment de leur support de résidence. Le disque haute performance coûteux de premier niveau est étendu virtuellement à un espace de grande capacité moins onéreux : solution de disques MAID ou bibliothèque de bandes. On peut y adjoindre un outil de gestion des données numériques tel que LiveArc de SGI permettant une indexation automatique des contenus de multiples façons au fil des créations et des modifications. Les utilisateurs peuvent rechercher des données et les administrateurs peuvent aisément établir des politiques visant à déterminer quelles sont les données qui doivent rester sur le disque de production et celles qui peuvent migrer vers un stockage de second ou troisième niveau.

Une stratégie d’archive vivante entraîne une réduction significative des coûts globaux par un traitement spécifique des données inactives, tout en préservant l’intégrité de ces données sur le long terme. L’extensibilité des volumétries devient alors une routine et non plus un cauchemar.