Fragmentation des données secondaires : un problème historique, de nouvelles solutions

Le problème des silos de données n’est pas nouveau. Il est même presque aussi ancien que l’informatique elle-même. Mais ce qui s’avérait être un casse-tête du temps de l’informatique sur site est entré dans une autre dimension à la faveur des innovations technologiques de ces dernières années. Heureusement, les infrastructures hyperconvergées dévoilent des pistes d’amélioration pour la gestion et la valorisation de ces données massives et coûteuses.

La virtualisation, le cloud, et même dans une certaine mesure les systèmes de sauvegarde et de restauration, ont rendu plus difficile que jamais le contrôle des données, et plus spécifiquement des données dites secondaires, à savoir des données non critiques pour l’activité quotidienne des entreprises mais qu’il leur faut quand même conserver et exploiter.

Parmi ces données, beaucoup sont dupliquées et les entreprises ont peu ou pas de visibilité sur leur contenu et leur emplacement. Pourtant, stocker ces données représente un certain coût (sur-approvisionnement, investissements pour optimiser les performances, la disponibilité et respect des accords de niveaux de service). En parallèle, ne pas les utiliser représente une perte d’insights qui auraient pu s’avérer très utiles.

Cette fragmentation est autant liée à des choix technologiques et au cycle de vie des solutions qu’à des pratiques internes à l’entreprise.

Des silos à la fragmentation massive de données (Mass Data Fragmentation)

Il y a tout d’abord la traditionnelle fragmentation liée aux silos informatiques, qui n’a pas disparu. Les opérations informatiques secondaires telles que les sauvegardes, le partage/stockage de fichiers, le provisionnement pour les tests/développement et les analyses sont généralement effectuées dans des silos complètement distincts qui ne partagent pas les données ou les ressources, et qui n’offrent aucune visibilité ou possibilité de contrôle centralisé.

Vient ensuite la fragmentation à l’intérieur même des silos. Un cas rencontré fréquemment est celui des pratiques de sauvegarde pour lesquelles plusieurs solutions de sauvegarde émanant de plusieurs fournisseurs sont utilisées pour gérer différentes charges de travail, qu’elles soient virtuelles, physiques ou dédiées aux bases de données et à la sauvegarde dans le cloud. Chacune de ces solutions nécessite un stockage cible associé, des appliances de déduplication, des serveurs média, etc. qui amplifient le problème des silos. En effet, les données sont souvent répliquées en plusieurs endroits car les solutions spécifiques disposent rarement de fonctionnalités de partage ou de réutilisation des données.

Si la fragmentation des données hébergées au sein de divers silos n’est pas un phénomène nouveau, elle a gagné en intensité au fur et à mesure de l’utilisation par les entreprises de solutions dédiées à une seule fonction comme la gestion des sauvegardes, des fichiers, du test/dev, des analyses de données et des types de données spécifiques.
Selon une récente étude, 35% des entreprises utilisent ainsi plus de 6 solutions pour les opérations relatives à leurs données secondaires. 10% d’entre elles utilisent plus de 10 ou 15 solutions, provenant le plus souvent de plusieurs fournisseurs.

En dehors de la seule réplication des données, l’hétérogénéité engendrée par le recours à des multiples fournisseurs pose d’autres problèmes : chaque solution propose un matériel spécifique, associé à un logiciel dédié, une interface graphique particulière et son propre modèle de support. Cette variété oblige à gérer les relations fournisseurs, mais aussi les logiciels. Elle crée aussi des difficultés en matière de renouvellement technologique. Par ailleurs, elle augmente les difficultés d’identification de l’origine des problèmes lorsque ces derniers surgissent, les différents fournisseurs cédant alors à la tentation d’incriminer les autres solutions.

On estime que les copies de données représentent jusqu'à 60% du stockage de données secondaires. Elles occupent inutilement de l'espace de stockage et génèrent un coût élevé. Ces données ne sont par ailleurs pas exploitées pour d'autres usages. Elles pourraient l’être pour les besoins de test et de développement pour lesquels des copies fréquentes des données sont réalisées afin que les développeurs puissent effectuer des scénarios applicatifs et les valider. Ou encore à des fins d’analyse via une copie et une centralisation des données au sein d’un datalake ou un datawarehouse pour la production de rapports.

Vient enfin la fragmentation liée à l’emplacement des données : les organisations sont devenues à la fois mobiles et distribuées et l’accès aux services cloud a été facilité. Cela signifie que les options de stockage des données sur plusieurs sites, y-compris dans le cloud, sont plus nombreuses que jamais, parfois même à l'insu des responsables informatiques. Les données sont de plus en plus éparpillées sur site ou dans des clouds privés, ce qui crée souvent un besoin pour des copies plus nombreuses des mêmes données. Avec l'avènement du edge computing et de l'Internet des objets (IoT), certaines données ne quitteront jamais l’emplacement où elles ont été générées et devront être gérées in situ, loin des infrastructures et des systèmes de contrôles traditionnels. 85% des entreprises stockent des données dans deux à cinq clouds publics, et parmi celles-ci 20% stockent des données dans 4 à 5 clouds publics. Parmi ces entreprises qui stockent leurs données dans le cloud, 74% disent en effectuer une copie redondante dans le même cloud public ou dans un autre cloud public.

De l’importance de limiter la fragmentation des données

Des bonnes pratiques existent pour limiter la fragmentation des données.

Regrouper sur une même plateforme les solutions de sauvegarde, d'archivage, de partage de fichiers, de test/dev et d'analyse apporte un début de solution. Jusque-là complexe, cette tâche est devenue plus simple depuis l'avènement des infrastructures hyperconvergées (HCI).

Consolider la gestion de tous les aspects du stockage secondaire via une console d’administration unique est également une étape importante. Cette approche facilite des tâches telles que la mise en oeuvre de politiques de sécurité et d'accords de niveaux de service, la gestion des datacenters ou des environnements cloud et ainsi que l’optimisation de l'utilisation des ressources. Par ailleurs, cette méthode facilite le respect de la conformité réglementaire.

Centraliser l'exécution des applications (qu’elles soient développées en interne, par des éditeurs de logiciels indépendants - ISVs ou des partenaires) sur une même plateforme, la plus ouverte possible.

Les infrastructures hyperconvergées offrent une opportunité de repenser le problème des données secondaires. En plus de le régler, elles apportent des réponses simples à des questions complexes de conformité réglementaire et ouvrent de nouveaux horizons en permettant de bénéficier de nouveaux insights. En exploitant la valeur des données secondaires de manière centralisée, il devient en effet possible d'accélérer les initiatives de transformation numérique.