Réduire la fragmentation massive des données | Flocon de neige

Réduire la fragmentation massive des données | Flocon de neige

Il y a quelques années, Kent Graziano a rejoint une grande organisation pour travailler sur ses données. Le premier problème était que personne ne savait vraiment quoi et où se trouvaient toutes les données. Graziano a consacré ses trois premiers mois de travail à enquêter sur les sources et les cibles de données, créant finalement une carte de données d’entreprise pour illustrer tous les flux. Ce n’était pas joli.

« En fin de compte, j’ai découvert que les mêmes données étaient envoyées à trois ou quatre endroits », a-t-il déclaré. Dans un cas, les données brutes ont été transformées et stockées dans un entrepôt de données, puis déplacées de là vers un autre entrepôt, qui extrayait également les données brutes d’origine.

Graziano, qui a récemment pris sa retraite de son poste d’évangéliste technique en chef chez Snowflake, a déclaré que ce scénario était tout à fait courant. Données dispersées et copiées dans des lacs, des entrepôts, des data marts, des plateformes SaaS, des feuilles de calcul, des systèmes de test, etc. C’est la fragmentation massive des données ou, plus familièrement, la prolifération des données ou les flaques de données.

En effet, 75 % des organisations ne disposent pas d’une architecture complète pour gérer un ensemble d’activités de données de bout en bout, y compris l’intégration, l’accès, la gouvernance et la protection, selon IDC. Etat du CDO recherche, décembre 2021. Ce manque de gouvernance se combine avec les systèmes hérités, le shadow IT et les bonnes intentions pour ouvrir la voie à une grande fragmentation.

Bien qu’il ne soit pas toujours immédiatement réaliste d’obtenir une source unique de vérité, il est de plus en plus vital de réduire le nombre de flaques de données partout afin d’augmenter l’efficacité, la précision, la cohérence et la valeur du travail d’analyse d’une organisation.

Et alors? Comment la prolifération des données nuit aux entreprises

Pour comprendre tout le potentiel de gain pour bien faire les choses, il vaut la peine d’approfondir les causes et les impacts de l’état fragmenté d’aujourd’hui.

Graziano a cité une autre société qu’il a trouvée stockant les mêmes centaines de téraoctets de données à trois endroits différents. « Ils avaient un entrepôt de données Oracle qui était normalisé, mais ce serveur n’avait pas assez de puissance, alors ils ont mis leurs modèles dimensionnels sur un autre, puis une infrastructure Hadoop pour les scientifiques des données » pour analyser les mêmes informations, a-t-il déclaré.

Les fusions et acquisitions sont certainement une source du problème.

« Les problèmes sont la dette technique et l’informatique fantôme », a déclaré Wayne Sadin, analyste pour Acceleration Economy avec trois décennies d’expérience dans les rôles de CIO, CTO et CDO. « Vous achetez 12 entreprises et vous avez 172 bases de données – 14 ne sont plus fabriquées, 6 n’ont plus de propriétaire – et puis 500 feuilles de calcul… » Il a raconté l’histoire d’un gros client dont la plus grande base de données était connectée à un PC sous le bureau de quelqu’un. Ce fait n’a été découvert que par hasard lorsque le service informatique a déménagé dans un autre endroit.

Sadin a déclaré que l’introduction de l’informatique à la toute fin des discussions sur les fusions et acquisitions signifie qu’il n’y a aucune possibilité de commencer à élaborer un plan d’intégration vraiment réfléchi. « Le général George Shultz a dit un jour : ‘Si vous voulez que je sois à l’atterrissage, mettez-moi au décollage’ », a déclaré Sadin.

Au-delà des fusions, Graziano soutient que les silos de données prolifèrent souvent parce que l’entreprise essaie de résoudre les problèmes de performances avec une approche ponctuelle, plutôt que de créer une architecture globale d’avenir. Ces solutions peuvent aider à répondre aux besoins du jour, mais l’échelle totale et l’impact sur les coûts, les performances et la fragmentation des données peuvent être difficiles à calculer.

« Il n’y a pas vraiment de bonne méthodologie d’évaluation autre que de défier les vendeurs sur leur histoire, de parler à des références validables et de trouver votre pair—’Mon architecte peut-il parler à votre architecte ?’ », a déclaré Graziano.

« Logiciel d’accélération des requêtes, virtualisation des données, logiciel d’analyse en mémoire… tout cela tente de résoudre les problèmes de performances sous-jacents de votre architecture », a-t-il déclaré. « Si vous écrivez des requêtes dans une couche SQL, mais que cela pousse ces requêtes vers le bas pour qu’elles soient exécutées sur les systèmes sources, cela aura inévitablement un impact sur les performances. »

Sadin a souligné que le shadow IT reproduit essentiellement le même problème. Et les employés du secteur d’activité qui se tournent vers le stockage en nuage public ou des applications non autorisées ne sont pas le problème fondamental. Au lieu de cela, le problème provient souvent de la manière dont les budgets informatiques sont gérés.

« L’entreprise a un problème à résoudre, alors ils vont au comité d’investissement et disent : ‘Nous avons besoin de X dollars.’ Ensuite, la réponse typique de l’informatique est ‘Vous pouvez avoir 80 % de ce que vous demandez.’ », a-t-il déclaré.

« Mais l’entreprise doit encore résoudre les derniers 20 %. Ils vont donc trouver une solution. De nos jours, il est très peu coûteux d’entrer dans une solution de données à faible coût. Donc, tout comme nous avions une prolifération d’applications, nous avons maintenant une prolifération de données.

L’impact le plus évident de toute cette fragmentation est le dépassement massif des dépenses de stockage de données en double, mais Graziano et Sadin ont tous deux convenu qu’il ne s’agissait en fait que de la pointe de l’iceberg.

Pire encore, « cela conduit aux tristement célèbres « résultats concurrents » lors des réunions de l’exécutif », a déclaré Graziano. Différents groupes effectuant une analyse similaire sur différents ensembles de données – peut-être en travaillant sur des données extraites de quelques heures d’intervalle – revendiquent des résultats différents et plaident pour des décisions différentes.

Rapports contradictoires, décisions commerciales basées sur des données obsolètes, modèles prédictifs construits sur des données incomplètes, la liste des effets négatifs est longue.

La route vers les données unifiées

Alors, comment les organisations peuvent-elles résoudre la fragmentation massive des données ? En fin de compte, la réponse résidera dans une architecture et une gouvernance unifiées.

Graziano préconise une architecture de données à trois niveaux, composée de :

  • les données brutes
  • les données transformées, nettoyées, normalisées
  • et une couche de présentation

La première couche doit être persistante partout où l’organisation a besoin de maintenir la traçabilité et l’auditabilité, a déclaré Graziano, ce que « autrefois, nous aurions appelé une zone de staging persistante ».

La deuxième couche est une couche « organisée » ou dorée, empruntant des termes à la gestion des données de référence : le référentiel historique et horodaté qui devient la source unique des faits.

Enfin, il y a la couche de consommation, « où vous assemblez l’image qui a du sens pour l’entreprise », a-t-il déclaré. Même si les scientifiques des données examinent ces données semi-brutes de la deuxième étape,

« L’entreprise n’a pas besoin de voir ça. Ils veulent des vues multidimensionnelles, la possibilité de trouver des données dans un format qu’ils peuvent comprendre. »

Cette approche, a déclaré Graziano, retravaille efficacement le processus ETL traditionnel (extraction, transformation, chargement) en ELT : « Le but est de déplacer les données une fois, puis de les utiliser plusieurs fois. »

Bien sûr, tout comme Rome ne s’est pas construite en un jour, une nouvelle architecture de bout en bout ne surgit pas du jour au lendemain.

D’un point de vue pratique, Sadin décrit un processus qui se déroule en trois étapes différentes, qui peuvent se dérouler séquentiellement ou simultanément. « Je l’appelle ‘correction, polissage, parfait.' »

Le correctif est destiné aux problèmes de livraison évidents et aigus. Si un système est défaillant ou non conforme et doit être réparé immédiatement, la bonne étape peut consister simplement à corriger la feuille de calcul ou la base de données locale. Ce n’est pas une solution permanente, mais vous ne pouvez pas attendre une solution permanente.

L’étape de « polissage » de Sadin peut impliquer l’automatisation robotique des processus ou d’autres travaux à plus grande échelle. « Il ne s’agit pas d’une solution architecturale sous-jacente », a-t-il déclaré, mais cela implique de trouver des endroits supplémentaires pour améliorer les performances et la valeur de l’entreprise.

« Maintenant, je respire et je conçois ou consolide l’étalement des données » dans la troisième étape « parfaite », a-t-il déclaré. Dans la réalité désordonnée des DSI et des professionnels des données, cependant, la plupart doivent travailler dans les trois modes en même temps.

La clé du succès n’est pas de commencer par les données, mais par les besoins de l’entreprise. « Si j’ai quelques minutes pour parler au PDG, je dirais : ‘Voilà un crayon et une feuille de papier, dessine-moi le rapport que tu veux' », a-t-il dit en riant. « Avec chaque métier, vous vous demandez ‘de quoi avez-vous besoin ?’, alors vous commencez par les processus. »

La gouvernance et les bacs à sable contrôlent la fragmentation

Même si la vision consolidée et architecturée commence à prendre forme, Graziano a déclaré qu’il y a généralement des individus ou des groupes, parfois avec beaucoup de poids organisationnel, qui insisteront : « Écoutez, donnez-moi simplement [a copy of] les données pour que je puisse les transformer sur mon bureau.

L’organisation qui donne un oui sans réserve à cette demande est de retour sur la voie de la fragmentation. « Les règles de gouvernance doivent arrêter cela », a déclaré Graziano. Cependant, pour ceux qui ont un besoin commercial légitime, un bac à sable peut être approprié. « Vous n’allez pas continuellement mettre à jour cela [copied] données, mais vous configurez un bac à sable, laissez-les jouer dedans, et quand ils comprennent ce qu’ils doivent faire, alors seulement le mettez-vous en production. Ensuite, le bac à sable peut être supprimé au lieu d’être perpétué.

Quels que soient les phases, les projets ou les décisions dont votre propre entreprise a besoin pour maîtriser la fragmentation massive des données, la détermination et la discipline nécessaires n’ont jamais été aussi importantes. Après tout, il s’agit d’un problème commercial, pas d’un problème technique.

« Vous devez utiliser les données non seulement mieux que n’importe qui dans votre secteur, mais mieux que quiconque pourrait entrer dans votre secteur de l’extérieur », a déclaré Sadin. « La valeur de la gestion réfléchie de vos données est encore plus grande que jamais. »

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.