Autonomisez les équipes de données avec un maillage de données basé sur Snowflake

Autonomisez les équipes de données avec un maillage de données basé sur Snowflake

Au cours des deux dernières années, l’architecture de maillage de données est apparue comme un nouveau cadre pour aider à résoudre de nombreux défis qui ont affligé les organisations, d’autant plus qu’elles ont fait évoluer leurs données et leurs équipes de données et ont essayé de fournir plus de valeur, plus rapidement. Supprimer ces obstacles aux données et fournir de la valeur à grande échelle est un objectif ambitieux et que Snowflake se passionne également pour aider ses clients à résoudre. Comme pour tout modèle architectural, réussir avec un maillage de données n’est pas simplement un problème technologique à résoudre ; il s’agit également d’avoir la bonne technologie pour mettre en place vos équipes pour réussir et même catalyser le changement dans toute votre organisation.

Découvrons les principes clés du maillage de données et comment le Snowflake Data Cloud, soutenu par sa plate-forme unique, peut vous donner la bonne base sur laquelle vous appuyer lorsque vous vous embarquez dans votre parcours de maillage de données.

Les quatre principes d’un maillage de données

Maillage de données a été inventé par Zhamak Dehghani, directrice des technologies émergentes chez Thoughtworks, dans ses pièces phares de Comment passer d’un lac de données monolithique à un maillage de données distribué1 et Principes du maillage de données et architecture logique.2 L’idée d’un maillage de données était une réaction aux compromis que les organisations étaient obligées de faire alors qu’elles transformaient leurs données en lacs de données monolithiques moins gouvernés et moins structurés. À mesure que le nombre de sources de données et de consommateurs de données augmentait, le nombre de pipelines de données nécessaires pour les connecter augmentait également. Cela a poussé de plus en plus la charge de travail sur des équipes spécialisées qui avaient les compétences à développer pour ces technologies notoirement difficiles, mais qui étaient déconnectées des experts du domaine qui avaient besoin des données pour faire leur travail. Cela a conduit au scénario bien trop courant de consommateurs de données en aval attendant des pipelines complexes et des technologies vaguement assemblées pour obtenir les données dont ils avaient besoin, et cela a également conduit à des équipes d’ingénierie surchargées essayant de répondre à la demande.

Figure 1, de Principes du maillage de données et architecture logique par Zhamak Dehghani,3 montre les quatre principes fondamentaux qui définissent une architecture de maillage de données :

  • Propriété axée sur le domaine
  • Les données en tant que produit
  • Infrastructure libre-service
  • Gouvernance fédérée

Figure 1 : Les quatre principes fondamentaux d’une architecture de maillage de données

Principe 1 : Propriété et architecture axées sur le domaine

Le premier principe d’un maillage de données consiste à transférer le pouvoir des données et la propriété entre les mains des équipes du domaine. Ils possèdent les données de bout en bout, qu’il s’agisse de s’assurer qu’ils disposent des bonnes sources ou des données ingérées avec lesquelles travailler, de créer et de maintenir les pipelines de traitement nécessaires, de diffuser les données pour que d’autres équipes de domaine puissent les exploiter en tant que produits (plus à ce sujet plus tard ) avec les bonnes garanties de qualité et les contrôles de gouvernance en place. Les équipes de domaine peuvent être définies par département, unité commerciale ou autres groupements aux motivations similaires et, si elles sont correctement mises en œuvre, de nouvelles équipes de domaine devraient pouvoir être ajoutées de manière fluide, en particulier lorsque les données sont corrélées dans de nouveaux produits de données.

Principe 2 : Les données en tant que produit

Comme évoqué dans le premier principe, les équipes de domaine ne sont pas seulement responsables des données ; ils sont également responsables des produits de données qui en résultent. Et les produits de données doivent être traités comme n’importe quel autre produit. Les produits de données doivent être découverts et utilisables par les consommateurs et les autres équipes de domaine, et le propriétaire du domaine est responsable de la maintenance et de la mise à jour (ou de la dépréciation) de ces produits pour garantir la qualité et l’exactitude. À quoi cela peut-il ressembler dans la pratique ? Imaginez une équipe de la chaîne d’approvisionnement créant un produit de données d’inventaire qu’une équipe marketing peut exploiter pour développer de nouvelles campagnes de remise ou qui peut être utilisé par des équipes régionales pour passer de nouvelles commandes.

Principe 3 : Infrastructure libre-service en tant que plate-forme

Le troisième principe est de rendre tout cela en libre-service et facile pour les équipes du domaine. Les technologies complexes et les compétences de niche ne sont tout simplement pas durables dans une conception de maillage de données. Il doit y avoir une plate-forme commune et un ensemble d’outils que toute équipe de domaine peut exploiter à tout moment pour créer et servir ses produits de données, sans s’enliser dans la maintenance de l’infrastructure ou les limitations de ressources.

Principe 4 : Gouvernance fédérée

Le dernier élément d’un maillage de données réussi est la gouvernance. Une architecture de maillage de données ne peut pas se faire au détriment des contrôles d’accès et de la protection des données. Il doit y avoir un équilibre entre avoir des politiques et des contrôles de gouvernance globale et s’assurer que chaque équipe de domaine conserve la capacité de définir et de mettre en œuvre ces politiques lors du développement et du partage de leurs produits de données. Cette gouvernance fédérée est essentielle non seulement pour garantir la confidentialité et la conformité des données, mais également pour faciliter la découverte à grande échelle.

Succès du maillage de données avec Snowflake

Connecter les organisations et les équipes de données aux données les plus pertinentes lorsqu’elles en ont besoin, sans silos ni complexité, c’est ce que le Snowflake Data Cloud est conçu pour faire. Comment y parvient-il ? Il s’appuie sur la plate-forme Snowflake, qui est spécialement conçue pour des performances à grande échelle, une facilité d’utilisation et un partage et une collaboration de données gouvernés ; et il est bien adapté pour prendre en charge à la fois les normes centralisées et la propriété décentralisée nécessaires à un déploiement réussi du maillage de données.

Fournir une infrastructure en libre-service en tant que plate-forme

La construction d’une infrastructure en libre-service est le principe de maillage de données le plus évident où la bonne technologie peut aider. Il est essentiel que les équipes de domaine puissent accéder aux ressources et aux outils dont elles ont besoin à la demande pour les soutenir à chaque étape du cycle de vie du produit de données, de l’accès aux bonnes données, au traitement et à la préparation de celles-ci, en passant par leur analyse ou la création de modèles. La plate-forme de Snowflake offre à ces équipes un guichet unique, tout en prenant en charge un large éventail de compétences.

Avec le moteur de performance élastique de Snowflake, les équipes de domaine peuvent alimenter des pipelines à grande échelle, une exploration ad hoc, des rapports de BI, une ingénierie de fonctionnalités, des applications interactives et bien plus encore, le tout avec un seul moteur. Cela permet aux organisations de simplifier leurs architectures sans sacrifier la vitesse ou la convivialité. Que les équipes travaillent en SQL, en code (tel que Java, Scala ou Python) ou une combinaison, le moteur de performance les prend en charge de la même manière. Et avec une évolutivité élastique et un calcul multicluster isolé, chaque équipe de domaine a accès aux ressources dédiées dont elle a besoin sans affecter les performances ou la simultanéité pour les autres équipes.

Fournir la propriété et les données axées sur le domaine en tant que produit

Ce dernier concept de ressources évolutives et dédiées a permis aux clients de Snowflake d’implémenter logiquement une conception distribuée basée sur le domaine, tout en conservant une plate-forme centrale standard soutenant le tout. Cette plate-forme centrale peut intégrer un large éventail de types de données et de formats de fichiers, et même prendre en charge l’accès à des données externes pour une couverture complète du paysage des données. Et en tant que service entièrement géré avec des automatisations intégrées, la plate-forme centrale Snowflake permet aux équipes de domaine de se servir facilement en libre-service. Les équipes informatiques n’ont pas à se soucier de l’approvisionnement, de la maintenance, des mises à niveau ou des temps d’arrêt. Et les équipes de domaine fonctionnent comme des unités distinctes qui peuvent s’adapter à pratiquement n’importe quel nombre d’utilisateurs qui peuvent travailler avec pratiquement n’importe quelle quantité de données à la demande, sans aucune expertise ou réglage d’infrastructure requis.

Cependant, même avec cette conception, un maillage de données court toujours le risque de se transformer en un tas de silos de domaines. Et les silos sont le tueur de toute organisation. C’est là que Snowflake est particulièrement bien adapté pour garantir le succès d’un maillage de données, permettant aux équipes de domaine de se connecter et de partager de manière transparente des produits de données sans les copier ou les ETL entre les équipes de domaine.

Tirant parti d’un ensemble unique de technologies appelé Snowgrid, Snowflake change ce à quoi peuvent ressembler le partage de données et la collaboration non seulement au sein d’une organisation, mais même avec des partenaires et des tiers. Grâce à Snowgrid, les équipes de domaine peuvent partager en toute sécurité une copie unique des données que d’autres équipes de domaine peuvent découvrir et accéder immédiatement, éliminant ainsi le besoin d’un ETL. Toutes les données sont en direct, et toutes les mises à jour sont automatiquement propagées aux autres équipes. Les équipes peuvent puiser dans le vaste écosystème de données tierces sur Snowflake Data Marketplace pour enrichir leurs produits de données, sans longs cycles d’approvisionnement ou FTP. Et les équipes ne sont même pas limitées aux données en tant que produit. Ils peuvent publier et partager des modèles ou des fonctions pré-développés en tant que produit, apportant ainsi une valeur supplémentaire en partageant leur expertise avec d’autres équipes de domaine.

Ce qui est particulièrement puissant, c’est que Snowgrid s’étend à l’échelle mondiale, connectant de manière transparente des équipes de domaine qui peuvent être séparées par région ou même par cloud. Cela signifie que les organisations peuvent mettre en œuvre un maillage de données sans avoir besoin de se standardiser sur un seul fournisseur de cloud ou de fonctionner avec des silos régionaux. Chaque équipe de domaine peut opérer localement, s’exécutant sur son cloud ou sa région préférée, mais tout cela est masqué pour ces domaines. Ils peuvent partager des produits de données aussi facilement avec une équipe de domaine à l’autre bout du monde qu’avec une équipe du même bureau. Et l’organisation peut répliquer les données entre les clouds ou les régions pour fonctionner sans interruption et maintenir de nouveaux niveaux de continuité des activités et de protections réglementaires.

Offrir une gouvernance fédérée

Dans Snowgrid se trouvent tous les contrôles de gouvernance inter-cloud natifs qui agissent comme des éléments de base pour permettre une gouvernance fédérée. Les organisations peuvent trouver le juste équilibre entre permettre aux propriétaires de domaine de définir et d’appliquer facilement leurs propres politiques précises et disposer de processus de gouvernance gérés de manière centralisée. Les politiques peuvent être définies au niveau des données et des rôles, et elles suivent les données pour une application cohérente, même lorsque les données sont partagées entre les clouds, les régions ou les charges de travail. Les équipes de domaine peuvent découvrir et interroger les mêmes données, et leurs vues résultantes changent en fonction de leur rôle et de la sensibilité des données, simplifiant considérablement la gouvernance à grande échelle tout en permettant aux équipes de tirer parti de leurs données. Les organisations peuvent également intégrer ces contrôles de gouvernance à leurs normes de gouvernance et de catalogue existantes, telles qu’Alation, pour améliorer encore la qualité, la découvrabilité et la protection des données au sein de leurs équipes de domaine.

Chez Snowflake, nous avons aidé les clients à briser leurs approches monolithiques des données et à passer à un modèle plus fluide et dynamique de connexion des équipes avec les bonnes données dont elles ont besoin au moment où elles en ont besoin, tout en supprimant les barrières techniques à l’entrée. Comme l’a dit l’un de nos clients, « Avec Snowflake, DPG Media peut se concentrer davantage sur l’activation de ses domaines dans l’utilisation de la plate-forme que sur son fonctionnement continu. » (Pour plus de détails sur la façon dont DPG Media a implémenté un maillage de données sur Snowflake, consultez leurs publications : Data Mesh — Une infrastructure en libre-service chez DPG Media avec Snowflake4 et Maillage de données chez DPG Media.5) Vous vous lancez dans une aventure de maillage de données ? Faites le nous savoir! Nous aimerions connaître votre expérience.


  1. bit.ly/3mdRyz5
  2. bit.ly/3z26IuA
  3. bit.ly/3xY2Eua
  4. bit.ly/3ssovc7
  5. bit.ly/3CXOblC

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.