Au-delà de l’architecture de données « moderne » – Snowflake Blog

Au-delà de l’architecture de données « moderne » – Snowflake Blog


Architectures de données « modernes »

Si vous demandiez à presque n’importe quel leader actuel de l’ingénierie des données de dessiner une architecture de données « moderne » sur un tableau blanc (ou si vous en cherchiez une en ligne), vous obtiendriez très certainement quelque chose comme ce qui suit :

image2

Mais qu’y a-t-il de si moderne dans cette architecture basée sur les systèmes ? Il existe depuis près de 10 ans et n’a pas beaucoup changé. Cette architecture est composée de trois composants majeurs :

  1. L’entrepôt de données
  2. Le lac de données
  3. Les data marts (ou couche de desserte)

Il y a d’abord eu l’entrepôt de données. La nécessité d’avoir des data marts séparés et lacs de données est né parce que ces entrepôts de données traditionnels ne pouvaient pas évoluer pour répondre aux charges de travail différentes et concurrentes qui leur étaient imposées. Les magasins de données ont vu le jour parce que l’entrepôt de données central ne pouvait pas évoluer pour répondre aux différentes charges de travail et aux exigences de simultanéité élevées des utilisateurs finaux. Puis sont apparus les lacs de données, car l’entrepôt de données d’entreprise n’était pas en mesure de stocker et de traiter le Big Data (en termes de volume, de variété et de vitesse).

Les lacs de données et les data marts ont été créés pour répondre à un besoin réel dans le domaine de l’ingénierie des données à l’époque. Et même aujourd’hui, les entrepôts de données ne peuvent toujours pas prendre en charge toutes les charges de travail variées rencontrées dans l’entreprise. Cela est vrai même pour les nouveaux entrepôts de données cloud. Le résultat de ces systèmes de données disparates est un cloisonnement des données, dont il est très difficile de tirer une valeur commerciale et de gouverner en toute sécurité.

Mais Snowflake Cloud Data Platform a radicalement changé le paysage des données et éliminé le besoin d’avoir des systèmes distincts pour chacune de vos charges de travail. Le flocon de neige peut être votre entrepôt de données, data marts et lac de données. Et cela nous oblige, dans le domaine de l’ingénierie des données, à penser différemment ce que nous avons fait. Cela nous oblige à comprendre pourquoi nous avons fait les choses d’une certaine manière et à remettre en question nos hypothèses.

Penser différemment les données

Au cours des deux dernières années, j’ai remarqué que lorsque les architectes de données commencent à travailler avec Snowflake, ils continuent de se rabattre sur cette conception d’architecture de données basée sur les systèmes hérités, en utilisant Snowflake uniquement comme entrepôt de données ou peut-être en l’étendant un peu à comprennent certains datamarts. Et la plupart continuent de plaider pour le maintien d’un lac de données basé sur des fichiers séparé en dehors de Snowflake, même lors de la construction d’un à partir de zéro. Mais pourquoi continuer à penser ainsi alors que Snowflake peut remplacer tous ces systèmes ?

Pour aller de l’avant, nous devons cesser de penser aux données en termes de types de systèmes existants, tels que les entrepôts de données hérités, les data marts et les lacs de données. Cela n’est pas utile et introduit une frontière non naturelle et artificielle dans un paysage de données d’entreprise.

Voici une suggestion sur la manière de penser les données différemment. À un niveau élevé, vous pouvez regrouper toutes les données d’entreprise dans les zones de données logiques suivantes :

image4

Commençons donc à penser aux données en termes de zones comme celle-ci, et non en tant que systèmes. L’ancienne pensée basée sur les systèmes continuera de maintenir les professionnels de l’ingénierie des données enfermés dans les anciennes façons de faire et continuera de fragmenter le paysage des données. Avec Snowflake, il n’est pas nécessaire de diviser les zones de données en systèmes de données disparates et cloisonnés comme celui-ci :

image5

Pourquoi penser plus longtemps dans ce sens alors qu’une seule plate-forme telle que Snowflake peut briser ces silos ? Au lieu de penser en termes de système, nous devrions envisager une plate-forme unique pour toutes les données d’entreprise, comme celle-ci :

Data Zones

Une plateforme pour toutes les données d’entreprise

Plusieurs noms sont utilisés aujourd’hui pour identifier où se trouvent les données et comment elles sont utilisées, y compris magasin de données opérationnelles (ODS), usine d’information d’entreprise (CAF), entrepôt de données, magasin de données, et beaucoup plus. Chaque terme représente une manière différente de regrouper les données au sein de l’entreprise. Mais malheureusement, aujourd’hui, ces différents groupes de données représentent différents systèmes de données. Commençons à penser aux données en termes de zones (ou de types de données) et non en tant que systèmes.

L’objectif n’a jamais été de diviser le paysage des données en plusieurs systèmes disparates, en particulier dans l’entrepôt de données, les magasins de données et les lacs de données. Nous devons arrêter de faire les choses parce qu’« elles ont toujours été faites ainsi » et repenser ce que nous essayons d’accomplir. Je dirais que l’objectif devrait être d’avoir une plate-forme pour toutes les données d’entreprise, par exemple, quelque chose comme ceci :

image1 2

Snowflake Cloud Data Platform peut prendre en charge toutes vos charges de travail d’entrepôt de données, de lac de données, d’ingénierie de données, d’échange de données, d’application de données et de science des données. Avec la prise en charge uniquement des deux premières de ces charges de travail, vous pouvez consolider votre entrepôt de données, vos datamarts et votre lac de données en une seule plate-forme.

La plupart des autres entrepôts de données « cloud » ont été conçus il y a plus de 20 ans et ont été déplacés vers le cloud. Ils sont incapables de tirer pleinement parti de l’évolutivité du cloud. Et ces systèmes qui ont été conçus plus récemment n’offrent pas une expérience complète de gestion des données d’entreprise qui offre une gouvernance, des transactions conformes à ACID, un partage de données en direct, une empreinte mondiale inter-cloud, un service entièrement géré, etc. Snowflake est la seule plate-forme mondiale de données cloud inter-cloud. Il est temps de commencer à penser différemment nos données.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.