Gouverner les magasins de données cloud – Snowflake Blog

Gouverner les magasins de données cloud – Snowflake Blog

Il s’agit du deuxième article d’une série sur la modélisation et la gouvernance des données dans le cloud par les partenaires de Snowflake chez erwin. Voir le premier message ici.

Lorsque vous transférez des données de systèmes hérités vers une plate-forme de données cloud, vous devez garantir la qualité et la gouvernance globale de ces données.

Jusqu’à récemment, la gouvernance des données était principalement un rôle informatique qui impliquait le catalogage des éléments de données pour prendre en charge la recherche et la découverte. Mais à l’ère numérique, les données et leur gouvernance relèvent de la responsabilité de l’ensemble de l’organisation. Les détenteurs de données (IT) et les utilisateurs de données (le reste de l’organisation) doivent être en mesure de découvrir, de comprendre et d’utiliser les données pour générer des opportunités tout en limitant les risques.

Pensez-y de cette façon : les bonnes données de la bonne qualité, quel que soit l’emplacement de stockage ou le format, doivent être disponibles uniquement pour les bonnes personnes et dans le bon but.

Faire de cet impératif une réalité nécessite un effort stratégique continu. Cela nécessite une collaboration d’entreprise et une technologie habilitante qui offre une vue globale du paysage des données, y compris où les données se trouvent, qui et quels systèmes les utilisent, et comment y accéder et les gérer. La gouvernance des données est nécessaire mais aussi compliquée, de sorte que la plupart des entreprises ont du mal à l’opérationnaliser.

Au fil du temps, le désir de moderniser la technologie conduit les organisations à acquérir de nombreux systèmes différents avec divers points d’entrée de données et règles de transformation à mesure que les données se déplacent dans et à travers l’organisation. Ces outils vont des produits Enterprise Service Bus (ESB), des outils d’intégration de données, des outils ETL, du code procédural, des API, des processus FTP et même des rapports BI qui agrègent et transforment davantage les données. Toutes ces diverses sources de métadonnées forment un réseau complexe et rendent difficile la création d’un flux visuel simple de lignage des données et d’analyse d’impact.

Les organisations de différents secteurs sont confrontées à des réglementations telles que HIPAA, SOX et PCI-DSS depuis plusieurs années. Mais l’adoption du RGPD de l’UE et ses sanctions sévères en cas de non-conformité ont mis la gouvernance des données sous le feu des projecteurs, obligeant la plupart des organisations à réévaluer leurs approches et leurs outils. Bien que les entreprises aient apporté des améliorations, elles s’appuient toujours principalement sur des processus manuels pour le catalogage des données, le lignage des données et la cartographie des données, et elles sont confrontées aux défis du déploiement d’une gouvernance des données complète et durable.

Le problème est que peu d’organisations savent quelles données elles possèdent ou où elles se trouvent, et elles ont du mal à intégrer des données connues qui se trouvent dans divers formats et de nombreux systèmes, surtout si elles ne disposent pas d’un moyen d’automatiser ces processus d’intégration. Mais lorsque le personnel de gestion des données piloté par l’informatique et le personnel de gouvernance des données orienté métier travaillent ensemble en termes de personnel, de processus et de technologie, ils peuvent prendre des décisions et déterminer les impacts sur la base d’un inventaire complet d’informations fiables.

La modélisation des données est fondamentale pour la gouvernance des données

Bien que la modélisation des données ait toujours été le meilleur moyen de comprendre les sources de données complexes et d’automatiser les normes de conception, la modélisation permet aujourd’hui une véritable collaboration au sein d’une organisation, car elle fournit une source visuelle de vérité pour tout le monde, y compris la gestion des données et les professionnels de l’entreprise, à suivre afin qu’ils puissent se conformer aux exigences de gouvernance.

La modélisation des données est également le meilleur moyen de visualiser les métadonnées, et la gestion des métadonnées est la clé de la gestion et de la gouvernance de vos données afin que vous puissiez en tirer des informations. La visualisation va au-delà de la récolte et du catalogage des métadonnées en permettant à toutes les parties prenantes des données de décomposer des organisations de données complexes et de comprendre explicitement les relations entre les données.

La dernière version de modeleur de données erwin (erwin DM) a une nouvelle interface utilisateur et de nombreuses nouvelles fonctionnalités, y compris la prise en charge native de Snowflake. Il inclut également désormais erwin DM Scheduler qui vous permet de définir et de planifier à l’avance des tâches d’ingénierie inverse (RE) et de les exécuter sans interrompre votre utilisation d’erwin DM.

De plus, erwin propose désormais erwin Connexion DM pour DIune intégration entre erwin DM et le erwin Data Intelligence Suite (Erwin DI). Cette offre vous permet de synchroniser les données entre erwin DM et erwin DI en utilisant l’administrateur erwin DM Mart comme interface, conservant ainsi une seule source de métadonnées et de glossaire.

Gouvernance des données pour la plateforme de données cloud de Snowflake

La suite erwin DI Interagit avec des outils tiers via les connecteurs de données erwin, qui comprennent les connecteurs de données standard erwin et les connecteurs de données intelligents erwin.

Connecteurs de données standard erwin

Les connecteurs de données standard erwin se connectent à n’importe quelle source compatible JDBC pour analyser les métadonnées de base fournies par les appels JDBC standard ; cependant, de nombreux connecteurs de données standard erwin natifs sont inclus dans la boîte. Ces connecteurs natifs améliorent les performances et l’étendue des métadonnées extraites des systèmes sources.

La dernière version d’erwin DI Suite analyse nativement les bases de données Snowflake pour documenter les structures de données au repos. Les connecteurs de données standard Snowflake natifs erwin analysent et ingèrent automatiquement les métadonnées de Snowflake dans erwin DI, permettant le mappage des données vers et depuis les structures Snowflake.

Screen Shot 2020 09 29 at 12.51.33 PM

Après avoir configuré et connecté à la base de données Snowflake à l’aide des informations d’identification JDBC appropriées, vous pouvez récolter les métadonnées. Les métadonnées analysées sont hébergées dans le gestionnaire de métadonnées sous un type de source Snowflake. Les métadonnées techniques standard sont capturées, telles que le type de données, la longueur, la précision et l’échelle. Vous pouvez étendre ces métadonnées avec des champs supplémentaires tels que des définitions, des champs définis par l’utilisateur (UDF) spécifiques à l’entreprise, une indication du niveau de sensibilité et même une association à des termes métier définis dans le gestionnaire de glossaire métier, ce qui permet de démocratiser les données. (La démocratisation des données sera abordée dans un futur blog.)

SF Meta new

Des instructions étape par étape pour configurer, se connecter et analyser les métadonnées Snowflake dans erwin DI peuvent être trouvées dans le Bibliothèque Erwin.

Connecteurs de données intelligents erwin

Connecteurs de données intelligents erwin permettent aux organisations de se connecter, de cataloguer et de documenter automatiquement la lignée de bout en bout sur de nombreuses plates-formes technologiques tierces. Un programme de gouvernance des données peut atteindre le délai de création de valeur le plus rapide en utilisant l’automatisation erwin et l’intelligence préconfigurée dans chaque connecteur de données intelligent erwin.

Le cadre d’automatisation intégré à erwin DI est détenu, développé et pris en charge par erwin. Il comprend la plus grande bibliothèque de connecteurs de données intelligents du secteur pour numériser et documenter automatiquement ETL, ELT, BI et le code source procédural pour l’analyse de lignée et d’impact. Ces processus de documentation automatique sont progressivement mis à jour et configurés selon le cycle de production d’un client afin qu’erwin DI soit toujours synchronisé avec l’environnement de production.

SnowflakeBlog2 Image4

Le connecteur de données intelligent Snowflake SQL Reverse Engineering analyse les instructions Snowflake DML en mappages source-cible dans le module erwin Metadata Manager de erwin DI. Ces mappages sont utilisés pour générer des rapports d’analyse de lignage qui peuvent suivre les données en mouvement dans l’environnement Snowflake.

SF Lineage New 1

Les connecteurs de données intelligents erwin peuvent s’intégrer à n’importe quel outil fournissant un SDK. Le SDK peut exister sous la forme d’exportations de fichiers plats XML ou JSON, d’intégration d’API ou de connectivité directe au référentiel de base de données. Quelle que soit la forme sous laquelle le DML Snowflake existe, il peut être documenté automatiquement en appliquant les connecteurs de données intelligents erwin. Les exemples incluent Apache Airflow, Talend ou d’autres outils ETL, ou directement Snowflake SQL intégré dans des scripts Python. En utilisant la bonne combinaison de connecteurs de données intelligents erwin, la lignée documentée à partir de votre environnement Snowflake peut être intégrée à la lignée des sources d’entreprise alimentant la plate-forme de données cloud de Snowflake pour une véritable visibilité de bout en bout du mouvement des données.

Pour voir l’intégration d’erwin DI Suite avec Snowflake en action, rendez-vous sur le site Web d’erwin pour demander un demo gratuite.

À propos du blogueur invité : John Carter est directeur de l’ingénierie de l’automatisation chez erwin et travaille dans l’industrie informatique depuis plus de 20 ans. Il dirige l’équipe d’automatisation gérée d’erwin, aidant ses clients à développer des solutions intelligentes pour la documentation automatique, la génération de code et d’autres initiatives d’automatisation basées sur les métadonnées.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.