Connecteur Snowflake pour Azure Data Factory (ADF)

Connecteur Snowflake pour Azure Data Factory (ADF)


VEUILLEZ NOTER : Ce message a été initialement publié en 2019. Il a été mis à jour pour refléter les caractéristiques et fonctionnalités actuellement disponibles.

Azure Data Factory (ADF) est le service d’intégration de données sans serveur entièrement géré de Microsoft.

Depuis le 26 septembre 2018, date à laquelle Snowflake a annoncé la disponibilité générale de son service sur le cloud public Azure, la question qui m’a été le plus posée par les clients Azure est de savoir comment intégrer au mieux ADF à Snowflake. La prise en charge native d’ADF pour Snowflake est principalement assurée par deux versions principales, le premier le 7 juin 2020et le deuxième le 2 mars 2022. Et avec cette deuxième version récente, les clients d’Azure Snowflake peuvent désormais utiliser ADF comme outil d’intégration de données de bout en bout avec une relative facilité.

Au fil des ans, il y a eu de nombreuses approches différentes pour intégrer ADF à Snowflake, mais elles ont toutes eu leur part de défis et de limites. En fait, la version originale de ce billet de blog offrait une telle approche. Mais avec cette deuxième version, nous pouvons enfin mettre toutes ces solutions de contournement maladroites derrière nous.

Ce billet de blog mis à jour décrira le support natif de Snowflake offert par ADF et offrira quelques suggestions pour commencer. Pour plus d’informations sur la prise en charge native d’ADF pour Snowflake, veuillez consulter Page Connecteur Snowflake d’ADF.

Connecteur Snowflake natif

Le connecteur natif Snowflake pour ADF prend actuellement en charge ces activités principales :

La Copier l’activité est le principal cheval de bataille d’un pipeline ADF. Son travail consiste à copier des données d’une source de données (appelée source) vers une autre source de données (appelée récepteur). L’activité de copie fournit plus de 90 connecteurs différents aux sources de données, y compris Snowflake. Snowflake peut être utilisé à la fois comme source ou comme récepteur dans l’activité de copie. Avec cette activité, vous pouvez facilement ingérer des données de presque toutes les sources de données dans Snowflake. Pour obtenir la liste complète des sources de données prises en charge, consultez le tableau de matrice source/puits pris en charge par les activités ADF Copy.

La deuxième activité à considérer dans ADF est la Activité de recherche. L’activité de recherche est capable de récupérer un petit nombre d’enregistrements à partir de n’importe laquelle des sources de données prises en charge dans ADF. L’objectif principal de l’activité de recherche est de lire les métadonnées à partir des fichiers et des tables de configuration, qui peuvent ensuite être utilisées dans des activités ultérieures pour créer des pipelines dynamiques basés sur les métadonnées. Bien que vous puissiez appeler une procédure stockée à partir de l’activité de recherche, Microsoft vous déconseille d’utiliser l’activité de recherche pour appeler une procédure stockée afin de modifier des données. Si vous essayez d’exécuter une procédure stockée pour modifier des données, envisagez l’activité Script, décrite ci-après.

La troisième activité à considérer dans ADF est la nouvelle Activité de scénario. Cette activité de script récemment publiée dans ADF offre la capacité très attendue d’exécuter une série de commandes SQL sur Snowflake. Et surtout, cette activité peut être utilisée pour exécuter des instructions en langage de manipulation de données (DML) et des instructions en langage de définition de données (DDL), ainsi que pour exécuter des procédures stockées. Cela donne aux utilisateurs la flexibilité de transformer les données qu’ils ont chargées dans Snowflake tout en poussant tout le calcul dans Snowflake. C’est avec cette nouvelle activité que les clients peuvent désormais créer des pipelines de bout en bout avec Snowflake. Pour une annonce de la nouvelle activité de script, y compris une belle comparaison des activités de recherche et de script, voir le récent article de blog de l’équipe ADF.

Commencer

Démarrer avec ADF et Snowflake est maintenant super facile. Tout ce que vous avez à faire est créer un service lié à Snowflake, créer un nouveau pipeline, puis commencez à utiliser une ou plusieurs des trois activités décrites ci-dessus pour interagir avec Snowflake. Et veuillez noter qu’ADF ne se connectera qu’aux comptes Snowflake dans Azure.

Comme mentionné ci-dessus, avec cette deuxième version, nous pouvons enfin mettre toutes ces solutions de contournement maladroites derrière nous. Vous pouvez donc ignorer en toute sécurité les autres articles de blog sur Internet qui fournissent une solution de contournement personnalisée ou un connecteur pour ADF et Snowflake.

Je suis ravi de voir toutes les façons impressionnantes dont les clients utilisent le connecteur Snowflake pour ADF. Et pour faire couler le jus, voici un article de blog très cool de mon collègue Snowflake Chuang Zhu, qui a combiné la nouvelle activité de script dans ADF avec la nouvelle activité de Snowflake Capacités de détection de schéma pour créer un pipeline ADF, qui peut créer dynamiquement la table cible dans Snowflake lors du chargement des données. Comme il l’explique dans la conclusion, cela peut être combiné avec l’activité de recherche pour créer des pipelines ADF dynamiques pour l’ingestion de données ! Vérifier Migration transparente vers Snowflake à l’aide de l’activité de script ADF + détection de schéma pour tous les détails.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.