Annonces du Data Cloud Summit 2020

Annonces du Data Cloud Summit 2020

Mobilisez vos données avec Snowflake Data Cloud et ses nouvelles améliorations pour les pipelines de données, la gouvernance et les performances.

Si vous avez manqué le Data Cloud Summit 2020 de novembre, vous n’avez pas entendu parler de nombreux nouveaux produits, capacités et fonctionnalités actuellement en préversion et en développement qui aident les organisations à mobiliser leurs données, en obtenant facilement des données de presque n’importe où dans presque tous les formats ; obtenir des performances ultra-rapides ; et explorer, analyser et partager des informations sur les données via une gamme d’outils d’analyse.

Il y a d’abord le Snowflake Data Cloud lui-même, un réseau de milliers d’organisations mobilisant des données en tant que consommateurs de données, fournisseurs de données et fournisseurs de services de données. Construit sur la plate-forme Snowflake, le Data Cloud est un emplacement unique où les organisations peuvent unifier leurs données cloisonnées.

« Dans le Cloud de données, les silos sont éliminés et notre vision est de mettre les données du monde à la portée de chaque organisation », a déclaré Christian Kleinerman, vice-président senior des produits de Snowflake, dans sa présentation générale. « Le Data Cloud permet une collaboration, un contrôle et un accès transparents aux données via Snowflake Data Marketplace », qui comprend désormais plus de 100 fournisseurs de données.

« Un aspect essentiel du Data Cloud est que nous envisageons des organisations collaborant, non seulement en termes de données, mais également en termes d’applications et de services basés sur les données », a déclaré Kleinerman. « Pensez aux cas où un fournisseur ne souhaite pas ouvrir l’accès à un ensemble de données complet, mais souhaite mettre à disposition une logique métier permettant d’accéder à cet ensemble de données et de l’exploiter. C’est ce que nous appelons les services de données. Et nous voulons que Snowflake soit la plate-forme de choix pour développer, découvrir et utiliser ces blocs de construction.

À cette fin, plusieurs des annonces du Data Cloud Summit 2020 se sont concentrées sur des fonctionnalités qui étendent la portée et l’impact du Data Cloud, notamment les pipelines extensibles, la gouvernance avancée des données et les performances et capacités de la plate-forme Snowflake.

PIPELINES DE DONNÉES EXTENSIBLES

Fonctions externes

Disponible en préversion publique, la fonctionnalité Fonctions externes de Snowflake permet aux équipes de tirer parti des services ou de la logique métier en dehors de Snowflake pour interagir avec les données dans Snowflake en apportant les données là où le calcul a lieu. Snowflake a annoncé cette fonctionnalité pour appeler les points de terminaison régionaux via la passerelle AWS en juin. Il est maintenant également en préversion publique prenant en charge la gestion des API d’Azure et prendra bientôt en charge la passerelle API Google et les points de terminaison privés AWS.

Snowpark

Un deuxième mécanisme d’extensibilité fait l’inverse : il rapproche le calcul de Snowflake des données en permettant la création de fonctions et de procédures. Nous le faisions en SQL, mais aujourd’hui nous sommes heureux d’annoncer une nouvelle fonctionnalité appelée Snowpark, qui permet aux codeurs de construire des pipelines, de créer des fonctions et des procédures en Java, Scala ou Python.

Snowpark est une famille de bibliothèques qui permettent aux développeurs d’écrire du code directement sur Snowflake d’une manière profondément intégrée dans les langages de programmation courants, en utilisant des concepts familiers tels que les cadres de données. Snowpark est conçu pour tirer parti du moteur Snowflake et optimiser ses performances, sa fiabilité et son évolutivité avec une maintenance quasi nulle.

« Pensez à la puissance d’une instruction SQL déclarative disponible via une API bien connue dans Scala, Java ou Python », a déclaré Kleinerman. « Tout cela est appliqué aux données régies dans votre plate-forme de données principale. Nous pensons que Snowpark transformera la programmabilité des données. »

Une fois que les organisations ont leurs données dans Snowflake, a-t-il expliqué, elles peuvent encore simplifier le flux en utilisant les fonctionnalités de flux et de tâches de Snowflake pour appeler une fonction externe afin de transcrire ces fichiers. Snowflake prévoit également d’introduire un modèle d’exécution sans serveur pour les tâches, a-t-il déclaré, grâce auquel Snowflake peut dimensionner et gérer automatiquement les ressources de ses clients. Après la mise en œuvre de ce modèle, les organisations peuvent utiliser la même tâche sans serveur pour exécuter la notation des sentiments et mettre en évidence le score des sentiments, soit via Snowsight, soit via tout outil qu’ils utilisent pour partager des informations au sein de leur organisation.

Snowpark sera disponible en avant-première privée dans une prochaine version.

GOUVERNANCE

Snowflake travaille sur un ensemble de fonctionnalités de produit pour simplifier la collaboration de données tout en respectant les réglementations en matière de confidentialité. Plus tôt cette année, Snowflake a acquis une société appelée CryptoNumerics pour accélérer ses efforts sur ce front, y compris l’identification et l’anonymisation des données sensibles. Bien que ce travail ne soit pas encore prêt à être annoncé, Snowflake a révélé deux nouvelles fonctionnalités importantes de gouvernance des données lors du Data Cloud 2020 Summit : balisage d’objets et politiques d’accès aux lignes.

Balisage d’objet

La nouvelle fonctionnalité de balisage d’objets de Snowflake aide les utilisateurs à mieux connaître et organiser leurs données en leur permettant de joindre des métadonnées définies par l’utilisateur à une variété d’objets, y compris des tables, des vues et des colonnes. Pensez à la possibilité d’annoter les entrepôts avec des informations sur les centres de coûts pour le suivi, ou d’annoter des tables et des colonnes avec des classifications de sensibilité qui permettent aux organisations de suivre les données sensibles pour des raisons de conformité. Les modèles d’administration flexibles permettent soit une gouvernance centralisée, soit une attribution de balises décentralisée contrôlée par des privilèges. Le balisage d’objets devrait être disponible en préversion privée au début de l’année prochaine.

Politiques d’accès aux lignes

Un autre aspect clé de la gouvernance des données dans Snowflake est un cadre dans lequel les organisations spécifient les politiques de données à appliquer par Snowflake. Par exemple, Snowflake a annoncé le masquage dynamique des données plus tôt cette année, et il est maintenant disponible en avant-première publique. Le masquage dynamique des données permet aux organisations de masquer des informations sensibles, telles que les données des colonnes PII, au moment de la requête. En fonction des conditions de la politique de masquage, du contexte d’exécution SQL et de la hiérarchie des rôles, les résultats de la requête Snowflake affichent la valeur en texte brut, une valeur partiellement masquée ou une valeur entièrement masquée.

De plus, lors du Data Cloud Summit 2020, Snowflake a annoncé de nouvelles politiques d’accès aux lignes qui complètent le masquage dynamique des données. Les nouvelles politiques d’accès aux lignes permettent aux utilisateurs de définir diverses règles d’accès aux données dans le Data Cloud. Semblables aux politiques de masquage de Snowflake, les politiques d’accès aux lignes dans Snowflake seront intégrées de manière transparente dans l’ensemble de Snowflake. Qu’il s’agisse d’accéder à des données stockées dans des tables externes ou des données JSON semi-structurées, de créer des pipelines de données via des flux ou d’exploiter la fonctionnalité de partage de données de Snowflake, les organisations seront en mesure de mettre en œuvre des politiques d’accès aux lignes complexes pour divers cas d’utilisation et charges de travail au sein de Snowflake, et ce instantanément. appliquent ces nouvelles politiques de manière cohérente à tous leurs comptes Snowflake, en partageant la gouvernance entre les régions et les clouds. Ces nouvelles fonctionnalités de sécurité au niveau des lignes devraient être disponibles en préversion privée au début de l’année prochaine.

PERFORMANCE

Service d’optimisation de la recherche

Snowflake a annoncé un service d’optimisation de la recherche plus tôt cette année. Ce service peut accélérer considérablement les requêtes de recherche sur n’importe quelle colonne, en particulier celles qui ne sont pas utilisées comme colonnes de clustering. Actuellement en préversion publique, l’optimisation de la recherche peut être activée table par table. Initialement, le service d’optimisation de la recherche de Snowflake ne prenait en charge que les comparaisons d’égalité, mais lors du Data Cloud Summit 2020 de novembre, Snowflake a annoncé une prise en charge étendue des recherches, y compris la correspondance de modèles dans les chaînes. Ce support étendu est actuellement validé par quelques clients en avant-première privée avant d’être largement disponible.

Service d’accélération des requêtes

Snowflake a également annoncé un nouveau service d’accélération des requêtes lors du Data Cloud Summit 2020 qui identifie et adapte automatiquement les parties d’une requête qui pourraient bénéficier de ressources supplémentaires et de la parallélisation. Ce service, dont la préversion privée est prévue dans une future version, permet aux organisations de réaliser des améliorations spectaculaires des performances, des améliorations qui seront particulièrement efficaces pour la science des données et d’autres charges de travail à forte intensité d’analyse. Et, surtout, il sera facile à utiliser. Les organisations définissent simplement une quantité maximale de ressources supplémentaires qu’un entrepôt peut utiliser pour l’accélération, et le service décide quand il serait avantageux d’utiliser ces ressources. Avec suffisamment de ressources, une requête sur un ensemble de données volumineux peut voir une amélioration significative des performances. Lorsque Snowflake a utilisé le service, une requête courante s’est exécutée 15 fois plus rapidement, sans modifier la taille de l’entrepôt.

SUPPORT POUR LES DONNÉES NON STRUCTURÉES

Désormais disponible en avant-première privée, Snowflake a profité du Data Cloud Summit 2020 pour annoncer qu’il ajoute la prise en charge des données non structurées, permettant aux clients de stocker toutes leurs données, sous toutes leurs formes, sur la même plateforme Snowflake. Avec jusqu’à 90 % des données définies comme non structurées, y compris les images, les fichiers texte, le contenu des médias sociaux, les fichiers audio et les transcriptions des centres d’appels, pensez aux nouvelles informations que votre organisation pourrait obtenir et partager en tirant parti de la puissance de SQL pour analyser ces ensembles de données non structurées.

DANS LE CAS OÙ VOUS L’AVEZ MANQUÉ

Mirador

Snowsight, l’interface utilisateur Web de nouvelle génération de Snowflake conçue pour prendre en charge les activités des analystes de données, propose déjà de nombreuses améliorations de facilité d’utilisation pour les analystes, les ingénieurs de données et les utilisateurs professionnels. En septembre, Snowflake a introduit deux fonctionnalités supplémentaires de Snowsight en mode aperçu : Rôle actuel et entrepôt et Base de données actuelle menus déroulants.

Auparavant, les utilisateurs de Snowsight sélectionnaient leur rôle, leur entrepôt et leur base de données actuels dans un seul menu déroulant de l’éditeur de requête. Avec la version de septembre, les utilisateurs sélectionnent leur contexte de session dans deux menus déroulants distincts : Rôle actuel et entrepôtet Base de données actuelle. La Rôle actuel et entrepôt est disponible dans le coin supérieur droit de Snowsight, ce qui le rend plus visible pour les utilisateurs. Ce menu comprend également un nouveau Suspendre/reprendre et redimensionner les entrepôts menu qui affiche des détails sur le statut, la taille, les possibilités de mise à l’échelle, etc. pour l’entrepôt sélectionné. Les utilisateurs peuvent reprendre ou suspendre l’entrepôt ou modifier sa taille à partir du nouveau menu.

Vouloir plus? Voir la vidéo du Snowflake Data Cloud Summit de Christian Kleinerman ici.

Regardez les discussions du Snowflake Data Cloud Summit à la demande ici.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.