Comparaison entre Snowflake et Spark avec les décisions LTI Mosaic

Comparaison entre Snowflake et Spark avec les décisions LTI Mosaic

Aujourd’hui, les organisations ont besoin de données et d’informations analytiques plus rapidement, avec une meilleure qualité et avec une plus grande résilience à la dynamique de l’entreprise. Il n’est pas surprenant que les responsables des données et de l’analyse se tournent vers DataOps pour un cadre agile et collaboratif de gestion des données.

Gartner® définit DataOps comme « une pratique collaborative de gestion des données axée sur l’amélioration de la communication, de l’intégration et de l’automatisation des flux de données entre les gestionnaires de données et les consommateurs de données au sein d’une organisation ».1 Aujourd’hui, les entreprises cherchent à mettre en œuvre des plates-formes et des solutions DataOps évolutives, rentables et faciles à gérer. L’une de ces plateformes est LTI Mosaic Decisions, permettant aux entreprises d’utiliser les données collectées, de développer des cycles de vie indépendants des produits de données et de jeter les bases pour générer des informations exploitables.

Le traitement des données à grande vitesse et à grande échelle est au cœur de toute plateforme DataOps. Compte tenu des choix variés de moteurs de traitement de données, il est nécessaire d’évaluer soigneusement chaque option et de sélectionner celle qui correspond le mieux à vos objectifs commerciaux. Pour permettre aux entreprises de choisir le moteur de traitement de données le plus efficace pour leurs besoins uniques, LTI a récemment mené une étude détaillée comparant les capacités de deux choix populaires : Snowflake et Apache Spark.2 Pour cette étude comparative, LTI a utilisé Mosaic Decisions de LTI comme plate-forme DataOps. L’étude a révélé des informations fascinantes sur différents paramètres :

  • Performance: Snowflake offre une capacité de traitement de données qui correspond généralement à 200 % du moteur d’analyse Apache Spark. En termes de performances et de TCO, Snowflake s’exécute plus rapidement et surpasse Spark par une marge significative tout au long du cycle ETL. En supposant que ses autres fonctionnalités correspondent aux besoins de votre entreprise, Snowflake devient un choix naturel et préféré à intégrer et à utiliser avec Mosaic Decisions.
  • Agilité: Étant donné qu’il s’agit d’une véritable solution SaaS, Snowflake est simple à utiliser ; ne nécessite aucun matériel ou logiciel pour l’installation, la configuration et la gestion ; et se charge même des opérations de maintenance de ses composants. D’autre part, Spark est une technologie conçue pour les experts en analyse et pourrait s’avérer un défi pour les utilisateurs moins avertis. De plus, les pipelines de données exécutés sur un cluster Spark ont ​​mis environ cinq minutes à démarrer, ce qui a retardé le traitement global, alors que sur Snowflake, toutes les exécutions de données ont commencé instantanément.
  • La stabilité: Certains échecs de travail dus à la mémoire ou à d’autres problèmes plus difficiles à déboguer et à effectuer une analyse des causes profondes (RCA) ont été observés lors de l’utilisation de Spark. Pour l’exécution de Snowflake, en revanche, aucun échec de tâche n’a été enregistré.
  • Facilité d’utilisation: Les organisations ont réalisé qu’il est impératif de permettre des investissements stratégiques dans des solutions de données évolutives, rentables et faciles à gérer. De nombreux paramètres doivent être configurés pour extraire les performances de Spark, alors que pour Snowflake, tout fonctionne simplement prêt à l’emploi.
  • Concurrence : Lorsqu’il y a trop d’utilisateurs simultanés, il devient nécessaire que le système évolue pour répondre aux besoins des utilisateurs. Ici, les clusters interactifs Spark ainsi que les entrepôts virtuels Snowflake offrent une capacité de mise à l’échelle automatique. Cependant, Snowflake a été 3 fois plus performant même en n’utilisant que 25 % des ressources, tandis que le cluster Spark avait du mal à gérer plus de 100 utilisateurs simultanés.

Observations, idées et recommandation

La combinaison de LTI Mosaic Decisions et Snowflake est une solution gagnant-gagnant pour les entreprises, car elle exploite et complète les capacités de chaque produit. LTI Mosaic Decisions est livré avec une prise en charge prête à l’emploi pour la plate-forme de Snowflake et l’architecture de Mosaic Decisions tire le meilleur parti de l’architecture de Snowflake en tirant parti de son évolutivité et de ses performances élevées. Par conséquent, l’architecture hautement axée sur les performances de Snowflake est pleinement exploitée.

Mosaic Decisions prend en charge les transformations de données pushdown natives du cloud pour Snowflake. Cela lui permet de tirer parti des procédures déjà stockées dans Snowflake, ainsi que de prendre en charge les exigences futures pour s’intégrer facilement à de nouveaux produits et services tels que Snowpark. Mosaic Decisions possède des fonctionnalités nativement conçues pour faciliter la configuration de Snowflake, et une application conçue spécifiquement pour toute exécution d’entrepôt Snowflake peut être gérée facilement. Il fournit également des fonctionnalités de glisser-déposer pour créer facilement des charges de travail Snowflake.

En résumé, alors que la plate-forme Mosaic Decisions de LTI prend en charge à la fois Snowflake et Spark, la combinaison de Snowflake et Mosaic Decisions donne une plate-forme DataOps optimisée à la fois pour le délai de résolution et le retour sur investissement. Pour en savoir plus sur l’étude sur laquelle ce blog est basé, veuillez lire le livre blanc LTI Comparaison entre Snowflake et Spark pour des opérations de données optimisées.


1 Glossaire informatique Gartner, « DataOps », 1er septembre 2021 [https://www.gartner.com/en/information-technology/glossary/dataops]. GARTNER est une marque déposée et une marque de service de Gartner, Inc. et/ou de ses sociétés affiliées aux États-Unis et dans le monde et est utilisée ici avec autorisation.

2 lti.co/CyTwFD4

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.