TPC-DS à 100 To et 10 To désormais disponible dans les échantillons Snowflake

TPC-DS à 100 To et 10 To désormais disponible dans les échantillons Snowflake


Nous sommes heureux d’annoncer qu’une version complète de 100 To de données TPC-DS, ainsi que des échantillons de toutes les 99 requêtes de référence, sont désormais disponibles pour tous les clients Snowflake à des fins d’exploration et de test. Nous fournissons également une version 10 To si vous êtes intéressé par des tests à plus petite échelle.

Sous-schéma STORE_SALES du Benchmark TPC-DS

Le sous-schéma STORE_SALES du Benchmark TPC-DS
La source: Spécification TPC Benchmark™ DS

Vous pouvez trouver les tableaux dans :

  • Base de données: SNOWFLAKE_SAMPLE_DATA
  • Schéma: TPCDS_SF100TCL (version 100 To) ou TPCDS_SF10TCL (version 10 To) .

(Notez que les données brutes se compressent dans Snowflake à moins d’un tiers de leur taille d’origine.)

Des exemples de requêtes TPC-DS sont disponibles sous forme de didacticiel sous la rubrique + menu dans le flocon de neige Feuille de travail Interface utilisateur :

Tutoriel TPC-DS dans l'interface Web de Snowflake

Accès aux exemples de requêtes TPC-DS dans l’interface utilisateur de la feuille de calcul Snowflake

Qu’est-ce que le TPS-DS ?

Les données TPC-DS ont été largement utilisées par les sociétés de bases de données et de Big Data pour tester les performances, l’évolutivité et la compatibilité SQL sur une gamme de requêtes d’entrepôt de données, des rapports rapides et interactifs aux analyses complexes. Il reflète un modèle de données multidimensionnel d’une entreprise de vente au détail vendant via 3 canaux (magasins, Web et catalogues), tandis que les données sont découpées en 17 dimensions, notamment Client, Magasin, Temps, Article, etc. La majeure partie des données est contenus dans les grandes tables de faits : Ventes en magasin, Ventes par catalogue, Ventes Web – représentant les transactions quotidiennes sur 5 ans.

La version 100 To de TPC-DS est la plus grande base de données relationnelle d’échantillons publics que nous connaissons, disponible sur n’importe quelle plate-forme pour les tests et l’évaluation publics. Pour la perspective, la table STORE_SALES contient à elle seule plus de 280 milliards de lignes chargées à l’aide de 42 téraoctets de fichiers CSV.

Les détails complets du schéma et des requêtes TPC-DS, y compris les descriptions commerciales de chaque requête, peuvent être trouvés dans le Spécification TPC Benchmark™ DS. Pour tester des exemples de différents types de requêtes, considérez :

Taper Requêtes
Interactif (1 à 3 mois de données numérisées) — Requêtes simples en étoile 19, 42, 52, 55
Rapports (1 an de données numérisées) — Requêtes simples en étoile 3, 7, 53, 89
Analytique (Plusieurs années, modèles de clients) – Extraits de clients, jointures d’étoiles 34, 34, 59
Complexe — Jointures fact-to-fact, fenêtres, sous-requêtes étendues 23, 36, 64, 94
  • À l’échelle de 10 To, l’ensemble complet de 99 requêtes devrait se terminer en moins de 2 heures sur un entrepôt virtuel Snowflake 2X-Large.
  • À 100 To, nous vous recommandons d’utiliser l’entrepôt virtuel de plus grande taille disponible. Par exemple, sur un entrepôt 3X-Large, vous pouvez vous attendre à ce que les 99 requêtes soient terminées en 7 heures.

Notez que, si vous prévoyez d’exécuter des requêtes identiques plusieurs fois ou simultanément, assurez-vous de désactiver la mise en cache des résultats dans Snowflake lorsque vous exécutez des tests en ajoutant ce qui suit à votre script :

alter session set use_cached_result = false;

Kit d’analyse comparative TPC-DS et utilisation des plages de dates

Bien que nous fournissions des exemples des 99 requêtes contenant des valeurs de paramètres spécifiques, les Kit de référence TPC-DS inclut des outils pour générer des permutations aléatoires de paramètres pour chaque requête – ce que nous utilisons dans nos tests internes.

Dans toutes les requêtes, les plages de dates sont fournies à l’aide de prédicats sur la table DATE_DIM – comme spécifié par le benchmark TPC-DS – plutôt que d’utiliser des restrictions de clé de date directement sur les grandes tables de faits (une stratégie que certains fournisseurs ont utilisée pour simplifier de manière irréaliste les requêtes) . Si vous souhaitez créer des variantes de ces requêtes sans utiliser le kit de référence, vous pouvez créer des versions qui analysent différentes plages en modifiant les restrictions d’année, de mois et de jour dans les clauses WHERE.

Conclusion

Les données TPC-DS (et d’autres exemples d’ensembles de données) sont mises à votre disposition via le système unique de Snowflake Partage de données fonctionnalité, qui permet de partager le contenu de n’importe quelle base de données dans Snowflake avec d’autres clients Snowflake sans nécessiter de copies des données.

Nous espérons que vous apprécierez de travailler avec cette charge de travail exigeante et diversifiée, et vous invitons à comparer vos résultats Snowflake avec d’autres plateformes.

Et n’oubliez pas de garder un œil sur ce blog ou de nous suivre sur Twitter (@flocondeneige) pour toutes les nouvelles et les événements ici à Snowflake.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.