Snowflake : le lakehouse qui associe data warehouse et data lake

Snowflake propose une solution de stockage et de traitement de données dans le cloud. Son concept de data lakehouse combine les avantages d'un entrepôt de données et d'un lac de données.

Snowflake, c'est quoi ?

Snowflake est une solution d'entrepôt de données nativement conçue pour le cloud. Lancé en 2012 par deux français, anciens d'Oracle, cette offre de data warehouse "as a service" permet de stocker et de traiter un grand volume de données tout en bénéficiant de la puissance de calcul et de l'élasticité du cloud.

Pourquoi utiliser le Snowflake ?

Alors que les entrepôts de données classiques montrent leurs limites pour appréhender les exigences du big data, Snowflake offre une capacité illimitée d’espace de stockage et de ressources de calcul. Avec son concept de data lakehouse, la plateforme combine les avantages d'un entrepôt de données (data warehouse) et d'un lac de données (data lake) en prenant en charge un grand nombre de données, structurées et semi-structurées, tout en offrant un espace stockage économique. Une entreprise ne paie que les services utilisés sans avoir à supporter les coûts de maintenance d'un data warehouse on-premise.

Quelles sont les fonctionnalités de Snowflake ?

Snowflake est compatible avec une large variété de formats de données et de fichiers. La plateforme propose un mode d'interrogation basé sur SQL tout en offrant la possibilité de manipuler des données semi-structurées aux formats XML, Avro ou JSON. Elle dispose de pilotes ODBC/JDBC pour se connecter à des outils de business intelligence et intègre nativement les environnements Apache Spark et R. Snowflake est disponible sur les plateformes des trois hyperscalers : AWS, Microsoft Azure et Google Cloud.

Quelle est l'architecture de Snowflake ?

L’architecture de Snowflake est organisée en trois couches : le stockage, le calcul et les services associés. En séparant le calcul du stockage, la plateforme permet d'augmenter l'espace de stockage sans augmenter la puissance de calcul. Son approche multi-cluster offre, par ailleurs, des capacités potentiellement infinies.

Snowflake vs Databricks

Snowflake et Databricks sont les principaux représentants de la nouvelle génération de solutions de data warehouse basées dans le cloud. En s'appuyant sur le langage SQL, Snowflake s'adresse avant tout aux entreprises manipulant des données relationnelles et à leurs business analysts. Databricks répond, lui, davantage à cas d'usage dans l'IA et le traitement de flux de données en streaming pour une population d'experts en data science.