Databricks : la data platform basée sur Spark

Reposant sur l'architecture Spark et la couche de stockage open source Delta Lake, Databricks combine le meilleur du data warehouse et du data lake tout en intégrant des bibliothèques de machine learning.

Databricks, c'est quoi ?

Fondée en 2013 par les créateurs d’Apache Spark, Databricks est une data platform alliant le stockage des données et leur analyse via les technologies d'intelligence artificielle. Une organisation l'utilisera pour traiter, transformer et explorer de grands volumes de données à travers des modèles d’apprentissage automatique. En tant que contributeur principal de Spark, l'éditeur propose un environnement de traitements complexes hautement distribué de type ETL (Extract, Transform, Load). Baptisée lakehouse, sa solution d'hébergement permet de stocker des Po de données structurées, semi-structurées ou non structurées. La plateforme prend, par ailleurs, en charge les outils de business intelligence, l'analytique SQL et des bibliothèques populaires de machine learning tels que PyTorch et TensorFlow.

Comment fonctionne Databricks ?

Databricks fournit une interface de bloc-notes collaboratifs (Python, R, Scala). La plateforme se connecte à de nombreuses sources de données de type data warehouse, data lake ou cloud public. Nativement cloud, elle est supportée par les trois hyperscalers : AWS, Microsoft Azure et Google Cloud. Elle offre aussi la possibilité d'interroger des bases relationnelles par requêtage SQL. Sur la partie IA, Databricks s'appuie sur le modèle MLFlow – mot-valise formé de machine learning et de workflow - pour faciliter la gestion et la réutilisation des modèles algorithmiques.

Pourquoi choisir Databricks ?

Databrick réunit sur une même plateforme tous les composants open source pour gérer le cycle de vie d'un large spectre de données tout en assurant leur gouvernance et leur sécurité via Delta Lake, sa couche de stockage au format ouvert. Elle fournit, par ailleurs, aux analystes et aux data scientists des outils prêts à pour la business intelligence et le machine learning.

C'est quoi Azure Databricks?

Comme son nom l'indique, Azure Databricks est la version managée de la data platform sur Azure. La plateforme d’analyse de données massives profite de la scalabilité et la haute disponibilité du cloud public de Microsoft mais aussi de la synergie avec son écosystème de services comme l’entrepôt de données Azure Data Lake.