Cassandra : maîtriser la base NoSQL orientée colonnes

Cassandra : maîtriser la base NoSQL orientée colonnes Cassandra est une base de données NoSQL distribuée, disponible en open source. Orientée colonnes, elle se distingue des bases dites clé-valeur ou orientée documents.

Cassandra, c'est quoi ?

Apache Cassandra est l'une des bases de données NoSQL les plus utilisées pour le stockage et le traitement de larges volumes de données avec une faible latence. Hautement scalable et résiliente, son architecture distribuée permet de répartir la charge sur un grand nombre de serveurs. Initialement développée par Facebook (devenue Meta), la plateforme a été placée sous licence open source en 2008. Le projet est piloté sous l'égide de la fondation Apache.

Comment fonctionne Cassandra ?

Cassandra est une base de données NoSQL orientée colonnes comme HBase. Ce modèle est celui qui ressemble le plus aux bases de données relationnelles avec des données stockées sous forme de lignes mais avec un nombre variable de colonnes. Il est reconnu pour sa tolérance aux pannes et sa disponibilité.

Au sein de la base de données Cassandra, tous les nœuds d'une grappe peuvent chacun traiter toutes les requêtes adressées à la plateforme. La réplication automatique des données entre les nœuds diminue, par ailleurs, le risque de défaillance, les nœuds hors service pouvant être aisément remplacés par des nœuds équivalents. En termes de scalabilité, il suffit d’ajouter des nœuds au cluster pour répondre à une hausse de l'activité.

Pourquoi choisir Cassandra ?

Cassandra est conçu pour gérer un volume massif de données (structurées, semi-structurées et/ou non structurées) avec un haut niveau de disponibilité. Elle distribue les informations sur un grand nombre de serveurs, si besoin répartis sur plusieurs centres de données. En évitant les nœuds maître et esclave, elle évite les points de défaillance. 

Qui utilise Cassandra ?

Avec ses atouts propres, Cassandra se prête aux applications de type big data dont la disponibilité de service et l'évolutivité sont des critères-clés. La base de données est utilisée par des géants du numérique comme Meta, Netflix ou Twitter mais aussi par des organismes dont les infrastructures se compte en dizaines de milliers de nœuds comme le Cern, organisation européenne pour la recherche nucléaire. Apache Cassandra se prête également aux applications de l’Internet des objets (IoT).

Cassandra vs MongoDB

Cassandra est une base de données NoSQL orientée colonnes tandis que MongoDB est un moteur orienté documents. L'une des différences principales entre les deux plateformes porte sur la gestion des nœuds. Alors que les nœuds sont au même niveau chez Cassandra, un nœud maître dirige plusieurs nœuds esclaves chez MongoDB.

Dictionnaire du big data