Data catalog : définition, exemple, outils..

Data catalog : définition, exemple, outils.. Un data catalog, ou catalogue de données, renvoie par définition à un inventaire des données d'une organisation. Il fait intervenir différents outils de préparation et d'indexation d'information.

Un data catalog, c'est quoi ?

Par définition, un data catalog se présente comme un inventaire de l'ensemble des données disponibles au sein d'une organisation. En centralisant ces données quelle que soit leur source (CRM, ERP…), il offre une vue à 360° de son patrimoine informationnel.

Un data catalog indexe les informations à partir de métadonnées, c'est-à-dire de caractéristiques qui leur sont spécifiques (format, origine, date de création). Une analogie peut être faite avec le système de classement des livres dans une bibliothèque par titre, auteur ou genre.

Pourquoi un data catalog ?

La création d'un data catalog participe d'une meilleure circulation de l'information au sein de l'organisation. En cassant les silos informationnels, il rend la donnée accessible au plus grand nombre, sans être nécessairement utilisateur d'une application.

Dans la cadre d'une démarche de gouvernance de la donnée, des experts métier peuvent grâce à un data catalog utiliser des données qualifiées et immédiatement actionnables pour piloter ou optimiser leur activité.

Comment faire un data catalog ?

La création d'un data catalog suppose de dresser une cartographie des informations existantes au sein des applications et autres systèmes IT afin d'identifier les différentes sources de données (bases, fichiers). L'implication des responsables opérationnels est nécessaire pour réaliser cet inventaire mais aussi pour constituer des glossaires propres à chaque métier.

Sur le plan technique, les outils d’ETL (pour extract, transform, load) assurent l'extraction des données, les nettoient et les transforment avant de les charger dans une base cible qui prendra en charge le data catalog.

Comment faire un data catalog ?

La réalisation d'un catalogue de données se décline en plusieurs étapes :

  1. Concevoir un modèle de données ou subject area model, qui définit les concepts à intégrer et les liens qu'ils entretiennent,
  2. Définir un glossaire répertoriant les métadonnées et décrivant celles-ci en fonction de leur spécificité métier,
  3. Indexer l'ensemble des métadonnées des contenus de l'organisation et les documenter (ou profiler),
  4. Identifier les données connexes issues de différentes sources (par exemple les données relatives aux clients),
  5. Créer une représentation visuelle du cycle de vie des données ou data lineage,
  6. Organiser les données (par cas d'usage, tags) de telle sorte qu'elles soient accessibles aux utilisateurs métier.

Exemple de data catalog

La création d'un catalogue facilite la découverte et l’utilisation des données à des fins d’analyse et de reporting. L'utilisateur ne perd plus de temps à chercher les données de qualité et à s'interroger sur leur intérêt. Via un portail en self-service, il accède à des jeux de données contextualisés et directement exploitables.

Quels sont les outils de data catalog ?

Un data catalog comprend un registre de métadonnées pour décrire et étiqueter les données associé à un glossaire métier pour classer ces informations selon les spécificités d'un domaine d'activité. L'inventaire intègre également un moteur de recherche pour filtrer les résultats et un graphe de connaissances pour représenter les liens entre différents objets. Enfin, un module de gestion des autorisations contrôle l'accès au catalogue en fonction du profil de l'utilisateur.

Existe-t-il des outils de data catalog open source ?

Aux côtés des solutions de data catalog propriétaires (Informatica, Collibra, Alation, Talend...), il existe plusieurs technologies de data catalog open source, parmi lesquelles Apache Atlas ou encore OpenMetadata.

Dictionnaire du big data