Data lineage : définition, principes et outils

En procédant à un inventaire des données, le data lineage assure leur traçabilité. Ce travail de cartographie des flux de données repose un ensemble de techniques. Quelques explications et exemples d'outils.

Le data lineage, c'est quoi ?

Le data lineage, que l'on traduire par lignage de données, consiste à visualiser l’ensemble du cycle de vie de la donnée, de sa création à sa suppression en passant par les différents étapes de collecte, d'exploitation et de stockage. Ce travail de cartographie permet de remonter à la source originelle de la donnée et de suivre les différentes transformations qu'elle a subies au fil du temps.

Pourquoi le data lineage est important ?

A l’heure du big data et des projets d’intelligence artificielle, la connaissance fine des flux de données présente plusieurs avantages. Le data lineage permet de répondre aux exigences du cadre réglementaire sur la protection des données personnelles (RGPD). Il permet de tracer les différents états de la donnée, de son origine aux différentes étapes de transformation. En facilitant l'identification d'erreurs dans des traitements de données à caractère personnel, il réduit les risques de non-conformité. En décrivant et documentant les flux de données, le data lineage participe à une bonne gouvernance de la donnée. Il s'agit aussi d'un outil précieux pour optimiser l'architecture et l'urbanisation du système d’information. Cette traçabilité permet, enfin, aux équipes IT de détecter et de corriger plus rapidement les dysfonctionnements liés aux données.

Quels sont les différents types de data lineage ?

Le data lineage dit technique vise à fournir le parcours de la donnée en détaillant techniquement les étapes de transformation et les espaces de stockages associés. Le data lineage fonctionnel élimine ces détails techniques pour offrir aux opérationnels et experts métiers un vision plus globale de la vie de la donnée.

Exemples d'outils de data lineage

La plupart des plateformes dédiées à la gouvernance des données proposent un service de data lineage. Parmi les éditeurs spécialisés, on peut citer Atlan, Talend, Colibra, Informatica, Dremio ou CloverDX.

Dictionnaire du big data