Données non-structurées : comment ça marche ?

Les données non structurées sont des données se présentant sans format prédéfini. Il s'agit notamment de fichiers images ou vidéo, de documents textes ou de PDF.

Quelles sont les données non structurées ?

Les données non structurées sont des données représentées sans un format prédéfini qui faciliterait leur accès et leur traitement. A l'heure du big data, ce sont les données de loin les plus abondantes. Se présentant sous forme de textes, de photos, de fichiers audio et vidéo, les données non structurées peuvent être générées par des humains – des publications sur les médias sociaux, par exemple – ou par des machines avec l'essor de l'Internet des Objets (IoT).

Comment traiter les données non structurées ?

Les données non structurées présentent potentiellement une grand valeur. Leur analyse permet de dégager les tendances d'un marché ou de personnaliser une expérience client. Les outils traditionnels de la business intelligence ne permettent pas d'assurer leur traitement. Il fait recourir aux technologies de la data science et tout particulièrement du deep learning pour les images et les vidéos.

Exemples de données non-structurées

Les données non structurées prennent un grand nombre de formes. Il peut s'agir de fichiers texte (courriel, SMS, traitement de texte, PDF…) ou multimédia (image, vidéo, son...), d'informations issues de la consultation de sites web et de médias sociaux ou de données générées par des machines, des capteurs connectés (télémesure) ou des terminaux mobiles (géolocalisation).

Comment stocker les données non-structurées ?

Générées en continu et en nombre exponentielle, le stockage des données non structurées renvoie aux défis du big data et des infrastructures dédiées (Hadoop). Alors qu'un data warehouse permet d'entreposer les données structurées, le data lake héberge les données "en vrac" qu’elles soient structurées, semi-structurées ou non structurées. Les données non structurées sont, par ailleurs plus facile à gérer au sein de bases de données NoSQL. Le concept de data platform plaide pour un hébergement dans le cloud afin de répondre aux exigences de disponibilité et de scalabilité. Enfin, l'approche de l'"object storage" ou "stockage d’objets" permet de stocker tout type de donnée et notamment des contenus multimédias.

Données non-structurées vs données structurées

Les données non structurées sont stockées sans format prédéfini, par opposition aux données structurées qui se présentent généralement sous forme de tableau avec un schéma clairement défini, comme les lignes d'une table d'une base de données relationnelles.

Dictionnaire du big data