Données semi-structurées, qu'est-ce que c'est ?

Les données semi-structurées ne suivent pas de format défini mais comprennent néanmoins des éléments, comme des balises ou des métadonnées, facilitant leur traitement. A l'ère du big data, XML est le standard le plus utilisé pour les exploiter.

Les données semi-structurées, c'est quoi ?

Les données semi-structurées font référence à des données qui ne suivent pas un schéma fixe et un format défini comme dans les bases de données relationnelles. Si elles n'obéissent pas à la structure formelle des référentiels, ces données ne sont toutefois pas complètement brutes. Elles comportent des éléments de contexte, des informations associées, comme des balises, des métadonnées ou des tags, qui les rendent plus faciles à traiter, organiser et manipuler que les données non structurées. A l'ère du big data, les données semi-structurées présentent l'avantage d'être plus souples et plus simples à passer à l’échelle que les données dites structurées au format rigide. Un grand nombre de données, y compris les données cataloguées comme non structurées, présentent un certain niveau de structure. La frontière entre les données non structurées et les données semi-structurées est, de fait, parfois floue. Le langage XML se présente comme le standard le plus adapté pour manipuler des données semi-structurées en offrant la possibilité d'annoter des informations sans pour autant passer par un schéma structuré et contraignant.

Exemples de données semi-structurées

Des éléments considérés a priori comme non structurés, tels que des fichiers textes ou des images, présentent une certaine structure qui peut être exploitée afin de faciliter l'analyse de leurs données. Un traitement de texte ou un blog peut comprendre ainsi des mots-clés facilitant la recherche de documents ou de contenus associés à ces tags. Les photos prises par un appareil photo numérique ou un smartphone se voient associées des métadonnées comme le type d'appareil, l'horodatage ou la géolocalisation. Hébergées dans des plateformes cloud, ces photos peuvent être automatiquement étiquetées par des technologies d'intelligence artificielle qui regrouperont, par exemple, des clichés où figurent une même personne. Un particulier et une entreprise peut également créer une base de données semi-structurées en saisissant dans un traitement de texte une liste de contacts en séparant des données personnelles comme le nom, l'adresse postale ou le numéro de téléphone par une simple virgule ou une tabulation.