A quoi sert le clustering des données ?
L'amélioration des algorithmes de clustering ouvre de nouvelles perspectives en termes de partition et gestion des données. Définition d'une méthode multifonctionnelle.
Définition du Clustering
Le clustering est une méthode d'analyse statistique utilisée pour organiser des données brutes en silos homogènes. A l'intérieur de chaque grappe, les données sont regroupées selon une caractéristique commune. L'outil d'ordonnancement est un algorithme qui mesure la proximité entre chaque élément à partir de critères définis.
Pour établir l'équilibre, il minimise l'inertie à l'intérieur des classes et maximise celle entre les sous-groupes afin de bien les différencier. L'objectif peut être de hiérarchiser ou de répartir les données. En français, on emploie couramment le terme de regroupement ou l'expression partitionnement de données.
Utilisation du clustering en informatique
Le clustering sert principalement à segmenter ou classifier une base de données (par exemple trier des données clients type âge, profession exercée, lieu de résidence, etc., pour optimiser la gestion de la relation client) ou extraire des connaissances pour tenter de relever des sous-ensembles de données difficiles à identifier à l’œil nu.
En référencement naturel, on recourt au clustering pour structurer les mots clés d'un site et créer la base de son tissu sémantique à partir des intentions de recherche collectées sur les pages de résultats des moteurs de recherche.
L'imagerie spatiale compresse ses données en organisant sous forme de clusters les différents éléments présents sur chaque image, comme des forêts, des villes ou des zones agricoles par exemple. Cela permet de réduire la taille des paquets de données qui sont, sinon, trop lourds.
Pour être appliqué, le clustering s'appuie sur des algorithmes plus ou moins complexes, tels que les algorithmes des k-moyennes ou k-medoids, ou les algorithmes de maximisation de l'espérance.
Synonymes et traduction de "clustering"
En français, on parle de partitionnement des données, de regroupement des données ou encore de segmentation d'une base de données.
En anglais, on peut voir utilisée l'expressions data clustering.