Analyse en composantes principales (ACP) : définition et cas d'usage

L'analyse en composantes principales (ACP) est une méthode d'analyse des données permettant d'explorer de vastes jeux de données multidimensionnels, reposant sur des variables quantitatives. Quelles en sont les principales étapes ? Comment se déroule l'interprétation des facteurs ?

L'analyse en composantes principales, qu'est-ce que c'est ?

Membre de la famille de la statistique multivariée, l'analyse en composantes principales permet de transformer des variables corrélées en variables décorrélées. Plus précisément, cette méthode vise à réduire le nombre de variables des jeux de données, pour simplifier les observations tout en conservant un maximum d’informations. Seules une, deux ou trois variables dites "composantes principales" sont conservées.

Mêlant approche géométrique (représentation des variables dans un nouvel espace) et approche statistique (recherche sur des axes indépendants), l’ACP a trois grands objectifs : comprendre la structure d’un ensemble de variables, créer des instruments pour analyser des éléments impossibles à mesurer directement, et condenser les informations issues d’un grand nombre de variables dans un ensemble restreint en garantissant une perte minime.

Quelles sont les principales étapes de l'analyse en composantes principales ?

Il existe 4 principales étapes lors d’une analyse en composantes principales :

  1. Définir les objectifs de l’analyse et l’approche (exploratoire ou confirmatoire) adaptée au type de problème, selon l’existence ou non d’a priori théoriques.
  2. Préparer l’analyse en déterminant le nombre de variables conservées, le type de variables (continues ou dichotomiques), et la taille de l’échantillon.
  3. S’assurer de l’existence de corrélations minimales entre les variables analysées, en recourant à une matrice de corrélation, puis mesurer l’adéquation de l’échantillonnage et réaliser un test de sphéricité dit de Bartlett.
  4. Choisir le nombre de facteurs à extraire grâce à l’ACP en se fiant à deux critères distincts (la valeur de Eigen et le coude de Cattell).

Comment interpréter une analyse en composantes principales ?

La dernière étape est celle de l’interprétation des facteurs ou composantes. Il s'agit ici de déterminer la bonne combinaison de variables, celle qui est associée au plus grand nombre de facteurs significatifs. Pour cela, il faut examiner la matrice des composantes, indiquant le poids des variables pour chaque facteur, soit le degré de correspondance entre les variables et les facteurs. Plus il est élevé, plus la variable est dite représentative.

Il est possible d’effectuer une rotation des facteurs, c’est-à-dire de faire pivoter virtuellement les axes des facteurs autour du point d’origine pour mieux redistribuer la variance que l’on cherche à expliquer. Ainsi, l’ACP est plus facile à interpréter, car la lecture des poids des variables s’en trouve simplifiée. Varimax est la méthode de rotation privilégiée.

Dans quels cas utiliser l'analyse en composantes principales ?

L’ACP est notamment utilisée pour visualiser des corrélations entre les variables, et identifier des groupes homogènes ou à l’inverse des observations atypiques, en particulier des profils à première vue "cachés" à l’intérieur d’un jeu de données.

Dictionnaire de l'intelligence artificielle