Analyse en composantes principales (ACP) : définition et cas d'usage

L'analyse en composantes principales est une méthode d'analyse permettant d'explorer de vastes jeux de données multidimensionnels, reposant sur des variables quantitatives.

L'analyse en composantes principales, qu'est-ce que c'est ?

Rattaché à la famille de la statistique multivariée, l'analyse en composantes principales (ACP) permet de transformer des variables corrélées en variables décorrélées baptisée "composantes principales". Plus précisément, cette méthode vise à réduire le nombre de variables appliquées à des individus, pour simplifier les observations tout en conservant un maximum d’informations. Seules une, deux ou trois variables dites "composantes principales" sont conservées.

Quels sont les objectifs d'une analyse en composante principale ?

Mêlant approche géométrique (représentation le lien entre variables et individus dans un espace rectangulaire) et approche statistique (recherche sur des axes indépendants décrivant la variance), l'ACP a trois grands objectifs : comprendre la structure d'un ensemble de variables, créer des instruments pour analyser des éléments impossibles à mesurer directement, et condenser les informations issues d'un grand nombre de variables dans un ensemble restreint en garantissant une perte minime.

Comment calculer les composantes principales ACP ?

L'APC passe par le calcul de la matrice des composantes principales. Il s'agit du produit de la matrice des valeurs propres et de la matrice des variables indépendantes. La première composante renvoie au plus grand pourcentage de la variation totale des données, la deuxième au deuxième plus grand pourcentage de la variation totale des données, et ainsi de suite. L'APC a pour but d'expliquer la plus grande proportion possible de la variance par le plus petit nombre de composantes principales.

Quelles sont les principales étapes de l'analyse en composantes principales ?

Il existe quatre principales étapes lors d’une analyse en composantes principales :

Définir les objectifs de l’analyse et l’approche (exploratoire ou confirmatoire) adaptée au type de problème, selon l’existence ou non d’a priori théoriques.
Préparer l’analyse en déterminant le nombre de variables conservées, le type de variables (continues ou dichotomiques), et la taille de l’échantillon.
S’assurer de l’existence de corrélations minimales entre les variables analysées, en recourant à une matrice de corrélation, puis mesurer l’adéquation de l’échantillonnage et réaliser un test de sphéricité dit de Bartlett.
Choisir le nombre de facteurs à extraire grâce à l’ACP en se fiant à deux critères distincts (la valeur de Eigen et le coude de Cattell).

Comment interpréter une analyse en composantes principales ?

L'interprétation de l'analyse en composante principale (ACP) permet d'identifier via une matrice de composantes des facteurs non-corrélés, c'est-à-dire des combinaisons linéaires entre variables de départ, et entre variables et facteurs. L'objectif étant in fine de réduire les dimensions d'une donnée multivariée à deux ou trois composantes principales visualisables graphiquement.

Il est possible d’effectuer une rotation des facteurs, c’est-à-dire de faire pivoter virtuellement les axes des facteurs autour du point d’origine pour mieux redistribuer la variance que l’on cherche à expliquer. Ainsi, l’ACP est plus facile à interpréter, car la lecture des poids des variables s’en trouve simplifiée. Varimax est la méthode de rotation privilégiée.

Dans quels cas utiliser l'analyse en composantes principales ?

L’ACP est notamment utilisée pour visualiser des corrélations entre les variables, et identifier des groupes homogènes ou à l’inverse des observations atypiques, en particulier des profils à première vue "cachés" à l’intérieur d’un jeu de données.