Réduction de dimensionnalité en machine learning : définition

La réduction de dimensionnalité en machine learning consiste à réduire le nombre de variables dans les données d'apprentissage, afin d'obtenir plus d'efficacité en termes de résultats et de temps d'analyse.

Qu'est-ce que la réduction de dimensionnalité en machine learning ?

La réduction de dimensionnalité consiste à récupérer des données d'un espace de grande dimension, et à les remplacer par des données dans un espace plus restreint. En machine learning, les grandes dimensions nuisent à l'efficacité des systèmes d'apprentissage automatique. On parle de fléau de la dimension, avec la production de résultats en trop grand nombre, difficiles à associer ou comparer, sans compter le temps nécessaire pour traiter ces quantités de données.

En utilisant un espace de plus petite dimension, on obtient des algorithmes plus efficaces, ainsi qu'un panel de solutions plus réduit.

Afin de réduire la dimensionnalité, il existe différentes méthodes, comme celle de sélectionner certaines caractéristiques ou encore de recréer totalement de nouvelles données dans un espace plus limité.

Quel est l'intérêt de la réduction de dimensionnalité en machine learning ?

La réduction de dimensionnalité permet, en réduisant le nombre de variables dans les données d'apprentissage, de mieux visualiser les données obtenues pour d'effectuer des comparaisons et analyses plus fiables.

Son intérêt est également de réduire les coûts de calcul et de stockage des informations. En réduisant le poids des données, on économise l'espace mémoire. La diminution des caractéristiques au départ du processus d'apprentissage induit aussi une meilleure efficacité des algorithmes, et un gain de temps parfois considérable.

La réduction de la dimensionnalité permet une amélioration du machine learning, en construisant des modèles plus simples, où les variables inutiles ont été écartées. Le paramétrage se révèle de fait plus efficace, en limitant les erreurs qui pourraient survenir avec des caractéristiques de départ non pertinentes.

Quels algorithmes ou méthodes utilisées pour la réduction de dimensionnalité ?

Il existe deux méthodes principales afin de réduire la dimensionnalité. La première consiste à sélectionner les variables les plus intéressantes et à les transporter dans un espace plus réduit. Il s'agit de limiter le nombre de caractéristiques à traiter. La seconde méthode est l'extraction de caractéristiques, soit la création de variables plus pertinentes. Cette opération se fait au préalable par l'analyse des données dans l'espace de grande dimension.

Parmi les algorithmes les plus connus en matière de réduction de dimensionnalité, on peut citer :

  • PCA (Principal Component Analysis) : identification des principales directions avec des variantes importantes ;
  • LDA (Linear Discriminant Analysis) : identification de directions indépendantes les unes des autres ;
  • SVD (Singular Value Decomposition) ;
  • Scikit-Learn Library Installation ;
  • Classification Dataset ;
  • Isomap Embedding ;
  • Autoencoder ;
  • t-SNE (t-distributed Stochastic Neighbor Embedding).

Dictionnaire de l'intelligence artificielle