Apprentissage non-supervisé : définition et algorithmes populaires

En machine learning, lorsque l'on souhaite regrouper des données sans les étiqueter, le recours à l'apprentissage non supervisé, sans aucune intervention humaine, s'impose. Voici quelques exemples d'algorithmes.

L'apprentissage non supervisé, qu'est-ce que c'est ?

Dans le domaine de l’IA, et plus précisément du machine learning, la technique de l’apprentissage non supervisé consiste à entraîner des modèles, sans réaliser d’étiquetage manuel ou automatique des données au préalable. Les algorithmes doivent ici analyser et regrouper les données, sans aucune intervention humaine, en découvrant les patterns au sein des masses de données.

En cela, l’apprentissage non supervisé se distingue de l'apprentissage supervisé (qui fait appel à des données étiquetées manuellement) comme de l'apprentissage auto-supervisé (qui fait appel à des données étiquetées automatiquement).

Puisque les données ne sont pas étiquetées, il n’est pas possible pour les modèles ou algorithmes de calculer des scores de réussite. En conséquence, alors que les systèmes supervisés ou auto-supervisés se concentrent sur les tâches de régression et classification, la technique non supervisée est utilisée pour effectuer un regroupement ou une mise en grappe de données en fonction de leurs ressemblances ou différences, et pour la réduction de la dimensionnalité (réduction du nombre d’entrées de données).

L'algorithme K-means, c'est quoi ?

Populaire en machine learning, l'algorithme K-means fait partie des modèles non supervisés, appliquant le partitionnement des données de manière non hiérarchique. Après qu'on lui ait fourni un ensemble de données, il les catégorise dans de multiples clusters, dans le respect du principe de l’exclusivité d’appartenance : une même observation ne peut appartenir qu’à un seul cluster, une donnée ne peut pas relever de deux clusters à la fois.

Les utilisateurs du logiciel choisissent la valeur K, qui représente le nombre de clusters. Vu qu’il n’est pas possible de connaître la valeur idéale à l’avance, K-means est donc lancé à plusieurs reprises avec différentes valeurs K afin de calculer la variance des clusters, soit la somme des distances entre chaque centre d’un cluster et les observations incluses dans le même cluster. Le but est de déterminer un nombre de clusters optimal, de manière à ce que la valeur K retenue minimise la distance intra-classe.

Dans le monde de l’entreprise, l'algorithme K-means est notamment utilisé pour segmenter les données clients, afin de regrouper les prospects en fonction de certains critères, comme les habitudes d'achat et la démographie. Des portails d’informations s’en servent également pour regrouper des articles d’actualité aux thématiques similaires.

Quels sont les autres algorithmes d'apprentissage non supervisé les plus populaires ?

Il existe de nombreux autres exemples d’algorithmes d'apprentissage non supervisé en fonction des approches envisagées : outils de réduction de la dimensionnalité, réseaux de neurones dans le domaine du Deep learning, modèles de distribution ou de classification hiérarchique, outils d’analyse en composantes principales ou indépendantes, procédés de décomposition en valeur singulière, etc.

Dictionnaire de l'intelligence artificielle