Ensemble learning : définition, fonctionnement et algorithmes

En machine learning, la méthode ensembliste consiste à utiliser plusieurs algorithmes d'apprentissage automatique, en les mettant en commun pour obtenir des prédictions de meilleure qualité. Quel est son fonctionnement ? Et avec quels algorithmes ?

Qu'est-ce que l'ensemble learning ?

L’apprentissage ensembliste est une technique qui repose sur la combinaison de multiples algorithmes pour accroître les performances du modèle, et parvenir à un niveau de précision bien supérieur à celui qui serait réalisé si on utilisait n’importe lequel de ces algorithmes pris séparément. Selon les cas de figure et le résultat désiré, il est possible d’utiliser un seul et même type d’algorithmes pour produire un résultat homogène, ou encore des algorithmes entièrement différents pour obtenir un résultat hétérogène. Le concept sur lequel repose la méthode ensembliste est que l’on peut améliorer les performances des modèles apprenants “faibles” en les combinant.

Comment fonctionne le machine learning ensembliste ?

Il existe deux grandes méthodes ensemblistes, la séquentielle et la parallèle. Avec la méthode ensembliste séquentielle, les modèles sont entraînés à la suite en leur permettant d’apprendre des erreurs passées, avant de les combiner à la fin du processus. Ce qui est possible en affectant un poids un peu plus élevé aux observations erronées du premier modèle, pour leur donner plus d’importance dans l’entraînement du suivant, et ainsi de suite pour les suivants. Avec la méthode ensembliste parallèle, les modèles sont entraînés en simultané (en même temps), dans l’idée d’exploiter à la fin les différences d’observations entre ces modèles indépendants, au moment de leur combinaison.

Boosting vs bagging vs forêt aléatoire : quelle différence entre ces algorithmes ensemblistes ?

Pour combiner toutes les informations portées par chaque modèle, il convient de diminuer leur variance afin de réduire leur sensibilité aux données, et pour y parvenir il est possible d’employer diverses techniques en machine learning :

  • Le bagging, aussi appelé bootstrap aggregating, consiste à sous-échantillonner les données, en créant un data set pour chaque modèle (mais similaire à l’original). Puis, lors de la combinaison, on effectue l’analyse prédictive au travers d’un vote à la majorité pour la classification, ou en moyennant pour la régression.
  • Le boosting va lui combiner les modèles classifieurs en les pondérant à chaque nouvelle prédiction, de façon à ce que les modèles ayant prédit correctement les fois précédentes aient un poids plus important que les modèles incorrects. Mieux un modèle classe, plus il devient important au fil du temps.
  • La forêt aléatoire est une amélioration du bagging, qui est associé au concept de sous-espace aléatoire, et qui s’attache à créer de multiples arbres de décision pour l’apprentissage, avec des modèles entraînés sur des sous-ensembles de données légèrement différents. Vu que les échantillons sont créés de manière aléatoire, la corrélation entre les arbres est réduite, et on obtient un meilleur résultat à la fin. Cette méthode est de nos jours très utilisée par les data scientists.

Dictionnaire de l'intelligence artificielle