Ensemble learning : définition, fonctionnement et algorithmes
En machine learning, la méthode ensembliste consiste à utiliser plusieurs algorithmes d'apprentissage automatique, en les mettant en commun pour obtenir des prédictions de meilleure qualité.
L'ensemble learning, c'est quoi ?
L’apprentissage ensembliste (ou ensemble learning) est une technique qui repose sur la combinaison de multiples algorithmes de machine learning pour accroître les performances du modèle d'apprentissage, et parvenir à un niveau de précision supérieur à celui qui serait réalisé si on utilisait un de ces algorithmes pris séparément.
Selon les cas de figure et le résultat désiré, il est possible d’utiliser un seul et même type d’algorithme pour produire un résultat homogène, ou encore des algorithmes différents pour obtenir un résultat hétérogène. Le concept sur lequel repose la méthode ensembliste est que l’on peut améliorer les performances des modèles apprenants en les combinant.
Comment fonctionne le machine learning ensembliste ?
Il existe deux grandes méthodes ensemblistes, la séquentielle et la parallèle. Avec la méthode d'ensemble learning séquentielle, les modèles sont entraînés à la suite, ce qui leur permet d’apprendre au fur et à mesure de leurs erreurs. Avec la méthode ensembliste parallèle, les modèles sont entraînés en simultané. Chaque modèle est entraîné sur une sous-échantillon de l'ensemble de données d'apprentissage. Pour déterminer le résultat final, on procède par un vote des résultats de chaque modèle pour une classification, ou par une moyenne pour une régression.
Boosting vs bagging vs forêt aléatoire : quelle différence entre ces algorithmes ensemblistes ?
Pour combiner toutes les informations portées par chaque modèle, il convient de diminuer leur variance afin de réduire leur sensibilité aux données, et pour y parvenir il est possible d’employer diverses techniques en machine learning :
- Le bagging (une méthode ensembliste parallèle), aussi appelé bootstrap aggregating, consiste à sous-échantillonner les données, en créant un data set pour chaque modèle. Pour déterminer le résultat final, on procède par un vote des résultats de chaque modèle pour une classification, ou par une moyenne pour une régression.
- Le boosting (une méthode ensembliste séquentielle) combine les modèles classifieurs en les pondérant à chaque nouvelle prédiction, de façon à ce que les modèles ayant prédit correctement aient un poids plus important que les modèles incorrects.
- La forêt aléatoire est une amélioration du bagging, qui est associé au concept de sous-espace aléatoire, et qui s’attache à créer de multiples arbres de décision, avec des modèles entraînés sur des sous-ensembles de données légèrement différents. Vu que les échantillons sont créés de manière aléatoire, la corrélation entre les arbres est réduite, et on obtient in fine à un meilleur résultat. Cette méthode est de nos jours très utilisée par les data scientists.