Random forest (ou forêt aléatoire) : définition et cas d'usage

Le random forest ou forêt aléatoire est un algorithme sophistiqué, dans le domaine du machine learning. Il permet d'obtenir une prédiction fiable, grâce à son système de forêt d'arbres décisionnels.

Le random forest, c'est quoi ?

Le random forest ou forêt d'arbres décisionnels est un algorithme crée en 1995 par HO, puis formellement proposé par les scientifiques Adele Cutler et Leo Breiman, en 2001. Il est particulièrement efficace en termes de prédictions dans le domaine du machine learning, du deep learning et de l'intelligence artificielle (IA).

Le random forest est composé de plusieurs arbres de décision, travaillant de manière indépendante sur une vision d'un problème. Chacun produit une estimation, et c'est l'assemblage des arbres de décision et de leurs analyses, qui va donner une estimation globale. En somme, il s'agit de s'inspirer de différents avis, traitant un même problème, pour mieux l'appréhender. Chaque modèle est distribué de façon aléatoire aux sous-ensembles d'arbres décisionnels.

Le random forest est un modèle d'apprentissage, dont l'efficacité dépend fortement de la qualité de l'échantillon de données de départ.

Comment fonctionne un random forest de régression ?

Un random forest fonctionne sur le principe du bagging. La première étape consiste à découper un dataset en sous-ensembles (arbres de décision), puis de proposer un modèle d'entraînement à chacun de ses groupes. Enfin, on combine les résultats de ces arbres afin d'obtenir la prévision la plus solide.

Il existe deux méthodes pour déterminer le résultat final. Un random forest de régression consiste à calculer la moyenne des prévisions obtenues. On prend donc en compte l'ensemble des prédictions provenant des arbres décisionnels.

Comment fonctionne un random forest de classification (ou forêt d'arbres décisionnels) ?

Un random forest de classification est également basé sur le système du bagging.

Par contre, l'estimation finale se réalise à partir d'une méthode de classification. On choisit la catégorie de réponse la plus fréquente. Plutôt qu'utiliser tous les résultats obtenus, on procède à une sélection en recherchant la prévision qui revient le plus souvent.

Qu'est-ce qu'un grid search ?

Lors du paramétrage d'un random forest, il est nécessaire de choisir le nombre d'arbres décisionnels et le nombre de variables à mettre en œuvre. Un grid search permet de tester une série de paramètres et d'identifier les plus utiles. Il s'agit donc d'un outil d'optimisation, très utile pour paramétrer au mieux la forêt d'arbres décisionnels.

Random forest vs gradient boosting

Le gradient boosting fonctionne sur un modèle proche du bagging, mais contrairement à une forêt aléatoire classique, on ajuste les données au cours de l'apprentissage automatique.

Le poids des données est le même sur chaque arbre au départ, puis on diminue, à partir des prédictions du premier arbre, le poids des observations faciles à classifier et on augmente le poids des informations plus complexes à traiter. La technique du boosting consiste ainsi à transformer un élément faible en apprenant plus efficace.

Dictionnaire de l'intelligence artificielle