Variance en machine learning : définition, outils de mesure et enjeux

Une variance excessive des données peut rendre un modèle de machine learning incapable de généraliser ses prédictions quand on lui fournit de nouvelles données d'entrée. Il existe des outils de mesure et des techniques pour remédier à ce problème.

La variance en machine learning, qu'est-ce que c'est ?

En machine learning, la variance correspond à l’erreur de sensibilité des données utilisées pour le modèle d’apprentissage automatique. Plus celle-ci est forte, plus elle augmente le risque de "sur-apprentissage", c’est-à-dire la modélisation du bruit aléatoire des données au lieu des sorties prévues, et plus le modèle devient susceptible de causer des erreurs dès lors qu’il est généralisé au-delà de l’échantillon d’apprentissage. Si la variance est trop faible, elle entraîne un risque de "sous-apprentissage", et le modèle ne sera pas capable de représenter le phénomène ni de faire les bonnes prédictions.

Comment mesurer la variance d'un modèle de machine learning ?

Il est possible de mesurer la variance en réorganisant les données initiales et en opérant une "validation croisée". En effet, en machine learning, le dataset est divisé soit en données d’apprentissage soit en données tests. Pour réaliser une validation croisée, il suffit de faire de multiples apprentissages en modifiant à chaque itération la répartition entre données tests et apprentissage : l’ensemble des données auront ainsi servi à la phase de test comme d’apprentissage. Et le risque de sur- ou sous-apprentissage du modèle s’en trouvera ainsi amoindri avant la phase de production.

Comment réduire la variance d'un modèle de machine learning ?

La variance au sein d’un modèle de machine learning peut être abaissée en faisant une réduction de la dimension ou bien en ajoutant des variables explicatives. La plupart des algorithmes d’apprentissage disposent de paramètres ajustables permettant de contrôler la variance : la régularisation dans un modèle linéaire généralisé, la méthode (KNN) des k plus proches voisins, l'élagage des arbres avec un outil d’arbre à décision, ou bien le recours à des modèles mixtes et à un apprentissage ensembliste.

La variance dans un réseau de neurones, c'est quoi ?

Dans l’utilisation d’un réseau de neurones pour entraîner le modèle de machine learning, la variance a tendance à augmenter avec le nombre de couches cachées. Comme pour un modèle linéaire généralisé, une régularisation peut être appliquée. Pendant la conception, il est donc important de bien spécifier le nombre de couches cachées, ainsi que le nombre de neurones dans chacune de ces couches.

Qu'est-ce que le dilemme (ou compromis) biais-variance ?

Pour remédier ou minimiser le problème causé par la variance, il faut obtenir un bon compromis grâce à la décomposition "biais-variance" qui permet d'atteindre une situation intermédiaire, où le biais de prédiction est le plus faible, et permettant une meilleure généralisation. Le modèle pourra ainsi refléter avec une haute précision les patterns au sein des bases des données d’apprentissage, comme au sein des données tests. Ce type de compromis est appelé le dilemme biais-variance (bias-variance tradeoff en anglais), et peut être appliqué à l’ensemble des formes d’apprentissage supervisé.

Dictionnaire de l'intelligence artificielle