Dataset en machine learning : définition et techniques

Dataset en machine learning : définition et techniques Un dataset en machine learning est un jeu de donnée pouvant servir à l'entrainement, à la validation ou au test des modèles d'apprentissage.

Un dataset en machine learning, c’est quoi ?

Le dataset se traduit par jeu ou collection de données. Il s'agit d'un ensemble de données cohérent pouvant se présenter sous différents formats : données chiffrées, textuelles, vidéo, image ou encore son. Le dataset est une brique maîtresse du machine learning. Il va servir à apprendre à un modèle à réaliser une tâche ou faire une prédiction. 

On distingue trois grandes catégorie de dataset en machine learning : le datasets d’entraînement, le dataset de test et le dataset de validation.

Qu’est-ce qu’un dataset d’entraînement ?

Le dataset d’entraînement ou jeu de données d'apprentissage vise à apprendre à un modèle de machine learning à réaliser une prédiction ou effectuer une tâche. En apprentissage supervisé, la collection de données est composée d'une variable ou caractéristique d'entrée et d'une variable de sortie (ou cible). L'objectif étant d'apprendre au modèle à faire la corrélation entre les deux.

Au cours de cette phase, le data scientist va ajuster les paramètres du modèle sur la base de la comparaison entre les résultats générés et la cible attendue. Il s'agira par exemple d'optimiser les poids d'un classificateur ou encore les poids des connexions entre neurones au sein d'un réseau de neurones artificiels

Qu'est-ce qu'un dataset de validation ?

En machine learning, le dataset de validation a pour objectif de valider l'architecture d'un modèle d'apprentissage. A chaque itération de l'entrainement, il permet d'ajuster le modèle. Dans le cas d'une classification, le jeu de données de validation pourra également comparer le comportement de plusieurs types de classifieur en vue de retenir celui qui affichera la meilleure performance.

Dans le cas d'un réseau de neurones artificiels, le jeu de données de validation permet de régler les hyperparamètre c'est-à-dire le nombre de couches cachées au sein du réseau.

Un dataset de test, qu'est-ce que c'est ?

Comme sa dénomination l’indique, le dataset de test a pour but d'évaluer la performance finale d'un modèle de machine learning qui aura été entrainé. Claqué sur la même distribution de probabilité, il est indépendant du jeu de données d'apprentissage. Les prédictions obtenues sont comparées à celles attendues. Objectif : évaluer la précision du modèle.

Qu'est-ce que la validation croisée ou cross validation ?

La validation croisée consiste à partitionner un jeu de données en datasets d'entrainement et de test. Ensuite via un mécanisme de grid search (voir graphique ci-dessous), la validation croisée permet de dénicher les paramètres du modèle se rapprochant le plus des prédictions attendues.

Processus de validation croisée mis en œuvre par Scikit-learn dans le cadre de son mécanisme d'hyperparameter tuning. © Scikit-learn

Le processus ajuste l'échantillonnage de la base de test en la confrontant à la base d'apprentissage par itérations successives. L'objectif est d'aboutir au bon réglage en termes de seuils, par exemple ne pas dépasser 2% en matière de détection de fraudes.

Dictionnaire de l'intelligence artificielle