Data préparation : définition et fonctionnement

La dataprep consiste à collecter, nettoyer et organiser les data d'apprentissage en vue de les utiliser pour entrainer les modèles de machine learning

Qu’est-ce que la data préparation en machine learning ?

Dans une optique de machine learning, la data préparation ou dataprep prépare les données d'entrainement en vue de leur ingestion par le modèle d'apprentissage. Il s’agit d’une étape préliminaire clés qui regroupe un ensemble de phases préparatoires, de la collecte jusqu’aux processus de validation des données. L'une des étapes centrale du processus consiste à formater les données, rectifier les éventuelles erreurs qu'elles peuvent comporter, et éventuellement les enrichir.

Concrètement, la data préparation en machine learning améliore la qualité des données avant leur traitement. La détection d’anomalies permet de corriger les biais qui pourraient avoir un impact négatif sur les résultats du modèle. En parallèle du machine learning, il est possible d’entreprendre une data préparation pour la visualisation de données et autres opérations d’analyse.

Quelles sont les différentes étapes de la data préparation ?

Comme évoqué précédemment, la data préparation en machine learning s’effectue en plusieurs étapes d’exécution :

la collecte des données ;
l’évaluation des données ;
le nettoyage, l'ajout ou la suppression de valeurs ;
la transformation et le formatage des données ;
la validation des données ;
le stockage ou le routage des données.

A noter que le temps de prétraitement dépend du volume et de la complexité des données. Ensuite, leur traitement et analyse sera plus facile sur un délai réduit. Le gain de temps observé se confirme aussi lors d’opérations analytiques répétitives qui génèrent des flux d’entrée et de sortie constants.

Quelle est la différence entre data préparation et data exploration ?

La data préparation renvoie à la phase de transformation des données brutes en données exploitables. Lors de cette phase, elles sont collectées, nettoyées et formatées en fonction du processus de traitement à réaliser dans un second temps. L'exploration des données est l'épate suivante.

L'exploration des données consiste à naviguer au sein du data set qui a été assemblé pour mieux l'appréhender. C'est une étape qui précède la création de tableaux de bord d'analyse décisionnel en business intelligence ou l'utilisation du data set pour entrainer un modèle de machine learning en IA.

Quels sont les rôles des data sets d’entraînement, de validation et de test ?

Le data set d’entraînement est utilisé en amont du processus de machine learning. C'est une base d'apprentissage (par exemple une série de photos de chat dans la reconnaissance d'image) utilisée pour entrainer le modèle et lui permettre ensuite de réaliser des prédictions sur la base de nouvelles données (soit reconnaitre des photos de chat qu'il n'a encore pas ingérées dans notre exemple).

Comme son nom l'indique, le data set de validation a pour but d'aboutir à la validation du modèle qui a été entrainé. Il s'appuie sur des exemples (toujours d'images de chat pour poursuivre notre exemple) qui n'étaient pos présents dans le data set d'entraînement. Cette étape va permettre d'ajuster les paramètres du modèle. Quant au data set de test, il contrôle la performances du modèle final. Une démarche essentielle pour estimer sa précision et sa capacité à ne pas dériver (c'est-à-dire sa robustesse).