Data préparation en machine learning : définition et fonctionnement

La data préparation en machine learning consiste à collecter, nettoyer et organiser un ensemble de données, en vue de leur traitement et analyse. Le système s'appuie alors sur des procédures de validation et de test afin de pouvoir exploiter les données. On utilise aussi un data set d'entraînement.

Qu’est-ce que la data préparation en machine learning ?

Dans une optique de machine learning, la data préparation permet de réaliser un prétraitement des données en vue de leur exploitation. Il s’agit d’une étape préliminaire qui regroupe un ensemble de phases préparatoires ; de la collecte jusqu’aux processus de validation et de test. Au besoin, la procédure formate les données, rectifie les erreurs, associe des data sets ou enrichit certaines données. Ce concept vient en amont de toute analyse ou étude afin de rendre chaque décision plus pertinente et compréhensible.

Concrètement, la data préparation en machine learning améliore la qualité des données avant leur traitement. La détection d’anomalies se révèle plus fiable et permet de corriger avec plus de facilités les problèmes rencontrés. Une intervention particulièrement délicate pour les procédures d’exploitation ultérieures, notamment pour leur identification. En parallèle du machine learning, il est possible d’entreprendre une data préparation pour la visualisation de données et les opérations d’analyse.

Quelles sont les différentes étapes de la data préparation en machine learning ?

Comme évoqué précédemment, la data préparation en machine learning s’effectue en plusieurs étapes d’exécution :

  • la collecte des données ;
  • l’application des data sets et l’évaluation des données ;
  • le nettoyage avec correction, ajout ou suppression de valeurs ;
  • la validation des données ;
  • la transformation des données avec possibilité de les enrichir ;
  • le stockage ou le routage des données.

A noter que le temps de prétraitement dépend du volume et de la complexité des données. Ensuite, le traitement sera plus facile sur un délai réduit. Le gain de temps observé se confirme aussi lors d’opérations analytiques répétitives qui génèrent des flux d’entrée et de sortie constants.

Quels sont les rôles des data sets d’entraînement, de validation et de test ?

Ce sont les experts des TI (technologie de l’information) ou spécialisés dans la business intelligence qui intègrent des data sets (jeux de données) au sein de bases de données. On distingue plusieurs catégories en fonction des ensembles de valeurs répertoriés. A titre d’exemple, le set d’entraînement permet de moduler les ressources d’un réseau de neurones.

Le data set de validation vérifie la pertinence et la qualité du travail du training set. En ce sens, il inspecte et, au besoin, modifie les paramètres de classification. Quant au set de test, il contrôle les performances du système. Une démarche essentielle pour estimer avec plus de précision la puissance réelle du réseau avant déploiement. Du point de vue de l’utilisateur, cela permet de s’assurer que les ressources sont suffisantes pour l’exploitation des données.

Dictionnaire de l'intelligence artificielle