Dataset : maîtriser le jeu de données en machine learning

Un dataset est un jeu de données qui permet d'entraîner, valider et tester les modèles d'intelligence artificielle et tout particulièrement de machine learning.

Un dataset, c'est quoi ?

Un dataset, ou jeu de données, regroupe un ensemble homogène de données se présentant sous différents formes : textes, chiffres, images, vidéos, sons… Il prend généralement la forme d'un tableau avec des lignes et des colonnes. Les lignes correspondent aux variables et les colonnes aux paramètres les définissant.

Le dataset en machine learning

Les dataset constituent un élément clé du machine learning. Un jeu de données d'apprentissage entraîne un modèle de machine learning à effectuer une tâche ou à réaliser une prédiction. Dans un mode supervisé, le modèle est entraîné sur des données échantillonnées puis apprend à les reconnaître. Dans un mode non supervisé, le modèle est autonome pour construire sa propre base d'apprentissage. Le machine learning fait également appel à des datatests de validation et de tests, indépendants du jeu de données d'apprentissage, pour évaluer la performance du modèle entraîné avant sa mise en production.

Où trouver un dataset ?

Les bases de données en open data fournissent un grand nombre de datasets en libre accès. On peut citer le portail européen Data Europa, la plateforme ouverte des données publiques françaises, le site de l'Insee, le moteur de recherche dédié de Google ou Kaggle CSV, XML et JSON sont les formats de fichiers les plus fréquemment proposés.

Comment créer un dataset ?

De nombreux sites publics et privés publient des jeux de données en open data. C'est la garantie de disposer de donnés de qualité, au bon format, respectant les enjeux de confidentialité. Une organisation peut créer son propre dataset avec des données issues de multiples sources internes ou publiques (bases de données, site web, réseaux sociaux, IoT…). Cela suppose de mettre en place un cadre de gouvernance afin de définir les mécanismes de collecte, de nettoyage et de formatage des données. Il s'agit aussi de s'assurer auprès des experts métiers de la pertinence du jeu de données retenu.

Dictionnaire du big data