Apprentissage auto-supervisé : définition et exemples de modèle

Apprentissage auto-supervisé : définition et exemples de modèle En machine learning, le self-supervised learning ou SSL est surtout utilisé pour traiter des données, type image ou texte, sans nécessiter de les étiqueter manuellement.

L'apprentissage auto-supervisé, c'est quoi ?

Forme intermédiaire entre l'apprentissage supervisé et non supervisé, l'apprentissage auto-supervisé ou self-supervised learning (SSL) est une méthode d'apprentissage automatique reposant sur un réseau de neurones conçu pour ingérer des données non étiquetées. La méthode utiliser ? Masquer une partie des données d'apprentissage, et entrainer le modèles à prédire et identifier ces données cachées. Le modèle génère ainsi lui-même l'étiquetage des données.

L'apprentissage auto-supervisé est très utilisé dans le traitement automatique du langage, notamment dans la reconnaissance de la parole et la traduction automatique, mais aussi dans la reconnaissance d'images. 

Exemples de modèles d'apprentissage auto-supervisé

Les grands groupes du numérique ont largement recours à l’apprentissage auto-supervisé pour les représentations linguistiques, afin de classer rapidement les gigantesques masses de données en leur possession. Ce qui prendrait un temps considérable aux équipes de ces entreprises pour étiqueter les données, avec l’apprentissage supervisé classique. Google a ainsi développé le modèle ALBERT, et Facebook le modèle RoBERTa. Pour chacun de ces deux exemples, des algorithmes auto-encodeurs sont utilisés.

En matière de computer vision, l’apprentissage auto-supervisé peut servir à des tas d’usages, comme la colorisation de documents, le remplissage de contexte ou profondeur, la rotation 3D. Un modèle comme SwAV analyse des images ayant subi des formes de distorsions (découpe, filtre de couleur), et les classe dans des groupes distincts.

Dans le secteur de la robotique, un autre exemple d’usage possible est l’entraînement des modèles chargés d’analyser les données issues des caméras ou capteurs de proximité des robots, et de déterminer les objets ou obstacles en face d’eux, en minimisant le besoin d’une intervention humaine pour indiquer et étiqueter les objets en question. Ce qui représente un gain de temps lors du développement des algorithmes.