Dall-E, l'IA qui révolutionne la génération d'image

Dévoilée en avril 2022 par OpenAI, la deuxième version du réseau de neurones fait déjà référence. Elle est taillée pour créer des photos hyperréalistes à partir d'une simple description textuelle.

Dall-E, c'est quoi ?

En janvier 2021, OpenAI levait le voile sur Dall-E, un réseau de neurones de 12 milliards de paramètres conçu pour générer des images à partir d'une description. Dall-E est la contraction de Salvador Dalí et de Wall-E, le célèbre robot de Pixar.

En avril 2022, OpenAI a présenté la deuxième version du modèle. Résultat : Dall-E 2 multiplie par quatre la capacité de résolution de son prédécesseur et parvient à un rendu présenté comme photoréaliste. Une première sur le front du deep learning génératif.

Quelles sont les fonctionnalités de Dall-E ?

Dall-E offre plusieurs possibilités :

Générer, à partir d'une description textuelle, des scènes composées de plusieurs objets avec des relations entre eux,
Apporter des modifications réalistes à une image existante,
Générer des variations d'une image,
Etendre une image au-delà de ses bords (ou outpainting).

Comment utiliser Dall-E ?

Pour l'heure, Dall-E est disponible par le biais d'une API en bêta publique pour les développeurs souhaitant l'exploiter dans leurs applications. Pour tester Dall-E en ligne en matière de génération d'images, il suffit de suivre les étapes suivantes :

Ouvrir un compte sur le site du projet,
Effectuer une double vérification (adresse mail et téléphone),
Se connecter,
Commencer à générer des images à partir de textes.

Que peut-on faire avec Dall-E ?

OpenAI donne plusieurs exemples des performances de sa technologie. "Dall-E 2 crée des images à partir de requêtes combinant concepts, attributs et styles", décrivent les chercheurs de la société américaine. A partir du texte "un astronaute montant à cheval dans un style photoréaliste", Dall-E 2 renvoie une série de variantes dont la qualité créative et la résolution atteint un niveau jamais atteint dans la génération d'images par l'IA (voir la capture ci-dessous).

Comme indiqué plus haut, Dall-E 2 est également capable de modifier une photo existante à partir d'une légende décrite en langage naturel. "Il pourra ainsi ajouter des éléments graphiques en tenant compte des ombres, des reflets et des textures", soulignent encore les chercheurs d’OpenAI (voir la capture ci-dessous présentant l'intégration d'un canapé au centre d'une salle de séjour).

Last but not least, le modèle permet de décliner une image existante en différentes variations. Des variantes qui s'inspireront du style de l'original tout en recomposant ses éléments et en modifiant ses couleurs (voir le résultat ci-dessous obtenu à partir du tableau "Un Dimanche Après-Midi À La Grande-Jatte" du peintre français Georges Seurat).

Comment fonctionne Dall-E ?

OpenAI implémente la méthode d'apprentissage Clip (pour contrastive learning-image pre-training). Elle consiste à entrainer deux réseaux de neurones en parallèle sur de grandes séries d'images, l'un sur la capacité à reconnaitre des motifs visuels, l'autre à identifier les descriptions correspondantes dans leur légende. Principal bénéfice de cette technique : elle ne nécessite pas d'images préalablement labellisées. Cet apprentissage non-supervisé permet au modèle d'être nourri par des volumes massifs d'exemples glanés sur le web sans data préparation.

"Nous espérons annoncer la sortie d'un produit dès cet été"

Evitant les limites rigides des algorithmes de classification, la méthode Clip se révèle plus nuancée et généralisable. "Par exemple, si une image est décrite comme 'un garçon étreignant un chiot' et une autre comme 'un garçon chevauchant un poney', le modèle sera en mesure d'aboutir à une représentation plus robuste de ce qu'est un 'garçon' et comment il se positionne vis-à-vis d'autres éléments dans les images", explique Ben Dickson, ingénieur logiciel et fondateur du site américain TechTalks (lire l'article en anglais).

Quels sont les cas d'usage de Dall-E ?

Parmi ses cas d'usage, Dall-E 2 pourrait permettre de générer automatiquement des images pour illustrer des articles. Ou encore d'équiper les environnements de création graphique d'assistants vocaux ouvrant à tout un chacun la possibilité de s'inventer designer.