Dall-E 2, l'IA qui révolutionne la génération d'images

Dall-E 2, l'IA qui révolutionne la génération d'images Dévoilée en avril par OpenAI, la deuxième version du réseau de neurones fait déjà référence. Elle est taillée pour créer des photos hyperréalistes à partir d'une simple description textuelle.

En janvier 2021, OpenAI levait le voile sur Dall-E, un réseau de neurones de 12 milliards de paramètres conçu pour générer des images à partir d'une description. Dall-E est la contraction de Salvador Dalí et de Wall-E, le célèbre robot de Pixar. En avril 2022, OpenAI a présenté la deuxième version du modèle. Résultat : Dall-E 2 multiplie par quatre la capacité de résolution de son prédécesseur et parvient à un rendu présenté comme photoréaliste. Une première sur le front du deep learning génératif.

OpenAI donne plusieurs exemples des performances de sa technologie. "Dall-E 2 crée des images à partir de requêtes combinant concepts, attributs et styles", décrivent les chercheurs de la société américaine. A partir du texte "un astronaute montant à cheval dans un style photoréaliste", Dall-E 2 renvoie une série de variantes dont la qualité créative et la résolution atteint un niveau jamais atteint dans la génération d'images par l'IA (voir la capture ci-dessous).

Dall-E 2 est également capable de modifier une photo existante à partir d'une légende décrite en langage naturel. "Il pourra ainsi ajouter des éléments graphiques en tenant compte des ombres, des reflets et des textures", soulignent encore les chercheurs d’OpenAI (voir la capture ci-dessous présentant l'intégration d'un canapé au centre d'une salle de séjour).

Last but not least, le modèle permet de décliner une image existante en différentes variations. Des variantes qui s'inspireront du style de l'original tout en recomposant ses éléments et en modifiant ses couleurs (voir le résultat ci-dessous obtenu à partir du tableau "Un Dimanche Après-Midi À La Grande-Jatte" du peintre français Georges Seurat).

Pour parvenir à ces résultats, OpenAI implémente la méthode d'apprentissage Clip (pour contrastive learning-image pre-training). Elle consiste à entrainer deux réseaux de neurones en parallèle sur de grandes séries d'images, l'un sur la capacité à reconnaitre des motifs visuels, l'autre à identifier les descriptions correspondantes dans leur légende. Principal bénéfice de cette technique : elle ne nécessite pas d'images préalablement labellisées. Cet apprentissage non-supervisé permet au modèle d'être nourri par des volumes massifs d'exemples glanés sur le web sans data préparation.

"Nous espérons annoncer la sortie d'un produit dès cet été"

Evitant les limites rigides des algorithmes de classification, la méthode Clip se révèle plus nuancée et généralisable. "Par exemple, si une image est décrite comme 'un garçon étreignant un chiot' et une autre comme 'un garçon chevauchant un poney', le modèle sera en mesure d'aboutir à une représentation plus robuste de ce qu'est un 'garçon' et comment il se positionne vis-à-vis d'autres éléments dans les images", explique Ben Dickson, ingénieur logiciel et fondateur du site américain TechTalks (lire l'article en anglais).

Parmi ses cas d'usage, Dall-E 2 pourrait permettre de générer automatiquement des images pour illustrer des articles. Ou encore d'équiper les environnements de création graphique d'assistants vocaux ouvrant à tout un chacun la possibilité de s'inventer designer.

La prochaine étape ? "Nous espérons annoncer la sortie d'un produit dès cet été", indique Sam Altman, président et co-fondateur d'OpenAI, dans un billet de blog. A l'image de son modèle phare GPT-3, l'entreprise de San Francisco devrait commercialiser son modèle par le biais d'une API. Pour l'heure, Dall-E 2 est disponible en bêta privée à un nombre restreint de chercheurs en data science et de créatifs.