GPT-3 : le modèle de NLP géant d'OpenAI

De type transformer, le large language model compte pas moins de 175 milliards de paramètres. Ce qui en fait une IA capable de couvrir questions-réponses, traduction, génération de texte ou de code applicatif.

GPT-3, c'est quoi ?

Conçu par l'américain OpenAI en 2018, GPT-3 est un modèle de deep learning de la famille des GPT (pour generative pre-trained transformer) initiée par le même éditeur. Il s'agit de modèles génératifs pré-entraînés de traitement automatique des langues (TAL) ou de la langue naturelle (TALN), ou de natural language processing (NLP) en anglais.

Comptant 175 milliards de paramètres, GPT-3 s'inscrit dans la famille des large language model (LLMs). Il est conçu pour les tâches de question-réponses, de traduction, de composition de texte, de résolution de problème ou de génération de code applicatif.

Comment fonctionne GPT-3 ?

Comme la plupart des large language models (LLMs), GPT-3, à l'instar des autres membres de la famille GPT, s'adosse à une architecture de type transformer. De la même manière que les réseaux de neurones récurrents (RNN), les transformers sont des réseaux de neurones artificiels conçu pour ingérer des données séquentielles. Résultat : ils sont particulièrement adaptés au traitement du langage naturel.

Contrairement aux RNN en revanche, les transformers ne traitent pas les données sous forme de flux continu en respectant l'ordre des mots des phrases. Ce qui leur permet de découper les traitements et de parallélise les calculs de la phase d'apprentissage. Résultat : ils sont beaucoup plus rapides à entraîner que les RNN.

Quel est le principal avantage de GPT-3 ?

L'un des principaux points forts de GPT-3 est d'être à la portée des data scientists juniors. Il est capable de mettre en œuvre des traitements spécifiques à partir d'un réentrainement portant sur quelques exemples (few-shot learning), voire sans réentrainement du tout (zero-shot learning). Par exemple, il pourra s'agir de gérer une tâche ou un vocabulaire spécialisé.

Quelle est la licence de GPT-3 ?

GPT-3 est un modèle de deep learning sous licence propriétaire. Il est commercialisé par OpenAI sous forme de différentes déclinaisons entraînées pour diverses tâches :

Davinci pour la gestion de résumé et la génération de texte,
Curie pour la traduction, la classification, l'analyse de sentiment et le résumé de texte,
Babbage pour la classification orientée recherche sémantique,
Ada pour l'analyse de texte, la classification simple et la correction d'adresse,
Codex pour la génération de code de programmation ou de documentation technique.

OpenAI a concédé une licence GPT-3 à Microsoft pour ses propres produits et services. L'éditeur de Windows a notamment fait de sa déclinaison Codex le socle de son assistant de développement GitHub Copilot.

Comment GPT-3 a-t-il été entrainé ?

GPT-3 a été entraîné sur de grands corpus de données en anglais de manière auto-supervisée. "Cela signifie qu'il a été préformé uniquement sur les textes bruts, sans qu'aucun humain ne les étiquette. Avec à la clé un processus automatique pour générer des entrées et des étiquettes à partir de ces textes. Plus précisément, il a été entraîné à deviner le mot suivant dans les phrases", précise Houssam AlRachid, lead data scientist chez Devoteam.

Quid de GPT-2 ?

Livré par OpenAI en février 2019, GPT-2 se limite à 1,5 milliard de paramètres. Il couvre néanmoins de multiples cas d'usage : traduction, questions-réponses, résumé et génération de texte. Seule limite : A la différence de GPT-3, il devra être réentrainé pour chacune de ses tâches, n'étant pas suffisamment puissant pour le zero-shot learning.

Qu'est-ce que GPT-J ?

Développé par Eleuther AI, GPT-J est une alternative open source à GPT-3 basée sur l'architecture Mesh Transformer JAX. Comptant 6 milliards de paramètres, il cible les tâches de traduction, de chat ou encore de génération de texte.

GPT-J atteint les performance de son grand frère propriétaire sur un grand nombre de tâches sans nécessiter de réentrainement, via la technique du zero-shot learning. Il surpasserait même GPT3 dans la génération de code.