PaLM, l'IA de Google qui comprend les blagues

PaLM, l'IA de Google qui comprend les blagues La surenchère continue entre les Gafam. Objectif : bâtir le modèle de machines learning avec le plus grand nombre de paramètres. Google en affiche désormais 540 milliards.

En 2020, le modèle GPT-3 avait prouvé une fois de plus les capacités presque sans limites des réseaux de neurones géants. Avec ses 175 milliards de paramètres, ce modèle de deep learning type Transformer signé OpenAI a été entraîné sur des centaines de milliards de mots. Ses cas d'usage sont nombreux, de la génération automatique de texte à la traduction en passant par la génération de codes informatiques. L'enjeu ? Générer des résultats impressionnants, tant en termes de volumes que de précision. Face à GPT-3, Google a dévoilé il y a quelques semaines Pathways Language Model (PaLM). Un Transformer qui monte à 540 milliards de paramètres et dont les performances surpassent ses équivalents de toute dernière génération.

Comme GPT-3, PaLM fait appel à la technique du few-shot learning. Comment ça marche ? Dans le cas de la reconnaissance d'image, ce type d'apprentissage ne disposera que de quelques photos du sujet à identifier (un visage par exemple) pour le réidentifier ensuite. Au lieu de s'entrainer à classer à partir de grandes séries d'exemples, le few-shot learning utilise ainsi quelques patterns de référence à partir desquels il calcule un score de similarité. Plusieurs méga réseaux de neurones se sont depuis inspirés de GPT-3 et de cette méthode en vue d'améliorer encore les performances obtenues. C'est le cas de GLaM, LaMDA et Gopher, tous trois également créés par Google, ou encore de Megatron-Turing NLG qui, lui, a été développé par Microsoft et Nvidia.

150 tâches de modélisation du langage

Google a passé PaLM à la moulinette de son benchmark BIG-bench (pour Beyond the Imitation Game Benchmark). Un framework disponible en open source qui passe au crible les 150 tâches de modélisation du langage. "Résultat : PaLM surperforme majoritairement Gopher et Chinchilla sur un ensemble de 58 tâches communes", constatent Sharan Narang et Aakanksha Chowdhery chez Google Research (voir graphiques ci-dessous).

Parmi les actions mises en avant par Google, PaLM tire notamment son épingle du jeu en matière de gestion automatique de code applicatif, et en particulier de génération de code à partir de requêtes formulées en langage naturel. "Dans ce domaine, ses performances en few-shot learning sont comparables à celles de Codex (une déclinaison de GPT-3 centrée sur les mêmes types de tâches, ndlr) alors que son dataset d'apprentissage contient 50 fois moins de contenu en langage Python", soulignent Sharan Narang et Aakanksha Chowdhery. "Ce résultat renforce les conclusions antérieures selon lesquelles les grands modèles peuvent être plus efficaces que les plus petits, car leur transfère d'apprentissage en provenance d'autres langages […] est meilleur."

"PaLM démontre des capacités impressionnantes de compréhension et de génération du langage naturel"

Les deux ingénieurs logiciels de Google ajoutent : "PaLM démontre par ailleurs des capacités impressionnantes de compréhension et de génération du langage naturel. Il peut notamment fournir des explications pour des scénarios qui nécessitent une combinaison complexe d'inférence logique en plusieurs étapes, de connaissances du monde et du langage. Par exemple, il est capable d'expliquer des blagues inédites." (voir gif ci-dessous)

https://ai.googleblog.com/2022/04/pathways-language-model-palm-scaling-to.html © JDN / Capture

PaLM a été entrainé sur l'infrastructure Tensor Processing Unit (TPU), la plus importante jamais utilisée par Google en matière de machine learning. Composée de 6 144 puces, elle s'adosse à la dernière génération des pods TPU du cloud américain, avec à la clés des processus de parallélisassion de données mis en œuvre au sein de chaque pod. L'apprentissage a été réalisé sur une série de data sets multilingues combinant des documents et livres disponibles en ligne, des conversations, des contenus Wikipedia et du code source disponible sur GitHub. La course continue à qui atteindra le plus gros modèle de NLP avec une couverture de tâches toujours plus large et précise.