Natural language processing (NLP) : définition, techniques et modèles

Le natural language processing (NLP) est une branche du machine learning qui vise à doter des programmes informatiques de la capacité de comprendre le langage humain naturel. Plusieurs techniques et modèles existent pour parvenir à cet objectif ambitieux.

Le natural language processing (NLP), c'est quoi ?

Le natural language processing (NLP), ou traitement du langage naturel, est une branche de l’intelligence artificielle qui s’attache à comprendre le langage humain tel qu’il est écrit et/ou parlé. Pour ce faire, des programmes informatiques spécifiques sont développés. En effet, un ordinateur typique réclame qu’on lui parle dans un langage de programmation bien précis, balisé, structuré, sans ambiguïté. Le langage naturel humain est, lui, imprécis, équivoque, confus. Pour permettre à un programme de comprendre le sens des mots, il faut employer des algorithmes capables d’analyser le sens et la structure pour "désambiguïser" les mots, de reconnaître certaines références, puis de générer du langage sur cette base.

Quelles sont les différentes techniques de natural language processing (NLP) ?

Les algorithmes de NLP pratiquent différentes analyses syntaxiques et sémantiques, pour évaluer le sens d’une phrase en fonction de règles grammaticales fournies au préalable, en opérant une segmentation des mots et des groupes de mots ou en étudiant la grammaire d’une phrase complète. Pour déterminer le sens et le contexte, ils comparent en temps réel le texte avec toutes les bases de données dont ils disposent. Ayant besoin de quantités importantes de data (étiquetées) pour identifier les corrélations pertinentes, ils ont recours aux techniques modernes d’apprentissage du machine learning ou du deep learning. Diverses techniques sont employées par ces algorithmes telles que la reconnaissance des entités nommées (noms de personnes, lieux...), l’analyse des sentiments (positif, négatif, neutre), la synthèse de texte, l’extraction d’aspects (ciblage de l’intention du texte), et la modélisation de sujets.

Quels sont les principaux modèles de NLP ?

Si le traitement du langage naturel existe depuis longtemps, les progrès réalisés récemment sont considérables avec une multiplication des programmes de NLP, surtout chez les géants du numérique. Parmi les modèles les plus en pointe, on peut citer :

  • les modèles BERT et ALBERT de Google AI qui servent en quelque sorte de référence pour les performances ;
  • les modèles dérivés et améliorés comme RoBERTa (Facebook), StructBERT (Alibaba), DeBERTa (Microsoft), DistilBERT (Hugging Face) ;
  • les modèles alternatifs comme GPT-2 et GPT-3 (OpenAI), XLNet (Université Carnegie Mellon), UniLM (Microsoft), et Reformer (Google).

Tutoriel : quelques liens

Dictionnaire de l'intelligence artificielle