Natural language processing (NLP) : définition, techniques et modèles

Natural language processing (NLP) : définition, techniques et modèles Le natural language processing vise à doter les applications de capacité de comprendre, traiter et générer le langage humain naturel. L'intelligence artificielle en est devenu le socle.

Le natural language processing (NLP), c'est quoi ?

Le natural language processing (NLP), ou traitement automatique des langues (TALN), est une branche de l’intelligence artificielle qui s’attache à donner la capacité aux machines de comprendre, générer ou traduire le langage humain tel qu’il est écrit et/ou parlé. 

Pourquoi le NLP ?

Le natural language processing a généralement pour but de doter les logiciels de processus de trautement automatique du langage vocal ou textuel. Partant de là, il recouvre de nombreux cas d'usage plus ou moins élaboré : 

  • La classification de texte,
  • La reconnaissance de texte,
  • Le résumé automatique,
  • La traduction automatique,
  • Les chatbot, voicebot ou callbot,
  • Les assistants intelligents.

Comment fonctionne le NLP ?

Le NLP combine intelligence artificielle et traitement linguistique. La dernière génération des technologies de NLP s'adosse à des réseaux de neurones artificiels ou de simples modèles de machine learning statistiques. Des modèles d'apprentissage auront été entrainés sur des volumes importants de texte.

L'objectif peut cibler plusieurs types de traitement automatique : le speech-to-text et le text-to-speech, la reconnaissance d'entités nommées (noms de personnes, lieux...), l'analyse de sentiments (positif, négatif, neutre), la synthèse de texte, l'extraction d'aspects (ciblage de l'intention du texte) ou encore la modélisation de sujets.

Quels sont les deux types de modèles de machine learning en NLP ?

Globalement, le natural language processing se décline en deux grandes catégories de modèles de machine learning : 

  • Les modèles de machine learning orientés NLU (natural language understanding) qui s'attachent à saisir le sens d'une langue et d'un discours dans son contexte,
  • Les modèles de machine learning orientés NLG (natural language generation) qui ont pour but de générer un texte à la manière d'un humain.

Quelques exemples de modèles de deep learning orientés NLP

Si le traitement du langage naturel existe depuis longtemps, les progrès réalisés récemment dans ce domaine sont considérables. Les projets de NLP orientés intelligence artificielle se sont notamment multipliés chez les géants du numérique. Parmi les modèles les plus en pointe, on peut citer :

  • Les modèles BERT et ALBERT de Google AI,
  • Les modèles dérivés de cette première famille comme RoBERTa (Facebook), StructBERT (Alibaba), DeBERTa (Microsoft), DistilBERT (Hugging Face),
  • Les modèles alternatifs comme GPT-2 et GPT-3 (OpenAI), XLNet (Université Carnegie Mellon), UniLM (Microsoft), et Reformer (Google).

Dictionnaire de l'intelligence artificielle