Natural language generation (NLG) : définition, fonctionnement, applications
La natural language generation utilise le machine learning et d'autres techniques d'apprentissage pour transformer des ensembles de données en langage naturel.
La NLG, c'est quoi ?
La génération du langage naturel, ou natural language generation (NLG), est un sous-domaine du traitement du langage naturel ou natural language processing (NLP). Elle fait appel à des algorithmes produisant des textes en langage naturel. Ces derniers peuvent être basés sur des données structurées intégrées à des templates textuels, ou créés en partie ou en totalité par des modèles de machine learning.
Comment fonctionne la natural language generation (NLG) ?
La natural language generation (NLG) la plus basique repose sur un simple système de templates. Pour créer une encyclopédie de pays par exemple, il consiste à partir d'un ou plusieurs modèles de texte décrivant un pays qui auront été déclinés des dizaine de fois par content spinning, de telle sorte qu'ils conservent le même sens tout en contenant des mots et des formulations différentes. Ensuite, on injectera les données relatives aux pays (sa population, son nombre d'habitants, son budget, sa géographie...) aux endroits prévus à cet effet.
La natural language generation peut aussi être mise en œuvre en entrainant des modèles de machine learning statistiques, typiquement sur de vaste corpus de textes écrits pas des humains. Beaucoup de modèle de NLG utilisent Wikipedia comme base d'apprentissage.
Quelles sont les principales applications de la natural language generation (NLG) ?
Aujourd'hui, la NLG est utilisée dans une large variété de domaines. Elle suggère des phrases courantes dans les services d’e-mail, compose des résumés automatiques d’articles pour les agences de presse, ou produit des réponses probables aux questions des utilisateurs des assistants vocaux et des chatbots (lire l'article Comment créer un bot). La natural language generation (NLG) est aussi utilisée pour produire de longs textes tels que des articles de presse.
Le modèle de NLG le plus connu est le système GPT-3 de la société OpenAI, qui est considéré comme l’intelligence artificielle la plus avancée dans ce domaine. En fait, tous les internautes bénéficient d’un produit recourant à la NLG.
Natural language generation (NLG) vs natural language understanding (NLU) : quelle différence ?
La Natural language generation (NLG) et le natural language understanding (NLU) font tous les deux partie du traitement du langage naturel. Le NLU est en fait une étape clé qui précède la NLG. Car, avant de pouvoir générer automatiquement du texte, il faut l’analyser et le comprendre. Le NLU s’attache à cela, en extrayant les données des mots pour en comprendre le sens et leurs relations. Le NLU est donc essentiel pour faire de la NLG une réalité.