Synthèse vocale : définition, algorithmes et applications

La synthèse vocale permet le feedback oral des logiciels ou machines connectées : il s'agit du text-to-speech. Avec les technologies de l'intelligence artificielle et plus spécifiquement du deep learning, le fonctionnement de la synthèse vocale devient optimal !

La synthèse vocale, qu'est-ce que c'est ?

La synthèse vocale est une technique informatique qui permet de créer une voix artificielle à partir de textes. Les outils utilisés comprennent le traitement linguistique pour obtenir la meilleure version phonétique possible. Les techniques de traitement du signal concernent la qualité du rendu sonore, retransmis par l'appareil.

À la différence du speech-to-text (reconnaissance vocale automatique), la synthèse vocale concerne le text-to-speech, soit la transformation des données textuelles en langage synthétique, par le biais d'une voix artificielle.

Comment créer une voix de synthèse ?

Pour créer une voix de synthèse, il est nécessaire d'utiliser un logiciel text-to-speech (TTS), qui va permettre de façonner de façon autonome un langage artificiel, grâce à l'utilisation de l'IA et du deep learning. Il faut bien différencier un logiciel TTS intelligent d'un logiciel simple de réponses vocales automatisées, à partir de mots préenregistrés dans une base de données.

Qu'est-ce qu'un moteur de synthèse vocale ?

Un moteur de synthèse vocale s'intègre au logiciel TTS. Il comprend un front-end et un back-end. Le front-end est dédié au découpage du texte (phrases en mots) et à l'assignation de transcriptions phonétiques pour chaque mot. Cette étape d'analyse phonétique par fragmentation du texte intervient au premier abord. Ensuite, le moteur de synthèse vocale utilise le système du back-end (synthétiseur) : la conversion technique en son des transcriptions phonétiques. La voix synthétique est créée par ce dernier procédé.

Quel est l'apport du deep learning en synthèse vocale ? (ou réseau de neurones)

Le deep learning apporte des progrès réels dans l'élaboration d'une voix de synthèse. Le but consiste à se rapprocher le plus possible d'une véritable voix humaine. En ce sens, le deep learning permet au logiciel TTS d'imiter au mieux les inflexions de la voix, avec ses intonations, ses variations de tons... Les changements de rythme et de prononciation font ainsi partie intégrante des apports du deep learning.

Ces progrès pourront apporter plus de compréhension par le public visé, mais aussi plus de flexibilité dans la programmation des langues.

Exemples d'applications, de produits

La synthèse vocale concerne différents champs d'application, comme :

  • les livres audio ;
  • les documents de travail audio (exemple du logiciel ReadSpeaker qui souligne en plus le texte écrit) ;
  • les techniques pour lire sans regarder un écran (déficients visuels) ;
  • les services téléphoniques automatisés intelligents ;
  • les GPS ;
  • les distributeurs de banques avec voix intégrée ;
  • les voicebots ;
  • les assistants personnels automatisés (Alexa, Google Home...)...

Dictionnaire de l'intelligence artificielle