Synthèse vocale / speech-to-text : définition, algorithme...

Synthèse vocale / speech-to-text : définition, algorithme... La synthèse vocale permet à la machine de produire une feedback vocal. Avec l'intelligence artificielle, le fonctionnement du text-to-speech devient optimal.

La synthèse vocale, c'est quoi ?

La synthèse vocale est une technique informatique qui consiste à générer une voix artificielle. Elle s'appuie sur des techniques de traitement linguistique en vue de convertir le texte produit par la machine en une version phonétique, puis sur des techniques de traitement du signal pour transformer cette dernière en rendu sonore numérique diffusable par le biais de haut parleur. 

À l'inverse du speech-to-text (reconnaissance vocale automatique), la synthèse vocale renvoie au text-to-speech, soit la transformation des données textuelles informatiques en voix artificielle.

Comment créer une voix de synthèse ?

Pour créer une voix de synthèse, il est nécessaire d'utiliser un moteur de synthèse vocal, ou de text-to-speech (TTS). Il permet de façonner de manière autonome une voix artificielle à partir d'un texte produit par la machine, grâce à l'utilisation de l'IA et du deep learning.

Il faut bien différencier un logiciel TTS intelligent d'un logiciel simple de réponses vocales automatisées, à partir de mots préenregistrés dans une base de données.

Qu'est-ce qu'un moteur de synthèse vocal ?

Un moteur de synthèse vocal, ou text-to-speech, comprend un front-end et un back-end. Le front-end est dédié au découpage du texte en mots en associant à chacun à sa transcription phonétique. Cette étape d'analyse phonétique par fragmentation du texte intervient d'abord.

Ensuite, le moteur de synthèse vocal utilise son système du back-end (synthétiseur) pour convertir les chaines linguistiques et phonétiques ainsi découpées en son. La voix synthétique est créée par ce dernier procédé.

Quel est l'apport du deep learning en synthèse vocale ?

Le deep learning, par le biais de réseaux de neurones artificielles profonds, permet d'optimiser la synthèse vocale en vue de rapprocher le rendu sonore de la voix humaine. Il reproduit les inflexions de la voix, les intonations, les variations de tons, voire les accents...

Le deep learning introduit aussi des changements de rythme et de prononciation. Ces élément contribueront à une meilleure compréhension par le public visé, mais aussi plus de flexibilité dans la programmation des langues.

Exemples d'applications de synthèse vocale

La synthèse vocale concerne différents champs d'application, comme :

  • Les livres audio,
  • Les documents de travail audio (exemple du logiciel ReadSpeaker qui souligne en plus le texte écrit),
  • Les techniques pour lire sans regarder un écran (déficients visuels),
  • Les services téléphoniques automatisés intelligents,
  • Les GPS,
  • Les distributeurs de banques avec voix intégrée,
  • Les voicebots,
  • Les assistants vocaux intelligents (Alexa, Google Home...)...

Dictionnaire de l'intelligence artificielle