Synthèse vocale (gratuit) : c'est quoi ?

La synthèse vocale permet à la machine de traduire la voix en texte. Avec l'intelligence artificielle, son fonctionnement devient optimal. De nombreux outils de speech-to-text gratuits existent.

La synthèse vocale, c'est quoi ?

La synthèse vocale est une technique informatique qui consiste à générer une voix artificielle. Elle s'appuie sur des techniques de traitement linguistique en vue de convertir le texte produit par la machine en une version phonétique, puis sur des techniques de traitement du signal pour transformer cette dernière en rendu sonore numérique diffusable par le biais de haut parleur.

À l'inverse du speech-to-text (reconnaissance vocale automatique), la synthèse vocale renvoie au text-to-speech, soit la transformation des données textuelles informatiques en voix artificielle.

C'est quoi une voix de synthèse ?

Une voix de synthèse résulte de la conversion d'un texte en une suite de phonèmes visant à se rapprocher le plus d'une voix humaine.

Quelle est la meilleure synthèse vocale ?

En 2020, la fondation Mozilla publie une étude en lien avec les universités de Carnegie Mellon et de Northwestern visant à estimer la qualité des applications de synthèse vocale. Le modèle wavenet de text-to-speech de Google arrive largement en tête de ce benchmark, devant ceux de Windows et Amazon Poly.

Outil de synthèse vocale gratuit

Il existe de nombreux outils de synthèse vocale gratuits en ligne. Il sont conçus pour traduire à la volée un texte en voix. Parmi ces générateurs de voix, on compte notamment :

Comment activer la synthèse vocale Word ?

La synthèse vocale dans Word est proposée dans Office 2019, Office 2021 et Microsoft 365. Pour l'activer, il convient de suivre les étapes suivantes : d'Azure Text to speech pour le premier

Se rendre dans le menu Révision,
Cliquer sur "Lire à voix haute",
Dans le menu de commande, sélectionner "Lire" pour que Word lise le texte à voix haute.

Synthèse vocale réaliste

Amazon, Google et Microsoft proposent chacun des services cloud de synthèse vocale basés sur des moteurs d'intelligence artificielle géants. Objectif : obtenir la voix la plus réaliste possible. Il s'agit d'Amazon Polly pour le premier, de Google Cloud Text-to-Speech pour le deuxième, et d'Azure Text-to-Speech pour le troisième.

Comment faire une synthèse vocale ?

Pour créer une voix de synthèse, il est nécessaire d'utiliser un moteur de synthèse vocal, ou de text-to-speech (TTS). Il permet de façonner de manière autonome une voix artificielle à partir d'un texte produit par la machine, grâce à l'utilisation de l'IA et du deep learning.

Il faut bien différencier un logiciel TTS intelligent d'un logiciel simple de réponses vocales automatisées, à partir de mots préenregistrés dans une base de données. Il existe de nombreux sites web proposant un service gratuit de synthèse vocal à partir de texte (cf. liste ci-dessus).

Qu'est-ce qu'un moteur de synthèse vocal ?

Un moteur de synthèse vocal, ou text-to-speech, comprend un front-end et un back-end. Le front-end est dédié au découpage du texte en mots en associant à chacun à sa transcription phonétique. Cette étape d'analyse phonétique par fragmentation du texte intervient d'abord.

Ensuite, le moteur de synthèse vocal utilise son système du back-end (synthétiseur) pour convertir les chaines linguistiques et phonétiques ainsi découpées en son. La voix synthétique est créée par ce dernier procédé.

Quel est l'apport du deep learning en synthèse vocale ?

Le deep learning, par le biais de réseaux de neurones artificielles profonds, permet d'optimiser la synthèse vocale en vue de rapprocher le rendu sonore de la voix humaine. Il reproduit les inflexions de la voix, les intonations, les variations de tons, voire les accents...

Le deep learning introduit aussi des changements de rythme et de prononciation. Ces élément contribueront à une meilleure compréhension par le public visé, mais aussi plus de flexibilité dans la programmation des langues.

Comment activer la synthèse vocale Google ?

Sur Android, Google propose une application de synthèse vocale. Disponible sur Google Play, elle permet d'utiliser un smartphone Android pour contrôler des applications par la voix. Concrètement, elle traduit une requête vocale en requête écrite compréhensible par le logiciel. Elle permet également de transcrire un texte qui a été enregistré vocalement.

Au sein de son offre cloud, Google propose à destination des développeurs une API de speech-to-text. Elle leur permet d'intégrer des fonctionnalités de synthèse vocale à leurs applications moyennant un paiement à l'usage.

Exemples d'applications de synthèse vocale

La synthèse vocale concerne différents champs d'application, comme :

Les livres audio,
Les documents de travail audio (exemple du logiciel ReadSpeaker qui souligne en plus le texte écrit),
Les techniques pour lire sans regarder un écran (déficients visuels),
Les services téléphoniques automatisés intelligents,
Les GPS,
Les distributeurs de banques avec voix intégrée,
Les voicebots,
Les assistants vocaux intelligents (Alexa, Google Home...)...