Reconnaissance vocale : définition, algorithmes et fonctionnement

La reconnaissance vocale se révèle de plus en plus performante grâce à l'intelligence artificielle et au deep learning. La révolution de la reconnaissance automatique de la parole est en marche.

La reconnaissance vocale, c'est quoi ?

La reconnaissance vocale (ou reconnaissance automatique de la parole) consiste pour une application à analyser la voix humaine afin de la transformer en requête informatique. Tout passe par la voix dont les fréquences sonores sont captées par un micro avant d'être traduites sous forme de texte exploitable par la machine (ou speech-to-text). Vient ensuite l'analyse de ces fichiers sonores par les technologies d'intelligence artificielle, et notamment de deep learning. Une seconde phase qui correspond au natural language understanding (NLU).

L'utilisation consécutive du speech-to-text et du natural language understanding permet d'obtenir une traduction optimale de la voix en données interprétables par la machine, et à partir desquelles cette dernière pourra ensuite apporter une réponse adéquate.

Quelles sont les principales applications de reconnaissance vocale ?

La reconnaissance vocale est devenue omniprésente de nos jours, sur nos ordinateurs ou nos mobiles ou encore sur les serveurs vocaux interactifs des centres de support client.

Parmi les applications de reconnaissance vocale les plus populaires, on peut citer les assistants intelligents comme Alexa (Amazon), Cortana (Microsoft), Google Assistant ou Siri (Apple). Quant au logiciel Dragon de l'éditeur américain Nuance, il demeure l'outil historique de dictée vocale de référence.

Quelles sont les trois principales techniques de reconnaissance vocale ?

La reconnaissance vocale combine principalement trois modèles (un modèle de langage, un modèle de prononciation, un modèle acoustico-phonétique). Leur combinaison permet de calculer la probabilité la plus élevée d'apparition d'une suite de mots au sein d'un signal sonore. Leur entraînement nécessite un gros data set d'exemples vocaux étiquetés.

Comment fonctionne la reconnaissance vocale ?

La reconnaissance de la parole se décline en trois étapes :

L'analyse acoustique qui permet de découper le message vocal en vecteurs acoustiques ingérables par la machine,
Le machine learning qui associe ensuite les fréquences sonores à des mots.
L'analyse de la parole qui combine trois modèles (un modèle de langage, un modèle de prononciation, un modèle accoustico-phonétique) en vue d'identifier les suites de mots les plus probablement prononcés par le locuteur.

Comment fonctionne le natural language understanding ?

Le natural language understanding (NLU), ou compréhension du langage naturel, est un sous-domaine du traitement automatique du langage naturel (ou natural language processing ou NLP) qui s'adosse à des modèles de deep learning pour permettre à la machine de saisir le sens d'un texte.