La reconnaissance automatique du locauteur

La reconnaissance automatique du locuteur recherche des méthodes pour extraire les caractéristiques vocales propres à chaque individu. La voix d'une personne est une caractéristique à la fois anatomique et comportementale. La parole est le résultat de l’air faisant vibrer les cordes vocales et passant dans le conduit vocal constitué par la bouche et le nez. Si ces éléments anatomiques influencent la personnalité d’une voix, ils n’en fixent pas pour autant toutes les caractéristiques. La voix change aussi avec l’âge, l’humeur ou encore un rhume. En raison de ces aspects comportementaux, on parle de signature vocale, plutôt que d’empreinte.

Outre la variabilité de la voix d'une même personne, une autre difficulté vient du fait que les conditions et la qualité d'enregistrement d'une même voix peuvent être très différentes (radio, micro, télé, téléphone portable, environnement calme ou bruité). C'est le problème de la variabilité du canal
En savoir plus sur la variabilité.

Pour tolérer une certaine variabilité de la voix, on utilise des modèles statistiques pour créer chaque signature vocale. Le système utilise une technique classique permettant de caractériser la voix d'une personne basée sur des modèles dits modèles de mélanges de Gaussiennes.
En savoir plus sur les modèles statistiques.

Une fois le modèle créé, le test d'authentification mesure la ressemblance d’un enregistrement de parole avec toutes les signatures connues par le système. Le résultat du test est un score de vraisemblance proportionnel à la ressemblance en l'enregistrement et le modèle testé. Si la personne est déjà connue du système, on peut alors lui attribuer l'identité du modèle qui obtient le meilleur score. C'est la vérification du locuteur. Si elle n'est pas connue du système, on mesure alors simplement la ressemblance de sa voix avec les voix du système.
En savoir plus sur les différents types de test d'authentification.

Les enjeux de la recherche sont donc de proposer des méthodes de modélisation et de test qui soient robustes aux variations de la voix et aux différents types d'enregistrements tout en restant discrimante entre locuteurs. Il est aussi important de noter que les techniques utilisées pour la voix sont également utilisées pour caractériser de nombreux autres types de de sons.

Une explication plus détaillée des différentes étapes et des notions abordées est disponible ici.

Présentation de la démo

Découvrez au travers de cette démo à quelle célébrité votre voix ressemble le plus. Vous pourrez ensuite créer un modèle de votre voix et voir si le système vous authentifie avec fiabilité.

Afin de vous permettre de tester votre voix plusieurs fois et d'écouter les signaux utilisés pour créer votre signature acoustique, les utilisateurs de la démo sont enregistrés et identifiés par des pseudos. Vous êtes donc invité dans un premier temps à entrer votre pseudo dans la démo (s'il existe déjà un numéro unique sera mis à la fin). Vous pouvez alors choisir soit de tester votre voix avec les utilisateurs ou les célébrités rentrées dans le système, soit de créer (ou recréer) un modèle de votre voix. Pour cela, vous devrez enregistrer un court extrait de votre voix, puis suivre les étapes suivantes :

NOTE SUR L'UTILISATION DES ENREGISTREMENTS: Aucun enregistrement ne sera ni ne pourra être utilisé hors du cadre de cette démonstration ...
Plus voir le problème d'utilisation des voix de célébrités.

Test d'authentification d'une voix
1. Enregistrement de la voix de l'utilisateur (3-5 secondes)
2. Analyse: détection d'activité et décomposition "cepstrale"
3. Test avec les modèles existants
4. Affichage des rapports de vraisemblance
Création d'un modèle
1. Enregistrement de la voix de l'utilisateur (10-15 secondes)
2. Analyse: détection d'activité et décomposition "cepstrale"
3. Création d'un modèle à partir des caractéristiques statistiques (explications)
4. Affichage du modèle
5. Enregistrement du modèle dans la base

[Lien vers la démo]