Retour à l'accueil - Présentation des démos

Démo indexation de documents sonores

Venez lire la radio sur un ordinateur

Problématique

Transcrire la radio ou la télévision, déterminer les changements de locuteurs, savoir qui parle et de quoi il parle, tels sont les défis de l'indexation de documents sonores contenant de la parole.

De quoi s'agit-il?

Indexer la radio, cela nécessite de caractériser le contenu sonore (parole, musique, etc.), de détecter les changements de locuteurs, de détecter qui parle si la personne est connue, de transformer en texte ce qui est dit, de détecter les changements de sujet ... et tout ça a partir du son uniquement!

Pourquoi indexer?

Les indexes (mots, thèmes, locuteurs, etc.) générés permettent d'envisager plusieurs applications, parmi lesquelles :

Les étapes de l'indexation sonore

  1. Analyse du signal: afin de caractériser le contenu, on décrit le signal sonore à l'aide d'une représentation adaptée, dite représentation « cepstrale »
  2. Caractérisation du contenu sonore: on recherche les parties d'un document contenant de la parole et celles contenant de la musique. Cela se fait en utilisant des modèles statistiques pour la musique et la parole.
  3. Détecter des changements de locuteurs: on détermine les instants correspondant à un changement de locuteur en détectant des ruptures dans les caractéristiques statistiques du signal.
  4. Détecter des locuteurs connus: à partir d'une bibliothèque de voix connues, pour lesquels on dispose de modèles, on cherche à déterminer si un signal a été produit par un des locuteurs de la bibliothèque ou par un locuteur inconnu.
  5. Transcrire la parole: la transcription se fait a partir d'un lexique des mots connus, d'un modèle statistique du langage régissant les successions de mots, d'une description phonétique de chacun des mots du vocabulaire et de modèles statistiques des phonèmes.

Note

La démo n'est pas intéractive


Gilles Gonon
Last modified: Wed Jul 19 12:48:47 CEST 2006