Extension de bande passante de signaux vocaux

Deep Learning pour l’amélioration de signaux vocaux dans un contexte de radio-communications avec des dispositifs de captation sonore non conventionnels

Doctorant encadré : Julien Hauret

Encadrement : Éric Bavu et Thomas Joubaud

Durée du projet : En cours (2021 - …)

Financement : Co-financement ANR-IA et Institut Franco-Allemand de Recherches de Saint Louis

Résumé : L’enregistrement de la voix pour les communications radio est généralement effectué à l’aide de microphones situés près de la bouche de l’orateur. Ces systèmes conventionnels de capture du son sont toutefois sensibles au bruit ambiant, ce qui réduit sensiblement l’intelligibilité de la parole captée par le transducteur. Les solutions actuelles comprennent principalement l’utilisation de microphones différentiels, mais les systèmes récents développés par l'équipe APC de l’ISL exploitent des microphones non conventionnels tels que des transducteurs à conduction osseuse ou des microphones intra-auriculaires.

image

Figure : Exemple de dispositif de captation de parole non conventionnel : captation intra-auriculaire derrière protecteur auditif actif/passif.

Grâce à ces systèmes, le locuteur bénéficie d’une protection auditive adaptée, et la captation du signal vocal est également plus insensible au bruit ambiant, puisque le microphone est situé à l’intérieur de bouchons d’oreille, ce qui permet d’améliorer les performances de communication dans des environnements difficiles et bruyants. Cependant, la parole enregistrée à l’aide de ces microphones non conventionnels est dégradée en raison du trajet acoustique entre la bouche et les transducteurs : avec les microphones intra-auriculaires, les basses fréquences sont amplifiées et presque aucun signal acoustique n’est enregistré au-dessus de 2 kHz, ce qui motive l’utilisation de méthodes d’amélioration du signal par Deep Learning afin d’extrapoler le contenu manquant en hautes fréquences.

La modélisation générative des signaux audio est un problème fondamental à l’intersection du traitement du signal et de l’apprentissage automatique, et l’une des avancées récentes les plus significatives dans le traitement audio basé sur l’IA a été la capacité de modéliser directement les signaux bruts dans le domaine temporel en utilisant des réseaux de neurones. Dans ce projet, nous explorons de nouveaux algorithmes de modélisation pour l’audio. En particulier, nous nous concentrons sur un problème spécifique de génération audio appelé extension de bande passante, dans lequel la tâche consiste à reconstruire un son de haute qualité à partir d’une entrée de basse qualité et sous-échantillonnée. D’un point de vue pratique, cette technique a également des applications dans les domaines de la téléphonie, la compression, la génération de type text-to-speech, l’analyse légale d’enregistrements audios, et dans d’autres domaines.

Publications et communications liées au projet

Avatar
Éric Bavu
Professeur des Universités

Mes domaines de recherche concernent le Deep Learning en acoustique, les problèmes inverses en acoustique dans le domaine temporel, et la localisation de sources.

Sur le même sujet