Reconnaissance sonore par Deep Learning

TimeScaleNet, une architecture multirésolution dans le domaine temporel pour la reconnaissance vocale en de sons environnementaux

Résumé : Ce projet s’inscrit dans le cadre des activités liées au Deep Learning pour l’audio, que je développe depuis début 2018.

Ces dernières années, l’utilisation des techniques Deep Learning dans le traitement des signaux audio a permis d’améliorer considérablement les performances des systèmes de reconnaissance sonore. Ce changement de paradigme a incité la communauté scientifique à développer des stratégies d’apprentissage automatique permettant de créer des représentations efficaces, directement à partir de formes d’onde brutes temporelles, pour des tâches de Machine Hearing.

Dans le cadre de ce projet, je développe une approche multi-résolution, qui permet au réseau de neurones profond de coder efficacement les informations pertinentes contenues dans des signaux acoustiques non traités dans le domaine temporel.

Le réseau de neurones développé, TimeScaleNet, vise à apprendre une représentation d’un son, en s’appuyant sur l’analyse des dépendances temporelles, à l'échelle de l'échantillon audio, et à l'échelle de trames audio de $20~ms$. L’approche proposée permet d’améliorer l’interprétabilité du schéma d’apprentissage, en unifiant les techniques avancées de Deep Learning et de traitement du signal.

image

Figure : Architecture du réseau de neurones TimeScaleNet

En particulier, l’architecture de TimeScaleNet introduit une nouvelle forme de cellule neuronale récurrente, directement inspirée du traitement numérique du signal IIR, et agissant comme un banc de filtre numérique IIR biquadratique à bande passante réglable, afin de représenter la signature sonore dans une map bidimensionnelle. Cette nouvelle approche permet d’améliorer les performances de reconnaissance, et de construire automatiquement une représentation similaire aux spectrogrammes temps-fréquences, dont les paramètres sont choisis par le réseau de neurones. Cette approche permet d’obtenir une représentation sémantique spécifique du jeu de données d’apprentissage, avec une approche économe en terme de coût calculatoire.

La représentation temps-fréquence obtenue au niveau de la trame est ensuite traitée en utilisant un réseau résiduel de convolutions à trous, séparable en profondeur. Cette deuxième échelle d’analyse vise à coder efficacement les relations entre les fluctuations temporelles à l'échelle de temps de la trame, dans différentes bandes de fréquences regroupées apprises, dans la gamme de $[20 ~\text{ms}~;~200~\text{ms}]$.

image

Figure : Réseau séparable en profondeur de convolutions 1D à trous.

TimeScaleNet a été testé à la fois à l’aide d’un jeu de données de commandes vocales ( Speech Commands Dataset v2 )et d’un jeu de données de sons environnementaux ( ESC-10 ). Pour la reconnaissance vocale, nous obtenons une précision très élevée de $\mathbf{94,87 \pm 0,24 %}$, qui dépasse les performances de la plupart des algorithmes existants. Pour les sons environnementaux, les performances sont plus modérées, ce qui incitera à affiner l’architecture du réseau à trous pour être plus efficace pour des bases de données de petites dimensions, avec des exemples de signaux qui possèdent des caractéristiques de signaux plutôt stationnaires.

image

Figure : Matrice de confusion obtenue sur le jeu de données vocales.

Dans le cadre du projet, nous nous sommes également intéressés à la représentation construite par le réseau de neurones. De manière extrêmement intéressante, celui ci construit une représentation des sons en construisant des filtres s’apparentant à ceux développés dans la littérature concernant les modèles cognitifs d’audition. En revanche, cette représentation utilise une approche de type mel pour des fréquences inférieures à 2500 Hz, pour encoder le contenu des voyelles et des nasales, et passe sur une représentation de type ERB proche du modèle de Glasberg et Moore pour les plus hautes fréquences, qui servent plutôt à encoder les consonnes, les fricatives et les plosives :

image

Publications et communications liées au projet

Avatar
Éric Bavu
Maître de Conférences HDR

Mes domaines de recherche concernent le Deep Learning en acoustique, les problèmes inverses en acoustique dans le domaine temporel, et la localisation de sources.

Sur le même sujet