Binaural Sound Localization in Noisy Environments Using Frequency-Based Audio Vision Transformer (FAViT)

Waradon Phokhinanan; Nicolas Obin; Sylvain Argentieri

doi:10.21437/Interspeech.2023-2015

Communication Dans Un Congrès Année : 2023

Binaural Sound Localization in Noisy Environments Using Frequency-Based Audio Vision Transformer (FAViT)

(1, 2) , (3, 2) , (1)

1
2
3

Waradon Phokhinanan

Fonction : Auteur
PersonId : 1341344

Institut des Systèmes Intelligents et de Robotique

Sciences et Technologies de la Musique et du Son

Nicolas Obin

Fonction : Auteur
PersonId : 7042
IdHAL : nicolas-obin
ORCID : 0000-0002-5236-5306
IdRef : 157523799

Analyse et synthèse sonores [Paris]

Sciences et Technologies de la Musique et du Son

Sylvain Argentieri

Fonction : Auteur
PersonId : 743290
IdHAL : sylvain-argentieri
ORCID : 0000-0001-7258-797X
IdRef : 118574310

Institut des Systèmes Intelligents et de Robotique

Résumé

Binaural sound source localization (BSSL) aims to locate sound as the way human does, but it falls short due to acoustic interferences. While Convolutional Neural Networks (CNNs) have shown promise in localizing sounds corrupted by noise, their large parameter and training data requirements make them unsuitable for real-time processing on devices like hearing aids and robots. In this paper, we propose an adapted Vision Transformer (ViT) model for BSSL in noisy environments. Inspired by the Duplex Theory, our model uses selective attention mechanisms to the frequency range of binaural features to aid in sound localization. Our model outperformed recent CNNs and standard audio ViT models in localizing speech in unseen noises and speakers, even in challenging conditions with low training data and parameters. The attention heatmap results suggest differences in how humans and machines process binaural cues, opening up for further investigation.

Mots clés

Sound source localization Binaural audition

Domaines

Traitement du signal et de l'image [eess.SP] Automatique / Robotique

Fichier principal

Phokhinanan2023.pdf (397.67 Ko)

Origine	Fichiers éditeurs autorisés sur une archive ouverte

Sylvain Argentieri : Connectez-vous pour contacter le contributeur

https://hal.science/hal-04416143

Soumis le : jeudi 25 janvier 2024-09:45:06

Dernière modification le : mercredi 30 octobre 2024-13:28:07

Dates et versions

hal-04416143 , version 1 (25-01-2024)

Identifiants

HAL Id : hal-04416143 , version 1
DOI : 10.21437/Interspeech.2023-2015

Citer

Waradon Phokhinanan, Nicolas Obin, Sylvain Argentieri. Binaural Sound Localization in Noisy Environments Using Frequency-Based Audio Vision Transformer (FAViT). INTERSPEECH, Aug 2023, Dublin, Ireland. pp.3704-3708, ⟨10.21437/Interspeech.2023-2015⟩. ⟨hal-04416143⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS IRCAM ISIR STMS TDS-MACS SORBONNE-UNIVERSITE SU-SCIENCES ISIR_AMAC

127 Consultations

248 Téléchargements

Binaural Sound Localization in Noisy Environments Using Frequency-Based Audio Vision Transformer (FAViT)

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Altmetric

Partager