The accurate simulation of spatial sound is essential for creating immersive audio experiences, with applications spanning virtual and augmented reality, hearing aids, teleconferencing, and gaming. This thesis discusses several contributions to the field of immersive spatial audio with a focus on customized listening. The topics addressed by these contributions are twofold: individualizing binaural rendering and real-virtual acoustic blending. In the domain of binaural rendering, the thesis discusses some approaches to replicate the acoustic interaction between sounds and the pinna, which has a unique shape. This is needed to obtain spatial audio simulations that closely mimic real sound sources. In this regard, a method for personalizing head-related transfer functions (HRTFs) based on pinna anthropometric parameters is presented. The thesis also presents novel pinna parameters to better characterize the pinna anatomy, thus improving HRTF individualization. Furthermore, it presents a method to estimate the personal acoustic coupling between the pinna and headphones based on pinna anthropometry. The objective is to provide personalized compensation for headphones responses to ensure their transparency. With regard to real-virtual acoustic blending, the thesis presents a method to automatically match artificial reverberation to a target room impulse response (RIR). This enables the reverberation of arbitrary virtual sound sources to match the acoustical properties of an existing environment. The method was evaluated in an experiment assessing the co-immersion of virtual sound sources within an audio augmented virtuality framework. Finally, the thesis proposes tools and datasets relevant to spatial audio research. Specifically, an artificial reverberator from the class of scattering delay networks (SDN) is presented. Moreover, a couple of datasets for the simulation of ecologically-valid virtual auditory environments are discussed, including an RIR dataset and a speech dataset for the generation of turn-taking conversations.

La simulazione accurata del suono spaziale è essenziale per creare esperienze audio immersive, con applicazioni che spaziano dalla realtà virtuale e aumentata, agli apparecchi acustici, alle teleconferenze e ai videogiochi. Questa tesi discute diversi contributi al campo dell'audio spaziale immersivo, con particolare attenzione all'ascolto personalizzato. I temi affrontati da questi contributi sono due: la personalizzazione della sintesi binaurale e il miscelamento acustico tra reale e virtuale. Nel dominio della sintesi binaurale, la tesi discute alcuni approcci per replicare l'interazione acustica tra i suoni e il padiglione auricolare, il quale ha una forma unica. Ciò è necessario per ottenere simulazione dell'audio audio spaziale che imiti fedelmente le sorgenti sonore reali. A questo proposito, viene presentato un metodo per personalizzare le funzioni di trasferimento legate alla testa (head-related transfer functions, HRTF) in base ai parametri antropometrici del padiglione auricolare. La tesi presenta anche nuovi parametri del padiglione auricolare per caratterizzarne più in dettaglio l'anatomia, migliorando così l'individualizzazione delle HRTF. Inoltre, viene presentato un metodo per stimare l'accoppiamento acustico personale tra il padiglione auricolare e le cuffie in base all'antropometria del padiglione. L'obiettivo è quello di fornire una compensazione personalizzata delle risposte delle cuffie per garantirne la trasparenza. Per quanto riguarda il miscelamento acustico tra reale e virtuale, la tesi presenta un metodo per far avvicinare automaticamente un effetto di riverberazione artificiale a una risposta all'impulso della stanza (room impulse response, RIR) di riferimento. In questo modo, la riverberazione di sorgenti sonore virtuali arbitrarie è coerente con le proprietà acustiche di un ambiente esistente. Il metodo è stato valutato in un esperimento di co-immersione di sorgenti sonore virtuali all'interno di un ambiente di virtualità aumentata. Infine, la tesi propone strumenti e dataset pertinenti alla ricerca sull'audio spaziale. In particolare, viene presentato un riverberatore artificiale appartenente alla classe delle scattering delay network (SDN). Inoltre, vengono discussi un due dataset per la simulazione di ambienti sonori virtuali ecologici, tra cui un dataset di RIR e un dataset di voci per la generazione di conversazioni.

CUSTOMIZING IMMERSIVE SPATIAL AUDIO: FROM INDIVIDUALIZED BINAURAL RENDERING TO REAL-VIRTUAL ACOUSTIC BLENDING / D. Fantini ; supervisor: F. Avanzini ; co-supervisor: S. Ntalampiras ; PhD coordinator: R. Sassi. - Milano. Dipartimento di Informatica Giovanni Degli Antoni, 2024 Dec 04. 37. ciclo, Anno Accademico 2023/2024.

CUSTOMIZING IMMERSIVE SPATIAL AUDIO: FROM INDIVIDUALIZED BINAURAL RENDERING TO REAL-VIRTUAL ACOUSTIC BLENDING

D. Fantini
2024

Abstract

The accurate simulation of spatial sound is essential for creating immersive audio experiences, with applications spanning virtual and augmented reality, hearing aids, teleconferencing, and gaming. This thesis discusses several contributions to the field of immersive spatial audio with a focus on customized listening. The topics addressed by these contributions are twofold: individualizing binaural rendering and real-virtual acoustic blending. In the domain of binaural rendering, the thesis discusses some approaches to replicate the acoustic interaction between sounds and the pinna, which has a unique shape. This is needed to obtain spatial audio simulations that closely mimic real sound sources. In this regard, a method for personalizing head-related transfer functions (HRTFs) based on pinna anthropometric parameters is presented. The thesis also presents novel pinna parameters to better characterize the pinna anatomy, thus improving HRTF individualization. Furthermore, it presents a method to estimate the personal acoustic coupling between the pinna and headphones based on pinna anthropometry. The objective is to provide personalized compensation for headphones responses to ensure their transparency. With regard to real-virtual acoustic blending, the thesis presents a method to automatically match artificial reverberation to a target room impulse response (RIR). This enables the reverberation of arbitrary virtual sound sources to match the acoustical properties of an existing environment. The method was evaluated in an experiment assessing the co-immersion of virtual sound sources within an audio augmented virtuality framework. Finally, the thesis proposes tools and datasets relevant to spatial audio research. Specifically, an artificial reverberator from the class of scattering delay networks (SDN) is presented. Moreover, a couple of datasets for the simulation of ecologically-valid virtual auditory environments are discussed, including an RIR dataset and a speech dataset for the generation of turn-taking conversations.
4-dic-2024
La simulazione accurata del suono spaziale è essenziale per creare esperienze audio immersive, con applicazioni che spaziano dalla realtà virtuale e aumentata, agli apparecchi acustici, alle teleconferenze e ai videogiochi. Questa tesi discute diversi contributi al campo dell'audio spaziale immersivo, con particolare attenzione all'ascolto personalizzato. I temi affrontati da questi contributi sono due: la personalizzazione della sintesi binaurale e il miscelamento acustico tra reale e virtuale. Nel dominio della sintesi binaurale, la tesi discute alcuni approcci per replicare l'interazione acustica tra i suoni e il padiglione auricolare, il quale ha una forma unica. Ciò è necessario per ottenere simulazione dell'audio audio spaziale che imiti fedelmente le sorgenti sonore reali. A questo proposito, viene presentato un metodo per personalizzare le funzioni di trasferimento legate alla testa (head-related transfer functions, HRTF) in base ai parametri antropometrici del padiglione auricolare. La tesi presenta anche nuovi parametri del padiglione auricolare per caratterizzarne più in dettaglio l'anatomia, migliorando così l'individualizzazione delle HRTF. Inoltre, viene presentato un metodo per stimare l'accoppiamento acustico personale tra il padiglione auricolare e le cuffie in base all'antropometria del padiglione. L'obiettivo è quello di fornire una compensazione personalizzata delle risposte delle cuffie per garantirne la trasparenza. Per quanto riguarda il miscelamento acustico tra reale e virtuale, la tesi presenta un metodo per far avvicinare automaticamente un effetto di riverberazione artificiale a una risposta all'impulso della stanza (room impulse response, RIR) di riferimento. In questo modo, la riverberazione di sorgenti sonore virtuali arbitrarie è coerente con le proprietà acustiche di un ambiente esistente. Il metodo è stato valutato in un esperimento di co-immersione di sorgenti sonore virtuali all'interno di un ambiente di virtualità aumentata. Infine, la tesi propone strumenti e dataset pertinenti alla ricerca sull'audio spaziale. In particolare, viene presentato un riverberatore artificiale appartenente alla classe delle scattering delay network (SDN). Inoltre, vengono discussi un due dataset per la simulazione di ambienti sonori virtuali ecologici, tra cui un dataset di RIR e un dataset di voci per la generazione di conversazioni.
Settore INFO-01/A - Informatica
spatial audio; head-related transfer function; headphone transfer function; binaural; artificial reverberation; Ambisonics; extended reality; virtual reality; audio augmented reality; audio augmented virtuality
AVANZINI, FEDERICO
NTALAMPIRAS, STAVROS
SASSI, ROBERTO
Doctoral Thesis
CUSTOMIZING IMMERSIVE SPATIAL AUDIO: FROM INDIVIDUALIZED BINAURAL RENDERING TO REAL-VIRTUAL ACOUSTIC BLENDING / D. Fantini ; supervisor: F. Avanzini ; co-supervisor: S. Ntalampiras ; PhD coordinator: R. Sassi. - Milano. Dipartimento di Informatica Giovanni Degli Antoni, 2024 Dec 04. 37. ciclo, Anno Accademico 2023/2024.
File in questo prodotto:
File Dimensione Formato  
phd_unimi_R13393.pdf

accesso aperto

Descrizione: Doctoral dissertation
Tipologia: Altro
Dimensione 56.1 MB
Formato Adobe PDF
56.1 MB Adobe PDF Visualizza/Apri
Pubblicazioni consigliate

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/2434/1119700
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact