Multi-zone sound field synthesis is a branch of sound field synthesis in which we reproduce different pressure fields inside multiple regions. Is a complex and challenging problem in acoustic signal processing that is increasingly being required to be addressed. In this thesis, we propose a technique for multi-zone sound field synthesis based on a deep neural network. Most of the nowadays approaches focus on the reproduction of a desired sound field in a target bright region, while attenuating the acoustic potential energy in a second target dark region. One of the main issues of these methods is in their ability to accurately reproduce the bright zone, without failing on attenuating the second region. Acoustic Contrast Control has been demonstrated to be the best-performing technique in terms of attenuation of the dark zone, at the cost of a high error in the bright region. In the proposed technique we synthesise the estimated pressure field through a Uniform Linear Array of loudspeakers and follow the Pressure Matching and Amplitude Matching approaches, in which the driving signals to reproduce a sound field are retrieved by minimising the reproduction error at a discrete set of control points. Following deep learning's recent widespread adoption in the acoustic signal processing field we perform the minimisation by applying an encoder-decoder-structured Convolutional Neural Network. Through simulations and numerical experiments, we compare the performance of the aforementioned methods with the proposed technique and demonstrate how the latter can overcome the trade-off between the accuracy of the reproduction in the bright zone and the acoustic contrast between the two target regions.

La riproduzione multizona del campo sonoro è un branca della sintesi dei campi sonori che si occupa di riprodurre diversi campi di pressione in regioni multiple dello spazio. È un problema complesso e impegnativo nell'elaborazione dei segnali acustici che sta diventando sempre più necessario da affrontare. In questa tesi, proponiamo una tecnica per la sintesi del campo sonoro multi-zona basata su una rete neurale profonda. La maggior parte degli approcci attuali si focalizzano sulla riproduzione di un campo sonoro desiderato in una regione luminosa, mentre attenuano l'energia potenziale acustica in una seconda regione scura. Uno dei problemi principali di questi metodi sta nella loro capacità di riprodurre con precisione la zona luminosa, senza mancare di attenuare la seconda regione. Acoustic Contrast Control ha dimostrato di essere la tecnica più performante in termini di attenuazione della zona scura, al costo di un errore elevato nella regione luminosa. Nella tecnica proposta sintetizziamo il campo di pressione stimato attraverso una serie lineare uniforme di altoparlanti e seguiamo gli approcci proposti nei metodi di Pressure Matching e Amplitude Matching, in cui i segnali di azionamento per riprodurre un campo sonoro sono ottenuti minimizzando l'errore di riproduzione in un insieme discreto di punti di controllo. In seguito alla recente adozione diffusa dell'apprendimento profondo nell'elaborazione del segnale acustico, eseguiamo la minimizzazione applicando una rete neurale convoluzionale basata sulla struttura encoder-decoder. Attraverso simulazioni ed esperimenti numerici, confrontiamo le prestazioni dei suddetti metodi con la tecnica proposta e dimostriamo come quest'ultima riesca superare il compromesso tra la precisione della riproduzione nella zona luminosa e il contrasto acustico tra le due regioni obiettivo.

A deep learning-based method for multi-zone sound field synthesis

Alessandri, Roberto
2021/2022

Abstract

Multi-zone sound field synthesis is a branch of sound field synthesis in which we reproduce different pressure fields inside multiple regions. Is a complex and challenging problem in acoustic signal processing that is increasingly being required to be addressed. In this thesis, we propose a technique for multi-zone sound field synthesis based on a deep neural network. Most of the nowadays approaches focus on the reproduction of a desired sound field in a target bright region, while attenuating the acoustic potential energy in a second target dark region. One of the main issues of these methods is in their ability to accurately reproduce the bright zone, without failing on attenuating the second region. Acoustic Contrast Control has been demonstrated to be the best-performing technique in terms of attenuation of the dark zone, at the cost of a high error in the bright region. In the proposed technique we synthesise the estimated pressure field through a Uniform Linear Array of loudspeakers and follow the Pressure Matching and Amplitude Matching approaches, in which the driving signals to reproduce a sound field are retrieved by minimising the reproduction error at a discrete set of control points. Following deep learning's recent widespread adoption in the acoustic signal processing field we perform the minimisation by applying an encoder-decoder-structured Convolutional Neural Network. Through simulations and numerical experiments, we compare the performance of the aforementioned methods with the proposed technique and demonstrate how the latter can overcome the trade-off between the accuracy of the reproduction in the bright zone and the acoustic contrast between the two target regions.
COMANDUCCI, LUCA
ING - Scuola di Ingegneria Industriale e dell'Informazione
3-mag-2023
2021/2022
La riproduzione multizona del campo sonoro è un branca della sintesi dei campi sonori che si occupa di riprodurre diversi campi di pressione in regioni multiple dello spazio. È un problema complesso e impegnativo nell'elaborazione dei segnali acustici che sta diventando sempre più necessario da affrontare. In questa tesi, proponiamo una tecnica per la sintesi del campo sonoro multi-zona basata su una rete neurale profonda. La maggior parte degli approcci attuali si focalizzano sulla riproduzione di un campo sonoro desiderato in una regione luminosa, mentre attenuano l'energia potenziale acustica in una seconda regione scura. Uno dei problemi principali di questi metodi sta nella loro capacità di riprodurre con precisione la zona luminosa, senza mancare di attenuare la seconda regione. Acoustic Contrast Control ha dimostrato di essere la tecnica più performante in termini di attenuazione della zona scura, al costo di un errore elevato nella regione luminosa. Nella tecnica proposta sintetizziamo il campo di pressione stimato attraverso una serie lineare uniforme di altoparlanti e seguiamo gli approcci proposti nei metodi di Pressure Matching e Amplitude Matching, in cui i segnali di azionamento per riprodurre un campo sonoro sono ottenuti minimizzando l'errore di riproduzione in un insieme discreto di punti di controllo. In seguito alla recente adozione diffusa dell'apprendimento profondo nell'elaborazione del segnale acustico, eseguiamo la minimizzazione applicando una rete neurale convoluzionale basata sulla struttura encoder-decoder. Attraverso simulazioni ed esperimenti numerici, confrontiamo le prestazioni dei suddetti metodi con la tecnica proposta e dimostriamo come quest'ultima riesca superare il compromesso tra la precisione della riproduzione nella zona luminosa e il contrasto acustico tra le due regioni obiettivo.
File allegati
File Dimensione Formato  
Classical_Format_Thesis___RobertoAlessandri.pdf

accessibile in internet per tutti

Descrizione: Thesis
Dimensione 9.12 MB
Formato Adobe PDF
9.12 MB Adobe PDF Visualizza/Apri
Executive_Summary___RobertoAlessandri.pdf

accessibile in internet per tutti

Descrizione: Executive Summary
Dimensione 6.64 MB
Formato Adobe PDF
6.64 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/203852