Theterm extended reality refers to all possible interactions between real and virtual (computed generated) elements and environments. The extended reality field is rapidly growing, primarily through augmented and virtual reality applications. The former allows users to bring digital elements into the real world, while the latter lets us experience and interact with an entirely virtual environment. While currently extended reality implementations primarily focus on the visual domain, we cannot underestimate the impact of auditory perception in order to provide a fully immersive experience. As a matter of fact, effective handling of the acoustic content is able to enrich the engagement of users. We refer to Extended Audio Reality (EAR) as the subset of extended reality operations related to the audio domain. In this thesis, we propose a parametric approach to EAR conceived in order to provide an effective and intuitive framework for the implementation of EAR applications. It is clear that the main challenges of EAR regard the processing of real sound fields and the rendering of virtual acoustic sources (VSs); hence, EAR requires the development of properly designed sound field representations. As far as sound field representation is concerned, two main paradigms are present in the literature: parametric and non-parametric. The former describes the acoustic field assuming a signal model governed by few meaningful parameters, e.g., the source signal and location, while the latter relies on the solutions of the wave equation providing accurate results at the cost of higher complexity and lower model interpretability. Therefore, in the context of the EAR, parametric models represent an appealing approach. In fact, they provide a compressed and intuitive description of the sound field. This characteristic promotes the integration of VSs through the parameters of the model and their manipulation thereof. Here, we introduce a novel parametric model for sound field representation based on few parameters. This model allows both the navigation and manipulation of a recorded sound scene. The main feature of the proposed solution is represented by the modeling of the acoustic source directivity integrated among the parameters of the representation. The directivity is a function describing the spatial property of the source sound radiation. As a matter of fact, sound sources typically present a directional acoustic emission imposed by their physical characteristics. It follows that the source directivity information influences our acoustic scene perception. Therefore, the integration of the directivity is a fundamental aspect for providing a more natural and immersive EAR, enhancing the user experience. In order to analyze the sound field, we adopted spatially distributed acoustic sensors. This configuration allows us to evaluate the acoustic field from different observation points in order to estimate the parameters required by the proposed representation. Successively, we exploit the estimated parameters to provide a sound field reconstruction technique that enables the six-degrees-of-freedom interaction (virtual navigation) with the sound field. Conveniently, the parameters adopted for describing the acoustic sources can be exploited for characterizing a VS. Therefore, we can seamlessly implement EAR within the same parametric representation. Here, the addition of the source directivity into the model is appealing since it allows the accurate rendering of VSs, including their directional characteristics. Hence, we can further lead the real-virtual interaction by implementing VS replicas of actual acoustic sources. A VS replica mimics the source spatial sound radiation through the VS directivity parameters. For instance, the VS parameters can be estimated from measurements on the real source. Conversely, we can rely on fully simulated acoustic sources, e.g., employing Finite Element Method (FEM) simulations, from which the VS parameters are derived. It follows that an accurate estimate, prediction, and analysis of the directivity of VSs are fundamental to obtain an effective EAR. In this thesis, we studied the VS implementation through a case study. In particular, we focused on the VS implementation of violins. Whereas violins present a peculiar directional radiation characteristic, we need to carefully analyze and model their directivity in order to provide an accurate VS implementation. Regarding the analysis of the violin directivity, we can outline different solutions according to their invasiveness. In the first place, one can perform measurements directly on played violin. During our collaboration with Musel del Violino settled in Cremona (Italy), we had the unique opportunity to measure, for the first time, a relevant number of valuable historical violins made by the renowned masters of the Cremonese school such as Antonio Stradivari and played by professional violinists. From the acquired data, we derived a compressed representation of the violin directivity pattern based on the spherical harmonics expansion. Besides the VS modeling, the adopted representation allowed us to study and characterize the directivity patterns of the instruments, giving insights of their directional behavior. Although the measurement of played instruments allows an analysis scenario closer to the actual listening conditions, it might not be applicable for particularly fragile instruments. Less invasive techniques, such as nearfield acoustic holography (NAH), can be employed when conventional measurements cannot be carried out. It is known that the acoustic radiation of vibrating objects, such as violins, is determined by their dynamical behavior. Hence, from the knowledge of the vibration velocity field, we can estimate the directivity of the source. NAH allows the contactless estimation of the velocity field of a vibrating source from acoustic pressure measured in its proximity. Here, we introduced a novel NAH technique based on deep learning. In particular, we proposed a convolutional neural network (CNN) with an autoencoder-inspired structure in order to estimate the velocity field of both rectangular and violin plates. Alternatively, simulations allow us to predict the directivity of a source relying on the FEM simulation of its vibroacoustic behavior. This approach minimizes the invasiveness at the cost of reduced accuracy caused by inherent approximations of the simulated model. It follows that an effective violin simulation requires a 3D model of the instrument geometry and the mechanical parameters of the material. Unfortunately, we can typically only acquire the outer surface of existing instruments. Therefore, we developed a practical technique for reconstructing the 3D model of violin plates, starting from outer surface scans and sparse thickness measurements taken at reference points. Furthermore, as regards the estimation of the material mechanical parameters, we proposed the evaluation of the Young's modulus from the sound wave velocity of wood. As a matter of fact, the Young's modulus is a fundamental parameter for mechanical simulations. The developed technique estimates the sound wave velocity from responses of the wood to an impulsive excitation in a rake receiver fashion. Successively, from the knowledge of the sound wave velocity, the Young's modulus is indirectly derived. Lastly, we propose an EAR proof of concept through which we showcase the benefit of the proposed parametric approach to EAR. We display an EAR scenario in which two VSs, a VS replica of a prestigious violin, and a simulated generic model of the instrument are virtually co-located in a real sound scene with the presence of actual sound sources. The results give a sneak peek of the power of EAR, showing that the proposed parametric approach is able to provide the blend between real and virtual sound elements. Hence, we envision that the proposed solutions will pave the way to the development of parametric EAR frameworks for extended reality applications.

Con il termine extended reality si indicano tutte le possibili interazioni tra ambienti ed elementi reali o virtuali (ovvero generati da un computer). Il campo dell'extended reality è in rapida crescita grazie soprattutto ad applicazioni di virtual reality (realtà virtuale) e augmented reality (realtà aumentata). La realtà virtuale permette all'utente di interagire con un ambiente completamente sintetico, mentre la realtà aumentata ci permette di inserire elementi virtuali in un ambiente reale. Se da un lato, al momento, le applicazioni di extended reality si concentrano sull'impatto visivo, non possiamo trascurare il fatto che la percezione uditiva può avere un grosso peso per ottenere una esperienza immersiva. Infatti, sfruttando i contenuti sonori possiamo stimolare il coinvolgimento dell'utente. D'ora in avanti, con il nome Extended Audio Reality (EAR) ci riferiremo all'insieme delle operazioni di extended reality legate all'ambito dell'audio. In questa tesi, presentiamo un approccio parametrico ideato con lo scopo di rappresentare un framework intuitivo volto all'implementazione di applicazioni EAR. È risaputo, infatti, che le sfide maggiori legate all'EAR riguardano l'elaborazione di campi acustici e il rendering di sorgenti virtuali (VSs); quindi, è necessario sviluppare una descrizione del campo acustico ad hoc. Per quanto riguarda il problema della rappresentazione di campi acustici, nella letteratura possiamo individuare due approcci principali: parametrico e non-parametrico. L'approccio parametrico si basa su un modello del segnale definito da pochi parametri facilmente interpretabili; per esempio il segnale di una sorgente e la posizione della stessa nella scena. La seconda rappresentazione, invece, è fondata sulle soluzioni dell'equazione d'onda ed è in grado di fornire risultati accurati, al costo, però, di una maggiore complessità e minore interpretabilità del modello. Per quanto riguarda EAR, i modelli parametrici costituiscono un'opzione interessante. Infatti, i metodi parametrici ci danno una descrizione compressa e intuitiva del campo acustico grazie all'uso di pochi parametri. Questa è una caratteristica preferibile in ambito EAR in quanto facilita l'integrazione di VS attraverso la manipolazione dei parametri del segnale. In questa tesi presentiamo un nuovo modello parametrico per la rappresentazione dei campi acustici basato su pochi parametri e che permette sia la navigazione che la manipolazione di una scena acustica registrata. La caratteristica principale della soluzione presentata risiede nella possibilità di includere la direzionalità delle sorgenti nella rappresentazione grazie ai parametri del modello. La direzionalità è una funzione che descrive l'emissione acustica di una sorgente in funzione della direzione. Notoriamente infatti, l'emissione acustica delle sorgenti è direzionale, a causa delle proprietà fisiche della sorgente stessa. Ne consegue che la direzionalità influisce su quella che è la nostra percezione di una scena acustica. Di conseguenza, integrare la direzionalità nel modello del segnale è fondamentale per ottenere applicazioni EAR più naturali e immersive, migliorando, quindi, la user experience. Per analizzare il campo sonoro utilizziamo una serie di sensori acustici distribuiti nello spazio. Così facendo, possiamo misurare il campo acustico da diversi punti di vista e stimare i parametri richiesti dalla rappresentazione. In seguito, i parametri stimati vengono sfruttati al fine di ricostruire il campo in posizioni arbitrarie e permettere un'interazione con la scena a "six-degrees-of-freedom", ovvero la navigazione virtuale dello spazio. I parametri utilizzati per descrivere le sorgenti reali nei campi acustici possono essere opportunamente sfruttate per caratterizzare le sorgenti virtuali. Questo ci permette di implementare senza ulteriori modifiche applicazioni EAR utilizzando la stessa rappresentazione parametrica. In questo caso, la possibilità di aggiungere la direzionalità delle sorgenti nel modello è vantaggioso perché ci permette di rendere le VS in modo accurato considerando anche la loro direzionalità. Così facendo, possiamo portare l'interazione reale-virtuale ad un livello superiore implementando repliche in VS di sorgenti reali. Una replica in VS imita l'emissione acustica direzionale della sua controparte reale attraverso i parametri di direzionalità della VS. A titolo d'esempio i parametri direzionali di una sorgente virtuale possono essere stimati a partire da da delle misure effettuate su una sorgente reale, oppure si possono utilizzare delle simulazioni ad elementi finiti (FEM) delle sorgenti, dalle quali andare a stimare i parametri. Per questo è fondamentale analizzare, stimare o predire la direzionalità di una VS per poter ottenere una applicazione EAR efficace. In questa tesi, valutiamo l'implementazione di sorgenti virtuali attraverso un caso di studio e in particolare, ci siamo concentrati sull'implementazione VS di violini. Dato che i violini presentano una emissione sonora direzionale molto caratteristica, dobbiamo analizzarne attentamente proprietà e modellazione al fine di fornire un'implementazione VS accurata. Per quanto riguarda l'analisi della direzionalità del violino, possiamo delineare diverse soluzioni a seconda della loro invasività. In primo luogo, possiamo eseguire delle misurazioni direttamente sul violino mentre questo viene suonato. Durante la nostra collaborazione con il "Museo del Violino" di Cremona (Italia), abbiamo avuto l'opportunità unica di misurare, per la prima volta, un numero rilevante di violini storici. Si tratta di strumenti di pregio realizzati dai rinomati maestri della scuola cremonese come Antonio Stradivari che sono stati suonati da violinisti professionisti. Dai dati acquisiti abbiamo derivato una rappresentazione compressa del pattern di direzionalità basata sull'espansione in armoniche sferiche. Oltre alla modellazione in VS, la rappresentazione adottata ha permesso di studiare e caratterizzare i pattern di direzionalità degli strumenti, fornendo maggior comprensione sul loro comportamento direzionale. Sebbene la misurazione degli strumenti suonati consenta uno scenario di analisi più vicino alle effettive condizioni di ascolto, per strumenti particolarmente fragili, tale scenario potrebbe non essere applicabile. Quando non è possibile eseguire misurazioni convenzionali, ci si può basare su tecniche meno invasive, come nearfield acoustic holography (NAH). Infatti, è noto che la radiazione acustica di oggetti vibranti, come i violini, è determinata dal loro comportamento dinamico. Quindi, dalla conoscenza del campo di velocità della vibrazione, possiamo predire la direzionalità della sorgente. NAH consente una stima senza contatto del campo di velocità di una sorgente vibrante attraverso l'analisi della pressione acustica misurata in prossimità della stessa. Per questo, abbiamo introdotto una nuova tecnica NAH basata su un approccio deep learning. In particolare, abbiamo proposto una convolutional neural network (CNN) con una struttura ispirata da quella di un autoencoder per stimare il campo di velocità di piastre rettangolari e tavole di violino. In alternativa alle misure, le simulazioni ci consentono di prevedere la direzionalità di una sorgente basandosi sulla simulazione ad elementi finiti del suo comportamento vibroacustico. Questo approccio riduce al minimo l'invasività, al costo di una minor precisione dovuta alle approssimazioni intrinseche del modello simulato. Ne consegue che un'efficace simulazione del violino richiede un modello 3D della geometria dello strumento e dei parametri meccanici del materiale. Generalmente, però, possiamo acquisire tramite scansione laser solamente la superficie esterna degli strumenti esistenti. Pertanto, abbiamo sviluppato una tecnica per ricostruire in modo pratico il modello 3D di una tavola di violino, partendo da scansioni della superficie esterna e da misurazioni dello spessore prese in un esiguo numeri di punti della tavola. Inoltre, per quanto riguarda la stima dei parametri meccanici del materiale, abbiamo proposto la misurazione del modulo di Young a partire dalla velocità d'onda nel legno. Il modulo di Young, infatti, è uno dei parametri fondamentali per le simulazioni meccaniche. La tecnica sviluppata stima la velocità dell'onda dalle risposte del legno a un'eccitazione impulsiva utilizzando un approccio rake receiver. Successivamente, data la conoscenza della velocità dell'onda nel legno, è possibile ricavare il modulo di Young. Infine, proponiamo un proof of concept di EAR attraverso il quale mostriamo i vantaggi dell'approccio parametrico proposto. Si tratta di uno scenario EAR in cui due sorgenti virtuali, una replica di un violino prestigioso e una simulazione di un modello generico dello strumento, sono virtualmente collocati in una scena sonora in cui sono presenti sorgenti acustiche reali. I risultati danno un'anteprima delle potenzialità delle applicazioni di EAR, dimostrando che l'approccio parametrico proposto è in grado di fornire un mix tra elementi sonori reali e virtuali. Pertanto, prevediamo che le soluzioni introdotte apriranno la strada allo sviluppo di framework parametrici per EAR al fine di implementare applicazioni di extended reality.

Space-time Parametric approach to Extended Audio Reality (SP-EAR)

Pezzoli, Mirco
2020/2021

Abstract

Theterm extended reality refers to all possible interactions between real and virtual (computed generated) elements and environments. The extended reality field is rapidly growing, primarily through augmented and virtual reality applications. The former allows users to bring digital elements into the real world, while the latter lets us experience and interact with an entirely virtual environment. While currently extended reality implementations primarily focus on the visual domain, we cannot underestimate the impact of auditory perception in order to provide a fully immersive experience. As a matter of fact, effective handling of the acoustic content is able to enrich the engagement of users. We refer to Extended Audio Reality (EAR) as the subset of extended reality operations related to the audio domain. In this thesis, we propose a parametric approach to EAR conceived in order to provide an effective and intuitive framework for the implementation of EAR applications. It is clear that the main challenges of EAR regard the processing of real sound fields and the rendering of virtual acoustic sources (VSs); hence, EAR requires the development of properly designed sound field representations. As far as sound field representation is concerned, two main paradigms are present in the literature: parametric and non-parametric. The former describes the acoustic field assuming a signal model governed by few meaningful parameters, e.g., the source signal and location, while the latter relies on the solutions of the wave equation providing accurate results at the cost of higher complexity and lower model interpretability. Therefore, in the context of the EAR, parametric models represent an appealing approach. In fact, they provide a compressed and intuitive description of the sound field. This characteristic promotes the integration of VSs through the parameters of the model and their manipulation thereof. Here, we introduce a novel parametric model for sound field representation based on few parameters. This model allows both the navigation and manipulation of a recorded sound scene. The main feature of the proposed solution is represented by the modeling of the acoustic source directivity integrated among the parameters of the representation. The directivity is a function describing the spatial property of the source sound radiation. As a matter of fact, sound sources typically present a directional acoustic emission imposed by their physical characteristics. It follows that the source directivity information influences our acoustic scene perception. Therefore, the integration of the directivity is a fundamental aspect for providing a more natural and immersive EAR, enhancing the user experience. In order to analyze the sound field, we adopted spatially distributed acoustic sensors. This configuration allows us to evaluate the acoustic field from different observation points in order to estimate the parameters required by the proposed representation. Successively, we exploit the estimated parameters to provide a sound field reconstruction technique that enables the six-degrees-of-freedom interaction (virtual navigation) with the sound field. Conveniently, the parameters adopted for describing the acoustic sources can be exploited for characterizing a VS. Therefore, we can seamlessly implement EAR within the same parametric representation. Here, the addition of the source directivity into the model is appealing since it allows the accurate rendering of VSs, including their directional characteristics. Hence, we can further lead the real-virtual interaction by implementing VS replicas of actual acoustic sources. A VS replica mimics the source spatial sound radiation through the VS directivity parameters. For instance, the VS parameters can be estimated from measurements on the real source. Conversely, we can rely on fully simulated acoustic sources, e.g., employing Finite Element Method (FEM) simulations, from which the VS parameters are derived. It follows that an accurate estimate, prediction, and analysis of the directivity of VSs are fundamental to obtain an effective EAR. In this thesis, we studied the VS implementation through a case study. In particular, we focused on the VS implementation of violins. Whereas violins present a peculiar directional radiation characteristic, we need to carefully analyze and model their directivity in order to provide an accurate VS implementation. Regarding the analysis of the violin directivity, we can outline different solutions according to their invasiveness. In the first place, one can perform measurements directly on played violin. During our collaboration with Musel del Violino settled in Cremona (Italy), we had the unique opportunity to measure, for the first time, a relevant number of valuable historical violins made by the renowned masters of the Cremonese school such as Antonio Stradivari and played by professional violinists. From the acquired data, we derived a compressed representation of the violin directivity pattern based on the spherical harmonics expansion. Besides the VS modeling, the adopted representation allowed us to study and characterize the directivity patterns of the instruments, giving insights of their directional behavior. Although the measurement of played instruments allows an analysis scenario closer to the actual listening conditions, it might not be applicable for particularly fragile instruments. Less invasive techniques, such as nearfield acoustic holography (NAH), can be employed when conventional measurements cannot be carried out. It is known that the acoustic radiation of vibrating objects, such as violins, is determined by their dynamical behavior. Hence, from the knowledge of the vibration velocity field, we can estimate the directivity of the source. NAH allows the contactless estimation of the velocity field of a vibrating source from acoustic pressure measured in its proximity. Here, we introduced a novel NAH technique based on deep learning. In particular, we proposed a convolutional neural network (CNN) with an autoencoder-inspired structure in order to estimate the velocity field of both rectangular and violin plates. Alternatively, simulations allow us to predict the directivity of a source relying on the FEM simulation of its vibroacoustic behavior. This approach minimizes the invasiveness at the cost of reduced accuracy caused by inherent approximations of the simulated model. It follows that an effective violin simulation requires a 3D model of the instrument geometry and the mechanical parameters of the material. Unfortunately, we can typically only acquire the outer surface of existing instruments. Therefore, we developed a practical technique for reconstructing the 3D model of violin plates, starting from outer surface scans and sparse thickness measurements taken at reference points. Furthermore, as regards the estimation of the material mechanical parameters, we proposed the evaluation of the Young's modulus from the sound wave velocity of wood. As a matter of fact, the Young's modulus is a fundamental parameter for mechanical simulations. The developed technique estimates the sound wave velocity from responses of the wood to an impulsive excitation in a rake receiver fashion. Successively, from the knowledge of the sound wave velocity, the Young's modulus is indirectly derived. Lastly, we propose an EAR proof of concept through which we showcase the benefit of the proposed parametric approach to EAR. We display an EAR scenario in which two VSs, a VS replica of a prestigious violin, and a simulated generic model of the instrument are virtually co-located in a real sound scene with the presence of actual sound sources. The results give a sneak peek of the power of EAR, showing that the proposed parametric approach is able to provide the blend between real and virtual sound elements. Hence, we envision that the proposed solutions will pave the way to the development of parametric EAR frameworks for extended reality applications.
PERNICI, BARBARA
MONTI-GUARNIERI, ANDREA VIRGILIO
24-mar-2021
Space-time Parametric approach to Extended Audio Reality (SP-EAR)
Con il termine extended reality si indicano tutte le possibili interazioni tra ambienti ed elementi reali o virtuali (ovvero generati da un computer). Il campo dell'extended reality è in rapida crescita grazie soprattutto ad applicazioni di virtual reality (realtà virtuale) e augmented reality (realtà aumentata). La realtà virtuale permette all'utente di interagire con un ambiente completamente sintetico, mentre la realtà aumentata ci permette di inserire elementi virtuali in un ambiente reale. Se da un lato, al momento, le applicazioni di extended reality si concentrano sull'impatto visivo, non possiamo trascurare il fatto che la percezione uditiva può avere un grosso peso per ottenere una esperienza immersiva. Infatti, sfruttando i contenuti sonori possiamo stimolare il coinvolgimento dell'utente. D'ora in avanti, con il nome Extended Audio Reality (EAR) ci riferiremo all'insieme delle operazioni di extended reality legate all'ambito dell'audio. In questa tesi, presentiamo un approccio parametrico ideato con lo scopo di rappresentare un framework intuitivo volto all'implementazione di applicazioni EAR. È risaputo, infatti, che le sfide maggiori legate all'EAR riguardano l'elaborazione di campi acustici e il rendering di sorgenti virtuali (VSs); quindi, è necessario sviluppare una descrizione del campo acustico ad hoc. Per quanto riguarda il problema della rappresentazione di campi acustici, nella letteratura possiamo individuare due approcci principali: parametrico e non-parametrico. L'approccio parametrico si basa su un modello del segnale definito da pochi parametri facilmente interpretabili; per esempio il segnale di una sorgente e la posizione della stessa nella scena. La seconda rappresentazione, invece, è fondata sulle soluzioni dell'equazione d'onda ed è in grado di fornire risultati accurati, al costo, però, di una maggiore complessità e minore interpretabilità del modello. Per quanto riguarda EAR, i modelli parametrici costituiscono un'opzione interessante. Infatti, i metodi parametrici ci danno una descrizione compressa e intuitiva del campo acustico grazie all'uso di pochi parametri. Questa è una caratteristica preferibile in ambito EAR in quanto facilita l'integrazione di VS attraverso la manipolazione dei parametri del segnale. In questa tesi presentiamo un nuovo modello parametrico per la rappresentazione dei campi acustici basato su pochi parametri e che permette sia la navigazione che la manipolazione di una scena acustica registrata. La caratteristica principale della soluzione presentata risiede nella possibilità di includere la direzionalità delle sorgenti nella rappresentazione grazie ai parametri del modello. La direzionalità è una funzione che descrive l'emissione acustica di una sorgente in funzione della direzione. Notoriamente infatti, l'emissione acustica delle sorgenti è direzionale, a causa delle proprietà fisiche della sorgente stessa. Ne consegue che la direzionalità influisce su quella che è la nostra percezione di una scena acustica. Di conseguenza, integrare la direzionalità nel modello del segnale è fondamentale per ottenere applicazioni EAR più naturali e immersive, migliorando, quindi, la user experience. Per analizzare il campo sonoro utilizziamo una serie di sensori acustici distribuiti nello spazio. Così facendo, possiamo misurare il campo acustico da diversi punti di vista e stimare i parametri richiesti dalla rappresentazione. In seguito, i parametri stimati vengono sfruttati al fine di ricostruire il campo in posizioni arbitrarie e permettere un'interazione con la scena a "six-degrees-of-freedom", ovvero la navigazione virtuale dello spazio. I parametri utilizzati per descrivere le sorgenti reali nei campi acustici possono essere opportunamente sfruttate per caratterizzare le sorgenti virtuali. Questo ci permette di implementare senza ulteriori modifiche applicazioni EAR utilizzando la stessa rappresentazione parametrica. In questo caso, la possibilità di aggiungere la direzionalità delle sorgenti nel modello è vantaggioso perché ci permette di rendere le VS in modo accurato considerando anche la loro direzionalità. Così facendo, possiamo portare l'interazione reale-virtuale ad un livello superiore implementando repliche in VS di sorgenti reali. Una replica in VS imita l'emissione acustica direzionale della sua controparte reale attraverso i parametri di direzionalità della VS. A titolo d'esempio i parametri direzionali di una sorgente virtuale possono essere stimati a partire da da delle misure effettuate su una sorgente reale, oppure si possono utilizzare delle simulazioni ad elementi finiti (FEM) delle sorgenti, dalle quali andare a stimare i parametri. Per questo è fondamentale analizzare, stimare o predire la direzionalità di una VS per poter ottenere una applicazione EAR efficace. In questa tesi, valutiamo l'implementazione di sorgenti virtuali attraverso un caso di studio e in particolare, ci siamo concentrati sull'implementazione VS di violini. Dato che i violini presentano una emissione sonora direzionale molto caratteristica, dobbiamo analizzarne attentamente proprietà e modellazione al fine di fornire un'implementazione VS accurata. Per quanto riguarda l'analisi della direzionalità del violino, possiamo delineare diverse soluzioni a seconda della loro invasività. In primo luogo, possiamo eseguire delle misurazioni direttamente sul violino mentre questo viene suonato. Durante la nostra collaborazione con il "Museo del Violino" di Cremona (Italia), abbiamo avuto l'opportunità unica di misurare, per la prima volta, un numero rilevante di violini storici. Si tratta di strumenti di pregio realizzati dai rinomati maestri della scuola cremonese come Antonio Stradivari che sono stati suonati da violinisti professionisti. Dai dati acquisiti abbiamo derivato una rappresentazione compressa del pattern di direzionalità basata sull'espansione in armoniche sferiche. Oltre alla modellazione in VS, la rappresentazione adottata ha permesso di studiare e caratterizzare i pattern di direzionalità degli strumenti, fornendo maggior comprensione sul loro comportamento direzionale. Sebbene la misurazione degli strumenti suonati consenta uno scenario di analisi più vicino alle effettive condizioni di ascolto, per strumenti particolarmente fragili, tale scenario potrebbe non essere applicabile. Quando non è possibile eseguire misurazioni convenzionali, ci si può basare su tecniche meno invasive, come nearfield acoustic holography (NAH). Infatti, è noto che la radiazione acustica di oggetti vibranti, come i violini, è determinata dal loro comportamento dinamico. Quindi, dalla conoscenza del campo di velocità della vibrazione, possiamo predire la direzionalità della sorgente. NAH consente una stima senza contatto del campo di velocità di una sorgente vibrante attraverso l'analisi della pressione acustica misurata in prossimità della stessa. Per questo, abbiamo introdotto una nuova tecnica NAH basata su un approccio deep learning. In particolare, abbiamo proposto una convolutional neural network (CNN) con una struttura ispirata da quella di un autoencoder per stimare il campo di velocità di piastre rettangolari e tavole di violino. In alternativa alle misure, le simulazioni ci consentono di prevedere la direzionalità di una sorgente basandosi sulla simulazione ad elementi finiti del suo comportamento vibroacustico. Questo approccio riduce al minimo l'invasività, al costo di una minor precisione dovuta alle approssimazioni intrinseche del modello simulato. Ne consegue che un'efficace simulazione del violino richiede un modello 3D della geometria dello strumento e dei parametri meccanici del materiale. Generalmente, però, possiamo acquisire tramite scansione laser solamente la superficie esterna degli strumenti esistenti. Pertanto, abbiamo sviluppato una tecnica per ricostruire in modo pratico il modello 3D di una tavola di violino, partendo da scansioni della superficie esterna e da misurazioni dello spessore prese in un esiguo numeri di punti della tavola. Inoltre, per quanto riguarda la stima dei parametri meccanici del materiale, abbiamo proposto la misurazione del modulo di Young a partire dalla velocità d'onda nel legno. Il modulo di Young, infatti, è uno dei parametri fondamentali per le simulazioni meccaniche. La tecnica sviluppata stima la velocità dell'onda dalle risposte del legno a un'eccitazione impulsiva utilizzando un approccio rake receiver. Successivamente, data la conoscenza della velocità dell'onda nel legno, è possibile ricavare il modulo di Young. Infine, proponiamo un proof of concept di EAR attraverso il quale mostriamo i vantaggi dell'approccio parametrico proposto. Si tratta di uno scenario EAR in cui due sorgenti virtuali, una replica di un violino prestigioso e una simulazione di un modello generico dello strumento, sono virtualmente collocati in una scena sonora in cui sono presenti sorgenti acustiche reali. I risultati danno un'anteprima delle potenzialità delle applicazioni di EAR, dimostrando che l'approccio parametrico proposto è in grado di fornire un mix tra elementi sonori reali e virtuali. Pertanto, prevediamo che le soluzioni introdotte apriranno la strada allo sviluppo di framework parametrici per EAR al fine di implementare applicazioni di extended reality.
File allegati
File Dimensione Formato  
pezzoli_phd_dissertation.pdf

Open Access dal 11/03/2022

Dimensione 28.06 MB
Formato Adobe PDF
28.06 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/179109