Audio systems, such as audio sensors and actuators, are pervasive devices that have taken over many different markets, ranging from the classical consumer electronics market up to that of biomedical devices. Many are the components and the transduction principles on which audio systems rely, as well as many are the physical domains - such as electrical, acoustic, mechanical, magnetic, etc. - involved in the digital/analog processing chains characterizing such complex systems. The physical domains do not only interact in a nonlinear fashion but are in turn affected by many different types of nonlinearities which are highly responsible for the peculiar characteristics of the audio gear. In order to outline, digitally replicate, and process the signals of such systems, multiphysics models able to account for such nonlinear behavior must be derived. In the literature, the physical modeling of audio systems has been addressed following both distributed and lumped approaches. In this thesis, we decide to employ Lumped-Element Models (LEMs), although being generally characterized by less descriptive power than distributed models, since they show many different properties which can be highly valuable for our purpose. Our ultimate goal, in fact, is to derive real-time digital signal processing algorithms for enhancing the acoustic performance of audio systems leveraging the underlying physics. In particular, we are interested in the modeling of multiphysics systems that have as input or output signals an electrical quantity. It has been demonstrated that, in such cases, LEMs are a well-suited modeling methodology given that, for example, they can be easily interfaced with such kinds of systems and they can be digitally implemented in an efficient fashion. Moreover, it is possible to exploit the analogies between electrical and other physical domains in order to derive equivalent circuit representations of audio systems that allow us to analyze all the physical domains in a unified fashion. Among the methods for the implementation of LEMs, we take into account Wave Digital Filters (WDFs) since, over the past few years, they have demonstrated good properties for the digital realization of nonlinear audio circuits or, more in general, of physical systems described by means of electrical equivalents. Introduced by A. Fettweis in the late 70s, WDFs are a particular class of digital filters based on physical modeling principles. Circuit elements and topological interconnections are realized as input-output blocks characterized by scattering relations. Port voltages and currents are substituted by a linear combination of incident and reflected waves; in addition, a free parameter is introduced into the port description leading to several numerical advantages. Amongst others, the possibility of solving circuits with up to one nonlinear element (characterized by explicit mapping) in a fully explicit fashion can come in handy for the processing and emulation of multiphysics circuits. In general, WDFs preserve the stability properties of the reference circuit; moreover, they are modular, accurate, and efficient, proving to be suitable to be employed in digital audio signal processing algorithms for consumer electronics applications. In this thesis, we thus propose new Wave Digital (WD) modeling techniques able to efficiently describe the different physical domains of audio systems in a modular fashion. For example, we provide new models of audio transformers, piezoelectric loudspeakers, and guitar pickups. As far as audio transformers are concerned, we take into account the modeling of magnetic saturation by means of Canonical Piecewise-Linear functions, and the modeling of rate-dependent hysteresis by encompassing a particular Recurrent Neural Network trained on measurement data into a WD block. We then generalize the Scattering Iterative Method (SIM), i.e., a fixed-point iterative method able to solve WD structures characterized by an arbitrary number of nonlinear elements and one single topological junctions, deriving a hierarchical version - which we called Hierarchical SIM (HSIM) - able to accommodate both multiple nonlinearities and junctions; in fact, this is typically the case in multiphysics systems. We then exploit the high number of embarrassingly parallelizable operations of HSIM for deriving parallel implementations able to speed up the circuit emulation and cope with the latest developments of Digital Signal Processors (DSPs) as far as multi-core Central Processing Units (CPUs) are concerned. We then show how it is possible to apply Newton-Raphson routines to nonlinear WD structures organized in the form of a connection tree for enhancing the convergence speed. Once both models and methods for multiphysics emulation of audio systems are introduced, we show how it is possible to use them for deriving virtualization algorithms. In fact, we introduce a new class of digital signal processing algorithms able to impose the behavior of target sensors/actuators using novel processing chains based on circuit inversion. Such algorithms can be exploited for the compensation/linearization of audio transducers, but especially for modifying their behavior making them sound like other transducers. We analyze from a theoretical standpoint such algorithms, providing ready-to-use schemes and block diagrams for deriving the circuital inverse of physical models, as well as for applying the virtualization chains to all the possible input/output configurations. Finally, in applications in which virtualization algorithms might not be able to impose a target behavior due to very strict physical constraints of the audio transducers, we propose to exploit psychoacoustic effects. We address the case of low-frequency enhancement in small-size transducers, and we propose to use Virtual Bass Enhancement (VBE) systems, which exploit psychoacoustics to trick the human perception of sound. We first propose a circuit equivalent realization of a generic time-domain VBE system, enabling the design of new VBE algorithms in analog, digital, and hybrid analog/digital audio applications. Then, we introduce a novel VBE system that relies on deep learning techniques for music demixing. The method solves known problems of common techniques and overcomes the state-of-the-art method as far as bass enhancement is concerned.

I sistemi audio, come ad esempio sensori e attuatori, sono dispositivi che interessano ormai svariati mercati, partendo dal mercato dell'elettronica di consumo fino ad arrivare a quello dei dispositivi biomedicali. Molti sono i componenti e i principi di trasduzione su cui si basano tali sistemi, così come molti sono i domini fisici - quali elettrico, acustico, meccanico, magnetico, ecc. - coinvolti nelle catene di elaborazione digitale/analogico riguardanti tali dispositivi. I domini fisici non solo interagiscono in modo non lineare l'uno con l'altro, ma sono a loro volta influenzati da diversi tipi di non linearità, le quali sono responsabili delle caratteristiche distintive dei dispositivi audio. Per descrivere, replicare digitalmente e processare i segnali di sistemi così complessi, è necessario derivare modelli multifisici in grado di tenere conto di tutti questi comportamenti non lineari. In letteratura, la modellazione fisica di sistemi audio è stata affrontata sia con approcci distribuiti sia con approcci a parametri concentrati. In questa tesi, sebbene caratterizzati da una minore potenza descrittiva, utilizziamo i Lumped-Element Model (LEM) in quanto presentano diverse proprietà interessanti per il nostro scopo. Il nostro obiettivo finale, infatti, è derivare algoritmi real-time di elaborazione di segnali digitali per migliorare le prestazioni acustiche dei sistemi audio sfruttando la fisica sottostante. In particolare, siamo interessati alla modellazione di sistemi multifisici che hanno come segnali di ingresso o di uscita una grandezza elettrica. È stato dimostrato che, in tali casi, i LEM sono una metodologia di modellazione calzante, dato che, ad esempio, possono essere interfacciati facilmente con tali tipi di sistemi e sono caratterizzati da un'elevata efficienza. Inoltre, è possibile sfruttare le analogie tra dominio elettrico e altri domini fisici per derivare rappresentazioni circuitali equivalenti. Tra i metodi di modellazione LEM, utilizziamo i Wave Digital Filter (WDF) poichè, negli ultimi anni, hanno dimostrato buone proprietà per quanto riguarda la realizzazione digitale di circuiti audio non lineari o, più in generale, di sistemi fisici descritti mediante equivalenti elettrici. Introdotti da A. Fettweis alla fine degli anni '70, i WDF sono una particolare classe di filtri digitali basati su principi di modellazione fisica. Gli elementi circuitali e le interconnessioni topologiche sono realizzati come blocchi input-output caratterizzati da relazioni di scattering. Le tensioni e le correnti di porta sono sostituite da una combinazione lineare di onde incidenti e riflesse; inoltre, viene introdotto un parametro libero nella descrizione di porta che conferisce diversi vantaggi numerici. Per esempio, la possibilità di risolvere circuiti con al massimo un elemento non lineare (caratterizzato da una funzione esplicita) in modo completamente esplicito può tornare utile per l'elaborazione e l'emulazione di circuiti multifisici. In generale, i WDF sono stabili, modulari, accurati ed efficienti e, negli ultimi anni, hanno raggiunto quel grado di maturità necessario per essere impiegati in applicazioni di elettronica di consumo. In questa tesi, proponiamo quindi nuove tecniche di modellazione Wave Digital (WD) in grado di descrivere in modo efficiente e modulare i diversi domini fisici dei sistemi audio. Ad esempio, proponiamo nuovi modelli di trasformatori audio, altoparlanti piezoelettrici e pickup per chitarra. Per quanto riguarda i trasformatori audio, prendiamo in considerazione la modellazione della saturazione magnetica mediante funzioni Canonical Piecewise-Linear e la modellazione dell'isteresi rate-dependent inserendo in un blocco WD una particolare rete neurale ricorrente allenata su misure. Generalizziamo poi lo Scattering Iterative Method (SIM), ovvero un metodo iterativo al punto fisso in grado di risolvere strutture WD caratterizzate da un numero arbitrario di elementi non lineari e una singola giunzione topologica, derivando una versione gerarchica - che abbiamo chiamato SIM gerarchico (HSIM) - in grado di risolvere strutture sia con molteplici non linearità che con molteplici giunzioni; infatti, questo è tipicamente il caso dei sistemi multifisici. Successivamente, sfruttando l'elevato numero di operazioni "embarrassingly parallelizable" di HSIM, deriviamo implementazioni parallele in grado di velocizzare l'emulazione e far fronte agli ultimi sviluppi dei Digital Signal Processor (DSP) per quanto riguarda le Central Processing Unit (CPU) multi-core. In seguito, mostriamo come sia possibile applicare routine Newton-Raphson a strutture WD organizzate in forma di albero per migliorare la velocità di convergenza. Una volta introdotti sia i modelli che i metodi per l'emulazione multifisica dei sistemi audio, mostriamo come sia possibile utilizzarli per derivare algoritmi di virtualizzazione. Introduciamo, infatti, una nuova classe di algoritmi di elaborazione di segnali digitali in grado di imporre il comportamento di sensori/attuatori target utilizzando una nuova catena di elaborazione basata sull'inversione circuitale. Tali algoritmi possono essere sfruttati per la compensazione/linearizzazione di trasduttori audio, ma soprattutto per modificarne il comportamento facendoli suonare come altri trasduttori. Analizziamo da un punto di vista teorico tali algoritmi, fornendo schemi e diagrammi a blocchi al fine di derivare l'inverso circuitale di modelli fisici, nonché per applicare le catene di virtualizzazione a tutte le possibili configurazioni di input/output. Infine, nel caso in cui anche gli algoritmi di virtualizzazione non sono in grado di imporre un comportamento target a causa di vincoli fisici molto stringenti dei trasduttori audio, proponiamo di sfruttare effetti psicoacustici. Consideriamo dunque l'aumento della percezione delle basse frequenze in altoparlanti di piccola taglia, e proponiamo di usare sistemi di Virtual Bass Enhancement (VBE), i quali sfruttano la psicoacustica per illludere la percezione umana del suono. Proponiamo innanzitutto una realizzazione circuitale equivalente del tipico sistema VBE nel dominio del tempo, aprendo la strada alla progettazione di nuovi algoritmi VBE in domini analogici, digitali e ibridi analogico/digitale. In seguito, introduciamo un sistema VBE innovativo e all'avanguardia che si basa su tecniche di deep learning per la separazione di sorgenti musicali. Il metodo risolve i problemi noti delle tecniche più comuni e risulta essere più performante dello stato dell'arte per quanto riguarda l'aumento della percezione delle basse frequenze.

Multiphysics modeling of audio systems in the wave digital domain

GIAMPICCOLO, RICCARDO
2022/2023

Abstract

Audio systems, such as audio sensors and actuators, are pervasive devices that have taken over many different markets, ranging from the classical consumer electronics market up to that of biomedical devices. Many are the components and the transduction principles on which audio systems rely, as well as many are the physical domains - such as electrical, acoustic, mechanical, magnetic, etc. - involved in the digital/analog processing chains characterizing such complex systems. The physical domains do not only interact in a nonlinear fashion but are in turn affected by many different types of nonlinearities which are highly responsible for the peculiar characteristics of the audio gear. In order to outline, digitally replicate, and process the signals of such systems, multiphysics models able to account for such nonlinear behavior must be derived. In the literature, the physical modeling of audio systems has been addressed following both distributed and lumped approaches. In this thesis, we decide to employ Lumped-Element Models (LEMs), although being generally characterized by less descriptive power than distributed models, since they show many different properties which can be highly valuable for our purpose. Our ultimate goal, in fact, is to derive real-time digital signal processing algorithms for enhancing the acoustic performance of audio systems leveraging the underlying physics. In particular, we are interested in the modeling of multiphysics systems that have as input or output signals an electrical quantity. It has been demonstrated that, in such cases, LEMs are a well-suited modeling methodology given that, for example, they can be easily interfaced with such kinds of systems and they can be digitally implemented in an efficient fashion. Moreover, it is possible to exploit the analogies between electrical and other physical domains in order to derive equivalent circuit representations of audio systems that allow us to analyze all the physical domains in a unified fashion. Among the methods for the implementation of LEMs, we take into account Wave Digital Filters (WDFs) since, over the past few years, they have demonstrated good properties for the digital realization of nonlinear audio circuits or, more in general, of physical systems described by means of electrical equivalents. Introduced by A. Fettweis in the late 70s, WDFs are a particular class of digital filters based on physical modeling principles. Circuit elements and topological interconnections are realized as input-output blocks characterized by scattering relations. Port voltages and currents are substituted by a linear combination of incident and reflected waves; in addition, a free parameter is introduced into the port description leading to several numerical advantages. Amongst others, the possibility of solving circuits with up to one nonlinear element (characterized by explicit mapping) in a fully explicit fashion can come in handy for the processing and emulation of multiphysics circuits. In general, WDFs preserve the stability properties of the reference circuit; moreover, they are modular, accurate, and efficient, proving to be suitable to be employed in digital audio signal processing algorithms for consumer electronics applications. In this thesis, we thus propose new Wave Digital (WD) modeling techniques able to efficiently describe the different physical domains of audio systems in a modular fashion. For example, we provide new models of audio transformers, piezoelectric loudspeakers, and guitar pickups. As far as audio transformers are concerned, we take into account the modeling of magnetic saturation by means of Canonical Piecewise-Linear functions, and the modeling of rate-dependent hysteresis by encompassing a particular Recurrent Neural Network trained on measurement data into a WD block. We then generalize the Scattering Iterative Method (SIM), i.e., a fixed-point iterative method able to solve WD structures characterized by an arbitrary number of nonlinear elements and one single topological junctions, deriving a hierarchical version - which we called Hierarchical SIM (HSIM) - able to accommodate both multiple nonlinearities and junctions; in fact, this is typically the case in multiphysics systems. We then exploit the high number of embarrassingly parallelizable operations of HSIM for deriving parallel implementations able to speed up the circuit emulation and cope with the latest developments of Digital Signal Processors (DSPs) as far as multi-core Central Processing Units (CPUs) are concerned. We then show how it is possible to apply Newton-Raphson routines to nonlinear WD structures organized in the form of a connection tree for enhancing the convergence speed. Once both models and methods for multiphysics emulation of audio systems are introduced, we show how it is possible to use them for deriving virtualization algorithms. In fact, we introduce a new class of digital signal processing algorithms able to impose the behavior of target sensors/actuators using novel processing chains based on circuit inversion. Such algorithms can be exploited for the compensation/linearization of audio transducers, but especially for modifying their behavior making them sound like other transducers. We analyze from a theoretical standpoint such algorithms, providing ready-to-use schemes and block diagrams for deriving the circuital inverse of physical models, as well as for applying the virtualization chains to all the possible input/output configurations. Finally, in applications in which virtualization algorithms might not be able to impose a target behavior due to very strict physical constraints of the audio transducers, we propose to exploit psychoacoustic effects. We address the case of low-frequency enhancement in small-size transducers, and we propose to use Virtual Bass Enhancement (VBE) systems, which exploit psychoacoustics to trick the human perception of sound. We first propose a circuit equivalent realization of a generic time-domain VBE system, enabling the design of new VBE algorithms in analog, digital, and hybrid analog/digital audio applications. Then, we introduce a novel VBE system that relies on deep learning techniques for music demixing. The method solves known problems of common techniques and overcomes the state-of-the-art method as far as bass enhancement is concerned.
PIRODDI, LUIGI
CESANA, MATTEO
BERNARDINI, ALBERTO
20-set-2023
I sistemi audio, come ad esempio sensori e attuatori, sono dispositivi che interessano ormai svariati mercati, partendo dal mercato dell'elettronica di consumo fino ad arrivare a quello dei dispositivi biomedicali. Molti sono i componenti e i principi di trasduzione su cui si basano tali sistemi, così come molti sono i domini fisici - quali elettrico, acustico, meccanico, magnetico, ecc. - coinvolti nelle catene di elaborazione digitale/analogico riguardanti tali dispositivi. I domini fisici non solo interagiscono in modo non lineare l'uno con l'altro, ma sono a loro volta influenzati da diversi tipi di non linearità, le quali sono responsabili delle caratteristiche distintive dei dispositivi audio. Per descrivere, replicare digitalmente e processare i segnali di sistemi così complessi, è necessario derivare modelli multifisici in grado di tenere conto di tutti questi comportamenti non lineari. In letteratura, la modellazione fisica di sistemi audio è stata affrontata sia con approcci distribuiti sia con approcci a parametri concentrati. In questa tesi, sebbene caratterizzati da una minore potenza descrittiva, utilizziamo i Lumped-Element Model (LEM) in quanto presentano diverse proprietà interessanti per il nostro scopo. Il nostro obiettivo finale, infatti, è derivare algoritmi real-time di elaborazione di segnali digitali per migliorare le prestazioni acustiche dei sistemi audio sfruttando la fisica sottostante. In particolare, siamo interessati alla modellazione di sistemi multifisici che hanno come segnali di ingresso o di uscita una grandezza elettrica. È stato dimostrato che, in tali casi, i LEM sono una metodologia di modellazione calzante, dato che, ad esempio, possono essere interfacciati facilmente con tali tipi di sistemi e sono caratterizzati da un'elevata efficienza. Inoltre, è possibile sfruttare le analogie tra dominio elettrico e altri domini fisici per derivare rappresentazioni circuitali equivalenti. Tra i metodi di modellazione LEM, utilizziamo i Wave Digital Filter (WDF) poichè, negli ultimi anni, hanno dimostrato buone proprietà per quanto riguarda la realizzazione digitale di circuiti audio non lineari o, più in generale, di sistemi fisici descritti mediante equivalenti elettrici. Introdotti da A. Fettweis alla fine degli anni '70, i WDF sono una particolare classe di filtri digitali basati su principi di modellazione fisica. Gli elementi circuitali e le interconnessioni topologiche sono realizzati come blocchi input-output caratterizzati da relazioni di scattering. Le tensioni e le correnti di porta sono sostituite da una combinazione lineare di onde incidenti e riflesse; inoltre, viene introdotto un parametro libero nella descrizione di porta che conferisce diversi vantaggi numerici. Per esempio, la possibilità di risolvere circuiti con al massimo un elemento non lineare (caratterizzato da una funzione esplicita) in modo completamente esplicito può tornare utile per l'elaborazione e l'emulazione di circuiti multifisici. In generale, i WDF sono stabili, modulari, accurati ed efficienti e, negli ultimi anni, hanno raggiunto quel grado di maturità necessario per essere impiegati in applicazioni di elettronica di consumo. In questa tesi, proponiamo quindi nuove tecniche di modellazione Wave Digital (WD) in grado di descrivere in modo efficiente e modulare i diversi domini fisici dei sistemi audio. Ad esempio, proponiamo nuovi modelli di trasformatori audio, altoparlanti piezoelettrici e pickup per chitarra. Per quanto riguarda i trasformatori audio, prendiamo in considerazione la modellazione della saturazione magnetica mediante funzioni Canonical Piecewise-Linear e la modellazione dell'isteresi rate-dependent inserendo in un blocco WD una particolare rete neurale ricorrente allenata su misure. Generalizziamo poi lo Scattering Iterative Method (SIM), ovvero un metodo iterativo al punto fisso in grado di risolvere strutture WD caratterizzate da un numero arbitrario di elementi non lineari e una singola giunzione topologica, derivando una versione gerarchica - che abbiamo chiamato SIM gerarchico (HSIM) - in grado di risolvere strutture sia con molteplici non linearità che con molteplici giunzioni; infatti, questo è tipicamente il caso dei sistemi multifisici. Successivamente, sfruttando l'elevato numero di operazioni "embarrassingly parallelizable" di HSIM, deriviamo implementazioni parallele in grado di velocizzare l'emulazione e far fronte agli ultimi sviluppi dei Digital Signal Processor (DSP) per quanto riguarda le Central Processing Unit (CPU) multi-core. In seguito, mostriamo come sia possibile applicare routine Newton-Raphson a strutture WD organizzate in forma di albero per migliorare la velocità di convergenza. Una volta introdotti sia i modelli che i metodi per l'emulazione multifisica dei sistemi audio, mostriamo come sia possibile utilizzarli per derivare algoritmi di virtualizzazione. Introduciamo, infatti, una nuova classe di algoritmi di elaborazione di segnali digitali in grado di imporre il comportamento di sensori/attuatori target utilizzando una nuova catena di elaborazione basata sull'inversione circuitale. Tali algoritmi possono essere sfruttati per la compensazione/linearizzazione di trasduttori audio, ma soprattutto per modificarne il comportamento facendoli suonare come altri trasduttori. Analizziamo da un punto di vista teorico tali algoritmi, fornendo schemi e diagrammi a blocchi al fine di derivare l'inverso circuitale di modelli fisici, nonché per applicare le catene di virtualizzazione a tutte le possibili configurazioni di input/output. Infine, nel caso in cui anche gli algoritmi di virtualizzazione non sono in grado di imporre un comportamento target a causa di vincoli fisici molto stringenti dei trasduttori audio, proponiamo di sfruttare effetti psicoacustici. Consideriamo dunque l'aumento della percezione delle basse frequenze in altoparlanti di piccola taglia, e proponiamo di usare sistemi di Virtual Bass Enhancement (VBE), i quali sfruttano la psicoacustica per illludere la percezione umana del suono. Proponiamo innanzitutto una realizzazione circuitale equivalente del tipico sistema VBE nel dominio del tempo, aprendo la strada alla progettazione di nuovi algoritmi VBE in domini analogici, digitali e ibridi analogico/digitale. In seguito, introduciamo un sistema VBE innovativo e all'avanguardia che si basa su tecniche di deep learning per la separazione di sorgenti musicali. Il metodo risolve i problemi noti delle tecniche più comuni e risulta essere più performante dello stato dell'arte per quanto riguarda l'aumento della percezione delle basse frequenze.
File allegati
File Dimensione Formato  
phd_thesis_giampiccolo.pdf

non accessibile

Dimensione 52.16 MB
Formato Adobe PDF
52.16 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/207892