With the advent of digital technologies in the music industry, the modeling of analog equipment such as guitar amplifiers, distortion pedals and other effects has assumed a central role. As a matter of fact, this makes expensive analog technologies more affordable, as well as guaranteeing a sound quality comparable with the original one. In the last years, the use of deep neural network was heavily introduced in sound modeling as a valid alternative to more classic DSP (Digital Signal Processing). Specifically, neural networks such as RNN (Recurrent Neural Network) and WaveNet have been adopted to reach the best results. Furthermore, these architectures are mainly employed in modeling analog devices related to electric guitar sounds. This thesis work is aimed at black-box modeling acoustic guitar pick-up - microphone sound using a RNN neural network with an LSTM (Long-Short Term Memory) unit. For this purpose, we create a training dataset composed by pairs of microphone and pick-up acoustic guitar recordings. Furthermore, we studied a loss function that could fit our task. Finally, we evaluate the results in terms of ESR (Error to Signal Ratio) and give also a perceptual evaluation from the author perspective. We conclude that the model has shown its ability of following the trend of the target microphone signal in time domain, given as input the pick-up one. However, the model is not able to capture properly the high frequencies components of the spectrum, which are attenuated for frequencies greater than 3 kHz. In order to overcome this issue, we proposed a solution based on the sum of two different models output. This new audio present more energy in the upper frequencies components. Within said, the final output is not good enough to have the same tone of the target one. We hope this thesis could be a starting point in this research area, which would bring new tools in music field.

Con l'avvento del digitale nell'industria musicale, la modellazione virtuale di strumenti analogici come amplificatori, pedali di distorsione e altra effettistica ha assunto un ruolo centrale. Questo ha permesso di rendere le costose attrezzature analogiche più facilmente accessibili, garantendo una qualità sonora comparabile con l'originale. Negli ultimi anni, nella modellazione virtuale si è sempre più affermato l'utilizzo del deep learning come valida alternativa ai classici metodi DSP (Digital Signal Processing). Nello specifico i risultati migliori sono stati ottenuti da reti neurali quali RNN (Recurrent Neural Network) e Wavenet. La modellazione in questo campo si concentra prevalentemente su suoni legati alla chitarra elettrica. Il lavoro di questa tesi punta a modellizare con un approccio scatola-nera la relazione tra il suono registrato dal pick-up di una chitarra acustica e quello di un microfono professionale, utilizzando una RNN con un'unità LSTM (Long-Short Term Memory). Abbiamo quindi creato un dataset composto da coppie di audio ottenute registrando simultaneamente la chitarra acustica dal pick-up e dal microfono. Inoltre è stata studiata una funzione di perdita che fosse consona al nostro scopo. Infine, abbiamo valutato i risultati ottenuti in termini di ESR (Error to Signal Ratio), fornendone una valutazione percettiva personale. Abbiamo concluso che il modello proposto è in grado di seguire l'andamento del segnale del microfono (target) nel dominio temporale usando come input il segnale del pick-up. Dal punto di vista spettrale la rete neurale proposta non è in grado di catturare le componenti ad alta frequenza del segnale, che risultano attenuate per frequenze maggiori di 3 kHz. Abbiamo quindi proposto una soluzione basata sulla somma di due audio ottenuti da due modelli differenti, in questo modo l'output finale presenta più energia nelle alte frequenze. Con questo detto, il timbro ottenuto nell'audio finale non può essere considerato indistinguibile da quello del microfono. Ci auspichiamo questa tesi possa essere un primo passo in questa nuova area di ricerca, portando innovazione in ambito musicale.

AI powered pick-up

Voltolini, Emanuele
2021/2022

Abstract

With the advent of digital technologies in the music industry, the modeling of analog equipment such as guitar amplifiers, distortion pedals and other effects has assumed a central role. As a matter of fact, this makes expensive analog technologies more affordable, as well as guaranteeing a sound quality comparable with the original one. In the last years, the use of deep neural network was heavily introduced in sound modeling as a valid alternative to more classic DSP (Digital Signal Processing). Specifically, neural networks such as RNN (Recurrent Neural Network) and WaveNet have been adopted to reach the best results. Furthermore, these architectures are mainly employed in modeling analog devices related to electric guitar sounds. This thesis work is aimed at black-box modeling acoustic guitar pick-up - microphone sound using a RNN neural network with an LSTM (Long-Short Term Memory) unit. For this purpose, we create a training dataset composed by pairs of microphone and pick-up acoustic guitar recordings. Furthermore, we studied a loss function that could fit our task. Finally, we evaluate the results in terms of ESR (Error to Signal Ratio) and give also a perceptual evaluation from the author perspective. We conclude that the model has shown its ability of following the trend of the target microphone signal in time domain, given as input the pick-up one. However, the model is not able to capture properly the high frequencies components of the spectrum, which are attenuated for frequencies greater than 3 kHz. In order to overcome this issue, we proposed a solution based on the sum of two different models output. This new audio present more energy in the upper frequencies components. Within said, the final output is not good enough to have the same tone of the target one. We hope this thesis could be a starting point in this research area, which would bring new tools in music field.
GONZALEZ, SEBASTIAN
ING - Scuola di Ingegneria Industriale e dell'Informazione
4-ott-2022
2021/2022
Con l'avvento del digitale nell'industria musicale, la modellazione virtuale di strumenti analogici come amplificatori, pedali di distorsione e altra effettistica ha assunto un ruolo centrale. Questo ha permesso di rendere le costose attrezzature analogiche più facilmente accessibili, garantendo una qualità sonora comparabile con l'originale. Negli ultimi anni, nella modellazione virtuale si è sempre più affermato l'utilizzo del deep learning come valida alternativa ai classici metodi DSP (Digital Signal Processing). Nello specifico i risultati migliori sono stati ottenuti da reti neurali quali RNN (Recurrent Neural Network) e Wavenet. La modellazione in questo campo si concentra prevalentemente su suoni legati alla chitarra elettrica. Il lavoro di questa tesi punta a modellizare con un approccio scatola-nera la relazione tra il suono registrato dal pick-up di una chitarra acustica e quello di un microfono professionale, utilizzando una RNN con un'unità LSTM (Long-Short Term Memory). Abbiamo quindi creato un dataset composto da coppie di audio ottenute registrando simultaneamente la chitarra acustica dal pick-up e dal microfono. Inoltre è stata studiata una funzione di perdita che fosse consona al nostro scopo. Infine, abbiamo valutato i risultati ottenuti in termini di ESR (Error to Signal Ratio), fornendone una valutazione percettiva personale. Abbiamo concluso che il modello proposto è in grado di seguire l'andamento del segnale del microfono (target) nel dominio temporale usando come input il segnale del pick-up. Dal punto di vista spettrale la rete neurale proposta non è in grado di catturare le componenti ad alta frequenza del segnale, che risultano attenuate per frequenze maggiori di 3 kHz. Abbiamo quindi proposto una soluzione basata sulla somma di due audio ottenuti da due modelli differenti, in questo modo l'output finale presenta più energia nelle alte frequenze. Con questo detto, il timbro ottenuto nell'audio finale non può essere considerato indistinguibile da quello del microfono. Ci auspichiamo questa tesi possa essere un primo passo in questa nuova area di ricerca, portando innovazione in ambito musicale.
File allegati
File Dimensione Formato  
Voltolini___AI_Powered_pick_up.pdf

accessibile in internet per tutti

Dimensione 2.6 MB
Formato Adobe PDF
2.6 MB Adobe PDF Visualizza/Apri
Executive_Summary___Voltolini.pdf

accessibile in internet per tutti

Dimensione 1.1 MB
Formato Adobe PDF
1.1 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/195175