The technological evolution of recent years has led to the birth of new audio products and to the advancement in many research fields related to these new technologies. Examples are voice assistants (used in different fields such as home entertainment, automotive, professional), hearing impaired devices (extensively studied in recent decades and which have undergone important changes), applications (stand-alone or plugins) for audio improvement, in particular voice improvement, mobile applications for video conferences and smart working. All these technologies, in order to be effective and implementable in real situations, require the resolution of multiple complex problems. These include the scarcity of computing and memory resources, as very often these applications need to be implemented on embedded systems, cheap and small and therefore require important design constraints, as well as specific optimizations. Furthermore, these applications, working in real scenarios, are very often found in very noisy situations or, even worse, far from the sound source that produces the audio signal of interest and therefore exposed to the reverberation of the surrounding environment and to noises of various kinds. Background Noise and Reverb therefore represent two key issues to be addressed in order to implement robust systems even in complex real situations. In fact, they reduce the intelligibility of speech and therefore make the analysis of the audio signal captured by a microphone extremely complex, leading to a significant, if not total, reduction in the performance of ASR (Automatic Speech Recognition) systems. Starting from these assumptions, the focus of this thesis is the reduction of the effects of reverberation on the audio signal, in particular the vocal signal, starting from the analysis of the state of the art of DSP techniques and then focusing on the most recent data-driven ones (based on Deep-Learning), also mentioning the problem of denoising and how with some techniques it can be faced together with dereverberation. The study then focuses on the design and training of a Fully Convolutional Network inspired by the U-net that allows the dereverberation of a vocal audio signal, creating an end-to-end application that receives the reverberated signal in input and returns in output the dereverberated signal.

L'evoluzione tecnologica degli ultimi anni ha portato alla nascita di nuovi prodotti audio e all'avanzamento in molti campi di ricerca legati a queste nuove tecnologie. Ne sono un esempio gli assistenti vocali (utilizzati in diversi campi come home entertainment, automotive, professionale), i dispositivi per non udenti (ampiamente studiati negli ultimi decenni e che hanno subito importanti modifiche), le applicazioni (stand-alone o plug-in) per il miglioramento della qualità audio, in particolare il miglioramento della voce, applicazioni mobile, per videoconferenze e smart working. Tutte queste tecnologie, per essere efficaci ed implementabili in situazioni reali, richiedono la risoluzione di molteplici problemi complessi. Questi includono la scarsità di risorse computazionali e di memoria, poiché molto spesso queste applicazioni devono essere implementate su sistemi embedded, economici e di piccole dimensioni e richiedono quindi importanti vincoli di progettazione, nonché ottimizzazioni specifiche. Inoltre queste applicazioni, operando in scenari reali, si trovano molto spesso in situazioni molto rumorose o, peggio ancora, lontane dalla sorgente sonora che produce il segnale audio di interesse e quindi esposte al riverbero dell'ambiente circostante e a rumori di varia natura. Rumore di fondo e riverbero rappresentano quindi due temi chiave da affrontare per implementare sistemi robusti anche in situazioni reali complesse. Essi riducono infatti l'intelligibilità del parlato e quindi rendono estremamente complessa l'analisi del segnale audio captato da un microfono, portando ad una significativa, se non totale, riduzione delle prestazioni dei sistemi ASR (Automatic Speech Recognition). Partendo da questi presupposti, il focus di questa tesi è la riduzione degli effetti del riverbero sul segnale audio, in particolare il segnale vocale, partendo dall'analisi dello stato dell'arte delle tecniche DSP per poi soffermarsi sui dati più recenti data-driven (basati sul Deep-Learning), soffermandosi anche sul problema del denoising e come con alcune tecniche possa essere affrontato insieme al deverberation. Lo studio si concentra poi sulla progettazione e formazione di una Fully Convolutional Neural Network ispirata alla U-net che consente la de-reverberazione di un segnale audio vocale, creando un'applicazione end-to-end che riceve in ingresso il segnale riverberato e restituisce in uscita il segnale deverberato.

Audio de-reverberation through artificial neural networks and deep-leerning

CONCINA, LORENZO
2021/2022

Abstract

The technological evolution of recent years has led to the birth of new audio products and to the advancement in many research fields related to these new technologies. Examples are voice assistants (used in different fields such as home entertainment, automotive, professional), hearing impaired devices (extensively studied in recent decades and which have undergone important changes), applications (stand-alone or plugins) for audio improvement, in particular voice improvement, mobile applications for video conferences and smart working. All these technologies, in order to be effective and implementable in real situations, require the resolution of multiple complex problems. These include the scarcity of computing and memory resources, as very often these applications need to be implemented on embedded systems, cheap and small and therefore require important design constraints, as well as specific optimizations. Furthermore, these applications, working in real scenarios, are very often found in very noisy situations or, even worse, far from the sound source that produces the audio signal of interest and therefore exposed to the reverberation of the surrounding environment and to noises of various kinds. Background Noise and Reverb therefore represent two key issues to be addressed in order to implement robust systems even in complex real situations. In fact, they reduce the intelligibility of speech and therefore make the analysis of the audio signal captured by a microphone extremely complex, leading to a significant, if not total, reduction in the performance of ASR (Automatic Speech Recognition) systems. Starting from these assumptions, the focus of this thesis is the reduction of the effects of reverberation on the audio signal, in particular the vocal signal, starting from the analysis of the state of the art of DSP techniques and then focusing on the most recent data-driven ones (based on Deep-Learning), also mentioning the problem of denoising and how with some techniques it can be faced together with dereverberation. The study then focuses on the design and training of a Fully Convolutional Network inspired by the U-net that allows the dereverberation of a vocal audio signal, creating an end-to-end application that receives the reverberated signal in input and returns in output the dereverberated signal.
GROYER, CEDRIC
ING - Scuola di Ingegneria Industriale e dell'Informazione
21-lug-2022
2021/2022
L'evoluzione tecnologica degli ultimi anni ha portato alla nascita di nuovi prodotti audio e all'avanzamento in molti campi di ricerca legati a queste nuove tecnologie. Ne sono un esempio gli assistenti vocali (utilizzati in diversi campi come home entertainment, automotive, professionale), i dispositivi per non udenti (ampiamente studiati negli ultimi decenni e che hanno subito importanti modifiche), le applicazioni (stand-alone o plug-in) per il miglioramento della qualità audio, in particolare il miglioramento della voce, applicazioni mobile, per videoconferenze e smart working. Tutte queste tecnologie, per essere efficaci ed implementabili in situazioni reali, richiedono la risoluzione di molteplici problemi complessi. Questi includono la scarsità di risorse computazionali e di memoria, poiché molto spesso queste applicazioni devono essere implementate su sistemi embedded, economici e di piccole dimensioni e richiedono quindi importanti vincoli di progettazione, nonché ottimizzazioni specifiche. Inoltre queste applicazioni, operando in scenari reali, si trovano molto spesso in situazioni molto rumorose o, peggio ancora, lontane dalla sorgente sonora che produce il segnale audio di interesse e quindi esposte al riverbero dell'ambiente circostante e a rumori di varia natura. Rumore di fondo e riverbero rappresentano quindi due temi chiave da affrontare per implementare sistemi robusti anche in situazioni reali complesse. Essi riducono infatti l'intelligibilità del parlato e quindi rendono estremamente complessa l'analisi del segnale audio captato da un microfono, portando ad una significativa, se non totale, riduzione delle prestazioni dei sistemi ASR (Automatic Speech Recognition). Partendo da questi presupposti, il focus di questa tesi è la riduzione degli effetti del riverbero sul segnale audio, in particolare il segnale vocale, partendo dall'analisi dello stato dell'arte delle tecniche DSP per poi soffermarsi sui dati più recenti data-driven (basati sul Deep-Learning), soffermandosi anche sul problema del denoising e come con alcune tecniche possa essere affrontato insieme al deverberation. Lo studio si concentra poi sulla progettazione e formazione di una Fully Convolutional Neural Network ispirata alla U-net che consente la de-reverberazione di un segnale audio vocale, creando un'applicazione end-to-end che riceve in ingresso il segnale riverberato e restituisce in uscita il segnale deverberato.
File allegati
File Dimensione Formato  
Tesi_Magistrale.pdf

solo utenti autorizzati dal 15/06/2023

Descrizione: Tesi Magistrale di Concina Lorenzo
Dimensione 2.67 MB
Formato Adobe PDF
2.67 MB Adobe PDF   Visualizza/Apri
Executive_Summary_Tesi.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Executive Summary
Dimensione 934.33 kB
Formato Adobe PDF
934.33 kB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/190300