Pitch shifting of audio signals is a widely used technique in the music production industry: from the correction of artistic performances in the studios to the creative use for harmonization of musical instruments. When working on voice signals, applying a pitch shifting operation may produce unnatural sounding results. Human voice can be roughly represented as a sound source originating from the vocal cords that is then filtered by the vocal tract. The acoustic resonances of the vocal tract cause the generation of harmonic components in the voice signal that are called formants. In order to obtain a natural sounding pitch shifting algorithm for voice signals, it is necessary to find ways that let us modify the frequency content of the source without affecting the formants. The goal of this thesis is to find strategies that allow to pitch shift voice signals while preserving the formants. We desire to offer these strategies in a product for creative and professionals figures, so it is fundamental to ensure that these algorithms are able to work efficiently and in real-time. Hence, this thesis proposes two methods to tackle the problem of formant reshaping after pitch shifting. The first one, based on Glottal Flow Model Iterative Adaptive Inverse Filtering, uses filter estimates approximating the filtering effect of the mouth. The second is based on Pitch Synchronous Formants Shifting and enables the movement of formants independently of the pitch. This allows us to restore formants to their original position after a pitch shifting operation. The quality of both algorithms has been tested by means of a perceptual test. This test will demonstrate how the proposed algorithms are able to produce results comparable to other market standard products for voice pitch shifting.

Il pitch shifting di segnali audio è una tecnica molto diffusa nell’industria della produzione musicale: dalla correzione delle performance artistiche all’uso creativo per l’armonizzazione di strumenti musicali. Applicare pitch shifting su segnali vocali senza accorgimenti può produrre risultati che suonano innaturali. La voce umana può essere rappresentata come una sorgente sonora, originante dalle corde vocali, che viene filtrata dal tratto vocale. Le risonanze acustiche del tratto vocale causano la generazione di componenti armoniche nel segnale di voce, chiamate formanti. Per ottenere un algoritmo di pitch shifting che suoni naturale sulla voce, è necessario trovare strategie che permettano di modificare il contenuto in frequenza della sorgente senza influenzare quello delle formanti. Desideriamo offrire questi metodi in un prodotto per figure creative e professionali perciò è fondamentale assicurarsi che tali algoritmi funzionino efficientemente in tempo reale. Dunque, questa tesi propone due metodi che affrontano il problema di restauro delle formanti durante un'operazione di pitch shifting. Il primo, basato sull'algoritmo di Glottal Flow Model Iterative Adaptive Inverse Filtering, usa stime di filtri che approssimano gli effetti prodotti dal tratto vocale. Il secondo invece, è basato sull'algoritmo di Pitch Synchronous Formants Shifting e permette il movimento delle formanti indipendentemente dal pitch. Ciò permette di riposizionare le formanti nella loro posizione originaria in seguito a una operazione di pitch shifting. La qualità degli algoritmi è stata valutata tramite un test percettivo. Questo test dimostrerà come gli algoritmi proposti siano capaci di produrre risultati che sono comparabili con altri prodotti standard di mercato per il pitch shifting della voce.

Real-time pitch shifting techniques for monophonic voice signals

Coppola, Andrea
2021/2022

Abstract

Pitch shifting of audio signals is a widely used technique in the music production industry: from the correction of artistic performances in the studios to the creative use for harmonization of musical instruments. When working on voice signals, applying a pitch shifting operation may produce unnatural sounding results. Human voice can be roughly represented as a sound source originating from the vocal cords that is then filtered by the vocal tract. The acoustic resonances of the vocal tract cause the generation of harmonic components in the voice signal that are called formants. In order to obtain a natural sounding pitch shifting algorithm for voice signals, it is necessary to find ways that let us modify the frequency content of the source without affecting the formants. The goal of this thesis is to find strategies that allow to pitch shift voice signals while preserving the formants. We desire to offer these strategies in a product for creative and professionals figures, so it is fundamental to ensure that these algorithms are able to work efficiently and in real-time. Hence, this thesis proposes two methods to tackle the problem of formant reshaping after pitch shifting. The first one, based on Glottal Flow Model Iterative Adaptive Inverse Filtering, uses filter estimates approximating the filtering effect of the mouth. The second is based on Pitch Synchronous Formants Shifting and enables the movement of formants independently of the pitch. This allows us to restore formants to their original position after a pitch shifting operation. The quality of both algorithms has been tested by means of a perceptual test. This test will demonstrate how the proposed algorithms are able to produce results comparable to other market standard products for voice pitch shifting.
HØJSTED KÜRSTEIN, RASMUS
ING - Scuola di Ingegneria Industriale e dell'Informazione
21-dic-2022
2021/2022
Il pitch shifting di segnali audio è una tecnica molto diffusa nell’industria della produzione musicale: dalla correzione delle performance artistiche all’uso creativo per l’armonizzazione di strumenti musicali. Applicare pitch shifting su segnali vocali senza accorgimenti può produrre risultati che suonano innaturali. La voce umana può essere rappresentata come una sorgente sonora, originante dalle corde vocali, che viene filtrata dal tratto vocale. Le risonanze acustiche del tratto vocale causano la generazione di componenti armoniche nel segnale di voce, chiamate formanti. Per ottenere un algoritmo di pitch shifting che suoni naturale sulla voce, è necessario trovare strategie che permettano di modificare il contenuto in frequenza della sorgente senza influenzare quello delle formanti. Desideriamo offrire questi metodi in un prodotto per figure creative e professionali perciò è fondamentale assicurarsi che tali algoritmi funzionino efficientemente in tempo reale. Dunque, questa tesi propone due metodi che affrontano il problema di restauro delle formanti durante un'operazione di pitch shifting. Il primo, basato sull'algoritmo di Glottal Flow Model Iterative Adaptive Inverse Filtering, usa stime di filtri che approssimano gli effetti prodotti dal tratto vocale. Il secondo invece, è basato sull'algoritmo di Pitch Synchronous Formants Shifting e permette il movimento delle formanti indipendentemente dal pitch. Ciò permette di riposizionare le formanti nella loro posizione originaria in seguito a una operazione di pitch shifting. La qualità degli algoritmi è stata valutata tramite un test percettivo. Questo test dimostrerà come gli algoritmi proposti siano capaci di produrre risultati che sono comparabili con altri prodotti standard di mercato per il pitch shifting della voce.
File allegati
File Dimensione Formato  
ExecutiveSummary_AndreaCoppola.pdf

non accessibile

Descrizione: Executive Summary
Dimensione 489.06 kB
Formato Adobe PDF
489.06 kB Adobe PDF   Visualizza/Apri
MasterThesisAndreaCoppola.pdf

non accessibile

Descrizione: Thesis
Dimensione 1.94 MB
Formato Adobe PDF
1.94 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/201218