Audio packet loss concealment (PLC) refers to any technique designed to correct and mask the corrupted messages in audio stream communications over Internet protocol caused by data transmission failures. Nowadays, Voice over IP (VoIP) telephony and teleconference systems are essential in both professional and personal life; nonetheless, they are subject to data losses and latency. Therefore we need effective PLC techniques capable of operating in real-time and delivering high-fidelity audio data. In this work we present a hybrid technique where a neural network and an autoregressive model cooperate in order to reconstruct the lost packets. The model under consideration is PARCnet, a recent PLC technique which has demonstrated excellent results in the field of real-time music networks in terms of auditory perception and time inference. The main goal of this work is to move from the musical domain to that of speech, trying to replicate the great results of the original model thanks to new implementation of the two branches and training strategies. Our new model has been tested with state-of-the-art objective metrics and with a perceptual test on a sample of listeners. Results confirm that such method outperforms the baselines taken into consideration and charts a new course for addressing the PLC problem.

Con "Packet Loss Concealment" (PLC) ci si riferisce a qualsiasi tecnica progettata per correggere e mascherare i messaggi danneggiati nelle comunicazioni audio attraverso protocolli Internet causati da errori di trasmissione dei dati. Al giorno d'oggi la telefonia via IP e i sistemi di teleconferenza sono essenziali sia nella vita professionale che personale, ma sono tuttavia soggetti a perdite di dati e latenza. Da qui la necessità di tecniche PLC efficaci in grado di operare in tempo reale e fornire dati audio ad alta qualità. In questo lavoro presentiamo una tecnica ibrida in cui una rete neurale e un modello autoregressivo cooperano per ricostruire i pacchetti persi. Il modello in esame è PARCnet, una recente tecnica PLC che ha dimostrato ottimi risultati nel campo delle reti musicali in termini di percezione uditiva e inferenza in tempo reale. L'obiettivo principale di questo lavoro è quello di passare dall'ambito musicale a quello vocale, cercando di replicare gli ottimi risultati del modello originale grazie ad una nuova architettura e implementazione dei suoi due rami e anche a nuove strategie di training. Il nostro nuovo modello è stato testato con metriche oggettive allo stato dell'arte e con un test percettivo su un campione di ascoltatori. I risultati confermano che tale metodo supera le prestazioni delle baselines prese in considerazione e traccia un nuovo corso per affrontare il problema del PLC.

Hybrid packet loss concealment for speech applications based on linear predictive coding and deep residual learning

VIVIANI, MARCO
2023/2024

Abstract

Audio packet loss concealment (PLC) refers to any technique designed to correct and mask the corrupted messages in audio stream communications over Internet protocol caused by data transmission failures. Nowadays, Voice over IP (VoIP) telephony and teleconference systems are essential in both professional and personal life; nonetheless, they are subject to data losses and latency. Therefore we need effective PLC techniques capable of operating in real-time and delivering high-fidelity audio data. In this work we present a hybrid technique where a neural network and an autoregressive model cooperate in order to reconstruct the lost packets. The model under consideration is PARCnet, a recent PLC technique which has demonstrated excellent results in the field of real-time music networks in terms of auditory perception and time inference. The main goal of this work is to move from the musical domain to that of speech, trying to replicate the great results of the original model thanks to new implementation of the two branches and training strategies. Our new model has been tested with state-of-the-art objective metrics and with a perceptual test on a sample of listeners. Results confirm that such method outperforms the baselines taken into consideration and charts a new course for addressing the PLC problem.
MEZZA, ALESSANDRO
ING - Scuola di Ingegneria Industriale e dell'Informazione
9-ott-2024
2023/2024
Con "Packet Loss Concealment" (PLC) ci si riferisce a qualsiasi tecnica progettata per correggere e mascherare i messaggi danneggiati nelle comunicazioni audio attraverso protocolli Internet causati da errori di trasmissione dei dati. Al giorno d'oggi la telefonia via IP e i sistemi di teleconferenza sono essenziali sia nella vita professionale che personale, ma sono tuttavia soggetti a perdite di dati e latenza. Da qui la necessità di tecniche PLC efficaci in grado di operare in tempo reale e fornire dati audio ad alta qualità. In questo lavoro presentiamo una tecnica ibrida in cui una rete neurale e un modello autoregressivo cooperano per ricostruire i pacchetti persi. Il modello in esame è PARCnet, una recente tecnica PLC che ha dimostrato ottimi risultati nel campo delle reti musicali in termini di percezione uditiva e inferenza in tempo reale. L'obiettivo principale di questo lavoro è quello di passare dall'ambito musicale a quello vocale, cercando di replicare gli ottimi risultati del modello originale grazie ad una nuova architettura e implementazione dei suoi due rami e anche a nuove strategie di training. Il nostro nuovo modello è stato testato con metriche oggettive allo stato dell'arte e con un test percettivo su un campione di ascoltatori. I risultati confermano che tale metodo supera le prestazioni delle baselines prese in considerazione e traccia un nuovo corso per affrontare il problema del PLC.
File allegati
File Dimensione Formato  
2024_10_Viviani_Executive_Summary.pdf

non accessibile

Descrizione: Executive summary
Dimensione 789.97 kB
Formato Adobe PDF
789.97 kB Adobe PDF   Visualizza/Apri
2024_10_Viviani_Tesi.pdf

non accessibile

Descrizione: Testo tesi
Dimensione 1.04 MB
Formato Adobe PDF
1.04 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/226976