In recent years, thanks to the widespread diffusion of VoIP technology, Packet Loss Concealment (PLC) for speech signals has gathered the attention of researchers all around the world. Similarly to Large Language Models (LLMs), ALMs combine optimal sequence-to-sequence modelling capability with the possibility of parallelizing the computation. Taking inspiration from their proven success in conditioned generation tasks, this study explores the novel application of ALMs to the task of next-token prediction, in the context of PLC. Besides proposing this new approach, in this research we investigate various codebook interleaving patterns to improve the prediction quality of our model. Each pattern has been implemented within two models: a lightweight network, with less than 10M parameters, and a larger one, with about 30M parameters. Each implementation has been tested to assess its prediction accuracy and the quality of the predicted audio, besides evaluating its average inference time. Our results indicate how lightweight ALMs can be effectively used as PLC systems. Moreover, our study shows the impact that interleaving patterns may have on the model, both in terms of performance and latency. With this research we hope to contribute to advancing PLC techniques and to the development of new application fields for ALMs.

Negli ultimi anni, la diffusione capillare delle tecnologie di streaming e VoIP ha determinato un aumento sostanziale dell'interesse sul tema del Packet Loss Concealment (PLC). L'impiego sempre più frequente dei cosiddetti Audio Language Models (ALM) in task di generazione automatica condizionata ad un prompt di testo, inoltre, offre lo spunto per l'argomento su cui verte la nostra ricerca: proporre un approccio inedito al PLC basato proprio sugli ALM. Gli ALM offrono le stesse possibilità di parallelizzazione e la stessa ottima capacità di modellizzare sequenze dei Large Language Models (LLM) da cui derivano. Le loro capacità in ambito generativo sono ben documentate in letteratura, ma la loro applicabilità a task di next-token prediction, come è il caso di un sistema di PLC, è ciò che approfondiamo in questo nostro studio. Oltre a proporre un nuovo approccio, durante la nostra ricerca abbiamo ideato diversi pattern di interleaving, allo scopo di affinare la qualità predittiva del nostro modello e migliorarne le prestazioni. Ogni pattern è stato implementato all'interno di due ALM, un modello leggero, con meno di 10M di parametri, e un secondo più pesante, con circa 30M di parametri. Per ognuno di questi modelli abbiamo poi misurato l'accuratezza e la qualità del segnale predetto, oltre che il tempo di inferenza medio. I risultati dei nostri test mostrano come anche ALM leggeri siano efficaci nel contesto del PLC. Lo studio dimostra, inoltre, l'impatto notevole che i pattern di interleaving possono avere sui modelli, sia in termini di accuratezza che di latenza. Con questa ricerca speriamo di contribuire all'avanzamento delle tecniche di PLC e allo sviluppo di nuove applicazioni per gli ALM.

Audio language models for deep packet loss concealment

Rapisarda, Claudio
2023/2024

Abstract

In recent years, thanks to the widespread diffusion of VoIP technology, Packet Loss Concealment (PLC) for speech signals has gathered the attention of researchers all around the world. Similarly to Large Language Models (LLMs), ALMs combine optimal sequence-to-sequence modelling capability with the possibility of parallelizing the computation. Taking inspiration from their proven success in conditioned generation tasks, this study explores the novel application of ALMs to the task of next-token prediction, in the context of PLC. Besides proposing this new approach, in this research we investigate various codebook interleaving patterns to improve the prediction quality of our model. Each pattern has been implemented within two models: a lightweight network, with less than 10M parameters, and a larger one, with about 30M parameters. Each implementation has been tested to assess its prediction accuracy and the quality of the predicted audio, besides evaluating its average inference time. Our results indicate how lightweight ALMs can be effectively used as PLC systems. Moreover, our study shows the impact that interleaving patterns may have on the model, both in terms of performance and latency. With this research we hope to contribute to advancing PLC techniques and to the development of new application fields for ALMs.
MEZZA, ALESSANDRO ILIC
ING - Scuola di Ingegneria Industriale e dell'Informazione
9-ott-2024
2023/2024
Negli ultimi anni, la diffusione capillare delle tecnologie di streaming e VoIP ha determinato un aumento sostanziale dell'interesse sul tema del Packet Loss Concealment (PLC). L'impiego sempre più frequente dei cosiddetti Audio Language Models (ALM) in task di generazione automatica condizionata ad un prompt di testo, inoltre, offre lo spunto per l'argomento su cui verte la nostra ricerca: proporre un approccio inedito al PLC basato proprio sugli ALM. Gli ALM offrono le stesse possibilità di parallelizzazione e la stessa ottima capacità di modellizzare sequenze dei Large Language Models (LLM) da cui derivano. Le loro capacità in ambito generativo sono ben documentate in letteratura, ma la loro applicabilità a task di next-token prediction, come è il caso di un sistema di PLC, è ciò che approfondiamo in questo nostro studio. Oltre a proporre un nuovo approccio, durante la nostra ricerca abbiamo ideato diversi pattern di interleaving, allo scopo di affinare la qualità predittiva del nostro modello e migliorarne le prestazioni. Ogni pattern è stato implementato all'interno di due ALM, un modello leggero, con meno di 10M di parametri, e un secondo più pesante, con circa 30M di parametri. Per ognuno di questi modelli abbiamo poi misurato l'accuratezza e la qualità del segnale predetto, oltre che il tempo di inferenza medio. I risultati dei nostri test mostrano come anche ALM leggeri siano efficaci nel contesto del PLC. Lo studio dimostra, inoltre, l'impatto notevole che i pattern di interleaving possono avere sui modelli, sia in termini di accuratezza che di latenza. Con questa ricerca speriamo di contribuire all'avanzamento delle tecniche di PLC e allo sviluppo di nuove applicazioni per gli ALM.
File allegati
File Dimensione Formato  
2024_10_Rapisarda_Thesys.pdf

non accessibile

Descrizione: testo della tesi
Dimensione 1.61 MB
Formato Adobe PDF
1.61 MB Adobe PDF   Visualizza/Apri
2024_10_Rapisarda_Executive_Summary.pdf

non accessibile

Descrizione: executive sumamry
Dimensione 1.29 MB
Formato Adobe PDF
1.29 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/227239