The rapid proliferation of IoT devices has created a massive flood of data that these systems are not designed to manage. With limited storage and processing capabilities, many IoT devices struggle to keep up with the high-dimensional data they generate, especially in applications that require long-term data preservation, such as digital forensics and real-time human activity recognition. This thesis addresses these critical challenges by investigating lossy compression techniques for Channel State Information (CSI) data to balance the need for reduced storage requirements with the preservation of essential evidentiary and analytical details. The research investigates several methods for dimensionality reduction and quantization. Conventional methods include Principal Component Analysis (PCA), Scalar Quantization (SQ), and Vector Quantization (VQ), which are evaluated both individually and in combination to determine the optimal balance between storage efficiency and classification performance. In addition, advanced deep learning techniques using Variational Autoencoders (VAE) are explored to automatically extract latent representations for later quantization. Huffman coding is applied as a lossless compression step to further increase storage reduction. Experiments have been performed in two real-world scenarios. In the Presence Detection scenario—a binary classification task—the system captured CSI data to detect the presence of a person in the environment. In the Activity Recognition scenario—a multi-class problem—CSI data was collected to detect a range of static and dynamic human actions. In both cases, in-depth experiments evaluated the impact of different compression configurations on classification accuracy and storage requirements. The results highlight the success in preserving data fidelity for legal evidence and optimizing storage in resource-constrained IoT environments. This work demonstrates that lossy compression methods can effectively support long-term forensic data preservation and human activity recognition.
La rapida diffusione di dispositivi IoT ha creato un'enorme quantità di dati che questi sistemi non sono stati concepiti per gestire. Tali dispositivi, infatti, presentano limitate capacità di calcolo e di archiviazione, rendendoli inadatti a mantenere il passo con l'elevato grado di dimensionalità dei dati generati; specialmente in contesti come la scienza digitale forense dove è essenziale la conservazione a lungo termine dei dati. La tesi affronta queste problematiche sperimentando l'utilizzo di tecniche di compressione con perdita per i dati CSI (Channel State Information), al fine di trovare un equilibrio tra la riduzione del costo di archiviazione dei dati e la conservazione di dettagli essenziali per l'analisi forense. La ricerca si concentra sull'impiego di metodi di riduzione della dimensionalità e quantizzazione, valutandone l'efficacia nel trovare un equilibrio tra efficienza di memorizzazione e prestazioni di classificazione. In particolare si esaminano l'Analisi delle Componenti Principali (PCA), la Quantizzazione Scalare (SQ) e la Quantizzazione Vettoriale (VQ), sia singolarmente che in combinazione tra di loro. Inoltre, si esplorano tecniche di deep learning basate su Autoencoder Variazionali (VAE) per l'estrazione automatica di rappresentazioni latenti, successivamente soggette a quantizzazione. Infine, alla fine del processo, viene applicata la Codifica di Huffman, un metodo di compressione senza perdita, per ridurre ulteriormente lo spazio di archiviazione. Gli esperimenti sono stati condotti in due scenari reali. Nel primo scenario (Presence Detection), il sistema ha acquisito dati CSI per rilevare la presenza di una persona all'interno della stanza. Nel secondo scenario (Activity Recognition), sono stati raccolti dati CSI per la rilevazione di azioni umane sia statiche che dinamiche. In entrambi i casi, gli esperimenti hanno valutato l'impatto delle diverse configurazioni di compressione sull'accuratezza della classificazione e sui requisiti d'archiviazione. I risultati ottenuti evidenziano il successo nel preservare l'accuratezza dei dati e nell'ottimizzare l'archiviazione dei dati in sistemi IoT. La tesi dimostra che i metodi di compressione con perdita possono svolgere un ruolo significativo nella conservazione di dati destinati all'utilizzo forense e che possono essere impiegati in metodi di rilevamento delle attività umane.
Compressing wi-fi channel state information for optimized human sensing
CERUTTI, PAOLO
2024/2025
Abstract
The rapid proliferation of IoT devices has created a massive flood of data that these systems are not designed to manage. With limited storage and processing capabilities, many IoT devices struggle to keep up with the high-dimensional data they generate, especially in applications that require long-term data preservation, such as digital forensics and real-time human activity recognition. This thesis addresses these critical challenges by investigating lossy compression techniques for Channel State Information (CSI) data to balance the need for reduced storage requirements with the preservation of essential evidentiary and analytical details. The research investigates several methods for dimensionality reduction and quantization. Conventional methods include Principal Component Analysis (PCA), Scalar Quantization (SQ), and Vector Quantization (VQ), which are evaluated both individually and in combination to determine the optimal balance between storage efficiency and classification performance. In addition, advanced deep learning techniques using Variational Autoencoders (VAE) are explored to automatically extract latent representations for later quantization. Huffman coding is applied as a lossless compression step to further increase storage reduction. Experiments have been performed in two real-world scenarios. In the Presence Detection scenario—a binary classification task—the system captured CSI data to detect the presence of a person in the environment. In the Activity Recognition scenario—a multi-class problem—CSI data was collected to detect a range of static and dynamic human actions. In both cases, in-depth experiments evaluated the impact of different compression configurations on classification accuracy and storage requirements. The results highlight the success in preserving data fidelity for legal evidence and optimizing storage in resource-constrained IoT environments. This work demonstrates that lossy compression methods can effectively support long-term forensic data preservation and human activity recognition.File | Dimensione | Formato | |
---|---|---|---|
2025_04_Cerutti_Tesi.pdf
accessibile in internet per tutti
Descrizione: Tesi
Dimensione
13.88 MB
Formato
Adobe PDF
|
13.88 MB | Adobe PDF | Visualizza/Apri |
2025_04_Cerutti_Executive_Summary.pdf
accessibile in internet per tutti
Descrizione: Executive Summary
Dimensione
637.94 kB
Formato
Adobe PDF
|
637.94 kB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/234431