Respiratory monitoring is crucial in healthcare, but traditional contact-based methods are intrusive and impractical for long-term use. Non-contact approaches, especially camera-based techniques, provide a promising alternative. However, conventional RGB-based systems raise concerns regarding data complexity and privacy. By contrast, depth-sensing cameras safeguard privacy and simplify data handling, while remaining robust to variations in lighting. Nonethess, challenges such as subtle respiratory motion, occlusions, and noise still limit the effectiveness of depth-based respiration monitoring. To address these limitations, this research introduces a deep learning framework designed to extract breathing signals and predict respiratory rates solely from depth frames. The proposed architecture combines a Convolutional Neural Network (CNN) for spatial feature extraction with a Long Short-Term Memory (LSTM) network to model temporal dynamics. A novel frequency-domain loss function guides the training process, promoting accurate estimation of the dominant respiratory frequencies. The model was trained and evaluated on the publicly available Breathing In-Depth dataset, which encompasses a wide range of breathing rates, postures, and subject–camera distances. Experimental results show that the frequency-optimized model significantly outperforms time-domain training, achieving superior respiratory rate accuracy while remaining resilient against noise and occlusions. In addition, a CBAM-enhanced full-frame variant was introduced, which achieved performance close to the ROI-based model despite processing directly full frames that include background and noise. Final evaluations against state-of-the-art respiration extraction methods confirmed that both proposed models consistently outperform all baselines. In particular, the ROI-based model reached an accuracy of 0.899 ± 0.181, a mean frequency error of 0.018 ± 0.018 Hz, and an SNR of 24.6 ± 9.1 dB on normal frames, corresponding to improvements of about 4 percentage points in accuracy, a 33% reduction in error, and an 8.5 dB gain in SNR over the best state-of-the-art method. The CBAM model followed closely, delivering comparable accuracy and error on normal frames while providing a valuable end-to-end alternative without explicit ROI detection.

Il monitoraggio respiratorio è cruciale in ambito sanitario, ma i metodi tradizionali a contatto risultano invasivi e poco adatti all’uso prolungato. Gli approcci non a contatto, in particolare le tecniche basate su telecamere, offrono un’alternativa promettente. Tuttavia, i sistemi RGB sollevano preoccupazioni per la complessità dei dati e la privacy. Al contrario, le telecamere di profondità tutelano la privacy e semplificano la gestione, mantenendo robustezza rispetto alle variazioni di illuminazione. Ciononostante, sfide come movimenti respiratori sottili, occlusioni e rumore limitano l’efficacia del monitoraggio basato sulla profondità. Per affrontare tali limiti, questa ricerca introduce un framework di deep learning per estrarre segnali respiratori e stimare le frequenze unicamente da frame di profondità. L’architettura proposta combina una Convolutional Neural Net- work (CNN) per l’estrazione spaziale con una Long Short-Term Memory (LSTM) per le dinamiche temporali. Una nuova funzione di loss nel dominio delle frequenze guida l’addestramento, favorendo una stima accurata delle frequenze respiratorie dominanti. Il modello è stato addestrato e valutato sul dataset pubblico Breathing In-Depth, che comprende diverse frequenze respiratorie, posture e distanze soggetto–camera. I risultati mostrano che l’ottimizzazione in frequenza supera l’addestramento nel dominio temporale, ottenendo maggiore accuratezza e resilienza a rumore e occlusioni. È stata inoltre introdotta una variante full-frame con CBAM, che ha raggiunto prestazioni vicine al modello basato su ROI pur elaborando frame completi con sfondo e rumore. Le valutazioni finali rispetto ai metodi dello stato dell’arte hanno confermato che entrambi i modelli superano le baseline. In particolare, il modello ROI ha ottenuto 0.899 ± 0.181 di accuratezza, un errore medio di 0.018 ± 0.018 Hz e un SNR di 24.6 ± 9.1 dB, corrispondenti a un miglioramento di circa 4 punti percentuali, una riduzione dell’errore del 33% e un guadagno di 8.5 dB in SNR rispetto al miglior metodo dello stato dell’arte. Il modello con CBAM ha seguito da vicino, fornendo accuratezza ed errore comparabili su frame normali e offrendo un’alternativa end-to-end senza rilevamento esplicito della ROI.

A frequency loss driven framework for respiration monitoring using depth-sensing cameras

Santambrogio, Francesco
2024/2025

Abstract

Respiratory monitoring is crucial in healthcare, but traditional contact-based methods are intrusive and impractical for long-term use. Non-contact approaches, especially camera-based techniques, provide a promising alternative. However, conventional RGB-based systems raise concerns regarding data complexity and privacy. By contrast, depth-sensing cameras safeguard privacy and simplify data handling, while remaining robust to variations in lighting. Nonethess, challenges such as subtle respiratory motion, occlusions, and noise still limit the effectiveness of depth-based respiration monitoring. To address these limitations, this research introduces a deep learning framework designed to extract breathing signals and predict respiratory rates solely from depth frames. The proposed architecture combines a Convolutional Neural Network (CNN) for spatial feature extraction with a Long Short-Term Memory (LSTM) network to model temporal dynamics. A novel frequency-domain loss function guides the training process, promoting accurate estimation of the dominant respiratory frequencies. The model was trained and evaluated on the publicly available Breathing In-Depth dataset, which encompasses a wide range of breathing rates, postures, and subject–camera distances. Experimental results show that the frequency-optimized model significantly outperforms time-domain training, achieving superior respiratory rate accuracy while remaining resilient against noise and occlusions. In addition, a CBAM-enhanced full-frame variant was introduced, which achieved performance close to the ROI-based model despite processing directly full frames that include background and noise. Final evaluations against state-of-the-art respiration extraction methods confirmed that both proposed models consistently outperform all baselines. In particular, the ROI-based model reached an accuracy of 0.899 ± 0.181, a mean frequency error of 0.018 ± 0.018 Hz, and an SNR of 24.6 ± 9.1 dB on normal frames, corresponding to improvements of about 4 percentage points in accuracy, a 33% reduction in error, and an 8.5 dB gain in SNR over the best state-of-the-art method. The CBAM model followed closely, delivering comparable accuracy and error on normal frames while providing a valuable end-to-end alternative without explicit ROI detection.
ING - Scuola di Ingegneria Industriale e dell'Informazione
23-ott-2025
2024/2025
Il monitoraggio respiratorio è cruciale in ambito sanitario, ma i metodi tradizionali a contatto risultano invasivi e poco adatti all’uso prolungato. Gli approcci non a contatto, in particolare le tecniche basate su telecamere, offrono un’alternativa promettente. Tuttavia, i sistemi RGB sollevano preoccupazioni per la complessità dei dati e la privacy. Al contrario, le telecamere di profondità tutelano la privacy e semplificano la gestione, mantenendo robustezza rispetto alle variazioni di illuminazione. Ciononostante, sfide come movimenti respiratori sottili, occlusioni e rumore limitano l’efficacia del monitoraggio basato sulla profondità. Per affrontare tali limiti, questa ricerca introduce un framework di deep learning per estrarre segnali respiratori e stimare le frequenze unicamente da frame di profondità. L’architettura proposta combina una Convolutional Neural Net- work (CNN) per l’estrazione spaziale con una Long Short-Term Memory (LSTM) per le dinamiche temporali. Una nuova funzione di loss nel dominio delle frequenze guida l’addestramento, favorendo una stima accurata delle frequenze respiratorie dominanti. Il modello è stato addestrato e valutato sul dataset pubblico Breathing In-Depth, che comprende diverse frequenze respiratorie, posture e distanze soggetto–camera. I risultati mostrano che l’ottimizzazione in frequenza supera l’addestramento nel dominio temporale, ottenendo maggiore accuratezza e resilienza a rumore e occlusioni. È stata inoltre introdotta una variante full-frame con CBAM, che ha raggiunto prestazioni vicine al modello basato su ROI pur elaborando frame completi con sfondo e rumore. Le valutazioni finali rispetto ai metodi dello stato dell’arte hanno confermato che entrambi i modelli superano le baseline. In particolare, il modello ROI ha ottenuto 0.899 ± 0.181 di accuratezza, un errore medio di 0.018 ± 0.018 Hz e un SNR di 24.6 ± 9.1 dB, corrispondenti a un miglioramento di circa 4 punti percentuali, una riduzione dell’errore del 33% e un guadagno di 8.5 dB in SNR rispetto al miglior metodo dello stato dell’arte. Il modello con CBAM ha seguito da vicino, fornendo accuratezza ed errore comparabili su frame normali e offrendo un’alternativa end-to-end senza rilevamento esplicito della ROI.
File allegati
File Dimensione Formato  
2025_10_Santambrogio_Tesi.pdf

accessibile in internet per tutti

Descrizione: Testo tesi
Dimensione 2.06 MB
Formato Adobe PDF
2.06 MB Adobe PDF Visualizza/Apri
2025_10_Santambrogio_Executive Summary.pdf

accessibile in internet per tutti

Descrizione: Testo executive summary
Dimensione 3.05 MB
Formato Adobe PDF
3.05 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/243977