Remote photoplethysmography (rPPG) offers a truly non‐contact tool for heart rate (HR) monitoring through ordinary video cameras. Its applications spans from telemedicine to emotion analysis, to anti-spoofing, yet the faint pulsatile signal is easily swamped by motion artefacts, lighting changes, and occlusions. Deep learning solutions improve robustness but remain opaque and data‐hungry. To address these challenges, this thesis introduces a fully unsupervised, explainable pipeline that dispenses with annotated training data. After robust face and skin segmentation via MediaPipe and a binary skin model, we generate overlapping regions of interest (ROIs) by applying the LPA–ICI region‐growing algorithm around multiple dynamic facial landmarks. These deformable ROIs adapt to head motion and expression without manual tuning. From each ROI we extract raw RGB signals, apply band‐pass Chebyshev filtering, and align the signals in time via cross‐correlation, discarding those with excessive delay. Each ROI’s heartbeat candidate is then obtained in the frequency domain via a Z‐chirp transform. Finally, we fuse all candidates through iteratively reweighted least squares (IRLS), using the Reliability Index derived from the local spectral energy concentration to weight each contribution. Extensive experiments on consumer‐grade videos demonstrate state‐of‐the‐art HR estimation accuracy under realistic motion, illumination changes, and occlusions, while preserving full transparency and reproducibility of each algorithmic step. This unsupervised, multi‐ROI framework bridges the gap between interpretability and robustness in rPPG systems.

La fotopletismografia remota (rPPG) offre uno strumento veramente non a contatto per il monitoraggio della frequenza cardiaca (HR) tramite normali videocamere. Le sue applicazioni spaziano dalla telemedicina all’analisi delle emozioni fino al rilevamento di tentativi di contraffazione del volto, tuttavia il debole segnale pulsatile viene facilmente sommerso da artefatti di movimento, variazioni di illuminazione e occlusioni. Le soluzioni basate su deep learning migliorano la robustezza, ma rimangono opache e richiedono grandi quantità di dati etichettati. Per affrontare queste sfide, questa tesi introduce una pipeline completamente non supervisionata e spiegabile che non necessita di dati annotati. Dopo un’accurata segmentazione di volto e pelle mediante MediaPipe e un modello binario di pelle, generiamo regioni d’interesse sovrapposte (ROI) applicando l’algoritmo di region‐growing LPA–ICI attorno a molteplici landmark facciali dinamici. Queste ROI deformabili si adattano automaticamente ai movimenti della testa e alle espressioni senza alcuna taratura manuale. Da ciascuna ROI estraiamo segnali RGB grezzi, applichiamo un filtro passa‐banda di Chebyshev e allineiamo temporalmente i segnali tramite cross‐correlation, scartando quelli con ritardi eccessivi. Il candidato battito per ogni ROI viene quindi ricavato in frequenza mediante trasformata Z-chirp. Infine, fondiamo tutti i candidati tramite uno schema IRLS (Iteratively Reweighted Least Squares), ponderando ogni contributo con un Reliability Index calcolato dalla concentrazione di energia spettrale locale. Estesi esperimenti su video consumer‐grade dimostrano un’accuratezza di stima dell’HR allo stato dell’arte in condizioni realistiche di movimento, variazioni di illuminazione e occlusioni, preservando al contempo completa trasparenza e riproducibilità di ogni passaggio algoritmico. Questo framework non supervisionato e multi‐ROI colma il divario tra interpretabilità e robustezza nei sistemi rPPG.

Heart Rate estimation from videos: a robust approach for rPPG signals analysis

Giardi, Caterina
2024/2025

Abstract

Remote photoplethysmography (rPPG) offers a truly non‐contact tool for heart rate (HR) monitoring through ordinary video cameras. Its applications spans from telemedicine to emotion analysis, to anti-spoofing, yet the faint pulsatile signal is easily swamped by motion artefacts, lighting changes, and occlusions. Deep learning solutions improve robustness but remain opaque and data‐hungry. To address these challenges, this thesis introduces a fully unsupervised, explainable pipeline that dispenses with annotated training data. After robust face and skin segmentation via MediaPipe and a binary skin model, we generate overlapping regions of interest (ROIs) by applying the LPA–ICI region‐growing algorithm around multiple dynamic facial landmarks. These deformable ROIs adapt to head motion and expression without manual tuning. From each ROI we extract raw RGB signals, apply band‐pass Chebyshev filtering, and align the signals in time via cross‐correlation, discarding those with excessive delay. Each ROI’s heartbeat candidate is then obtained in the frequency domain via a Z‐chirp transform. Finally, we fuse all candidates through iteratively reweighted least squares (IRLS), using the Reliability Index derived from the local spectral energy concentration to weight each contribution. Extensive experiments on consumer‐grade videos demonstrate state‐of‐the‐art HR estimation accuracy under realistic motion, illumination changes, and occlusions, while preserving full transparency and reproducibility of each algorithmic step. This unsupervised, multi‐ROI framework bridges the gap between interpretability and robustness in rPPG systems.
NOGARA NOTARIANNI, MICHELANGELO OLMO
ING - Scuola di Ingegneria Industriale e dell'Informazione
22-lug-2025
2024/2025
La fotopletismografia remota (rPPG) offre uno strumento veramente non a contatto per il monitoraggio della frequenza cardiaca (HR) tramite normali videocamere. Le sue applicazioni spaziano dalla telemedicina all’analisi delle emozioni fino al rilevamento di tentativi di contraffazione del volto, tuttavia il debole segnale pulsatile viene facilmente sommerso da artefatti di movimento, variazioni di illuminazione e occlusioni. Le soluzioni basate su deep learning migliorano la robustezza, ma rimangono opache e richiedono grandi quantità di dati etichettati. Per affrontare queste sfide, questa tesi introduce una pipeline completamente non supervisionata e spiegabile che non necessita di dati annotati. Dopo un’accurata segmentazione di volto e pelle mediante MediaPipe e un modello binario di pelle, generiamo regioni d’interesse sovrapposte (ROI) applicando l’algoritmo di region‐growing LPA–ICI attorno a molteplici landmark facciali dinamici. Queste ROI deformabili si adattano automaticamente ai movimenti della testa e alle espressioni senza alcuna taratura manuale. Da ciascuna ROI estraiamo segnali RGB grezzi, applichiamo un filtro passa‐banda di Chebyshev e allineiamo temporalmente i segnali tramite cross‐correlation, scartando quelli con ritardi eccessivi. Il candidato battito per ogni ROI viene quindi ricavato in frequenza mediante trasformata Z-chirp. Infine, fondiamo tutti i candidati tramite uno schema IRLS (Iteratively Reweighted Least Squares), ponderando ogni contributo con un Reliability Index calcolato dalla concentrazione di energia spettrale locale. Estesi esperimenti su video consumer‐grade dimostrano un’accuratezza di stima dell’HR allo stato dell’arte in condizioni realistiche di movimento, variazioni di illuminazione e occlusioni, preservando al contempo completa trasparenza e riproducibilità di ogni passaggio algoritmico. Questo framework non supervisionato e multi‐ROI colma il divario tra interpretabilità e robustezza nei sistemi rPPG.
File allegati
File Dimensione Formato  
2025_07_Giardi_Executive_Summary_02.pdf

accessibile in internet per tutti a partire dal 02/07/2026

Descrizione: Executive Summary
Dimensione 2.98 MB
Formato Adobe PDF
2.98 MB Adobe PDF   Visualizza/Apri
2025_07_Giardi_Tesi_01.pdf

accessibile in internet per tutti a partire dal 02/07/2026

Descrizione: Thesis
Dimensione 8.75 MB
Formato Adobe PDF
8.75 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/241005