Human Activity Recognition (HAR) is a fundamental problem in several application domains dealing with data collected with wearable sensors, like accelerometers and gyroscopes, for monitoring in healthcare, sport analysis etc. Manual labelling of such large volumes of data to train supervised classification models is time consuming, expensive and imprecise. Time Series Segmentation algorithms can be employed to ease the manual annotation. These methods receive as input time series collected from a process changing its behaviour, namely its statistical properties and patters characterizing the temporal correlation, at precise time instants, called change points. The segmentation tasks consists in estimating the change points and it is categorized as online when it is performed while the datastream is acquired. Segmenting HAR data is very challenging, since the notation of "uniform behaviour" is rather general and we need to identify both changes affecting the statistical properties of the datastream (mean, variance, etc.) or the patterns characterizing the temporal dependence. In this thesis we develop a novel online time series segmentation algorithm specifically designed for multidimensional HAR datastreams. We combine two approaches suited to identify changes of different natures to enlarge the family of detectable change points. The main features of the algorithm are: (i) be domain agnostic, being able to detect a large variety of change points; (ii) require setting of few parameters, part of which can be automatically learned; (iii) provide actionable real-time information, i.e. capable of working with online data. By evaluating numerical experiments on public datasets, we show that our algorithm improves performance with respect to the baseline methods and other recently developed solutions, especially in challenging scenarios where the time series are characterized by high number of components, low sampling rates and non negligible transitory phases. This thesis is part of a joint research project between Politecnico di Milano and STMicroelectronics.
Il Riconoscimento di Attività Umane è un problema fondamentale in diversi contesti applicativi che impiegano dati raccolti da sensori indossabili, come accelerometri e giroscopi. L’etichettatura manuale di grandi moli di dati per allenare modelli di classificazione supervisionata è onerosa, imprecisa e richiede molto tempo. Gli algoritmi di Segmentazione di Serie Temporali possono essere impiegati per agevolare l’annotazione manuale. Questi metodi ricevono in ingresso serie temporali che cambiano comportamento, ovverosia che cambiano le loro proprietà statistiche e pattern caratterizzanti la correlazione temporale, a precisi istanti temporali, detti punti di cambio. La segmentazione consiste nello stimare i punti di cambio ed è detta online quando è attuata mentre viene acquisito il flusso dei dati. La segmentazione di dati di attività umane è molto sfidante siccome la nozione di "comportamento uniforme" è vaga ed è necessario infatti identificare cambi che alterano sia le proprietà statistiche dei dati (media, varianza, ecc.), sia i pattern che caratterizzano la dipendenza temporale. In questa tesi sviluppiamo un nuovo algoritmo di segmentazione online di serie temporali specifico per i dati di attività umane, combinando due approcci adatti ad individuare punti di cambio di diversa natura con lo scopo di allargare la famiglia dei cambi identificabili. Le principali caratteristiche dell’algoritmo sono: (i) è agnostico rispetto al contesto, ovverosia è capace di identificare una grande varietà di punti di cambio; (ii) necessita di impostare pochi parametri, parte dei quali può essere appresa in maniera automatica; (iii) fornisce informazioni in tempo reale, ovverosia è in grado di lavorare con dati online. Con esperimenti numerici su dataset pubblici mostriamo come il nostro algoritmo abbia migliori prestazioni rispetto ai metodi di partenza su cui è stato sviluppato e rispetto ad altre soluzioni recentemente proposte, specialmente in scenari sfidanti in cui le serie temporali sono caratterizzate da un numero elevato di componenti, hanno basse frequenze di campionamento e fasi transitorie non trascurabili. Questa tesi è parte di un progetto congiunto di ricerca tra Politecnico di Milano ed STMicroelectronics.
Online segmentation of human activity time series
GHIGLIONE, CARLO
2021/2022
Abstract
Human Activity Recognition (HAR) is a fundamental problem in several application domains dealing with data collected with wearable sensors, like accelerometers and gyroscopes, for monitoring in healthcare, sport analysis etc. Manual labelling of such large volumes of data to train supervised classification models is time consuming, expensive and imprecise. Time Series Segmentation algorithms can be employed to ease the manual annotation. These methods receive as input time series collected from a process changing its behaviour, namely its statistical properties and patters characterizing the temporal correlation, at precise time instants, called change points. The segmentation tasks consists in estimating the change points and it is categorized as online when it is performed while the datastream is acquired. Segmenting HAR data is very challenging, since the notation of "uniform behaviour" is rather general and we need to identify both changes affecting the statistical properties of the datastream (mean, variance, etc.) or the patterns characterizing the temporal dependence. In this thesis we develop a novel online time series segmentation algorithm specifically designed for multidimensional HAR datastreams. We combine two approaches suited to identify changes of different natures to enlarge the family of detectable change points. The main features of the algorithm are: (i) be domain agnostic, being able to detect a large variety of change points; (ii) require setting of few parameters, part of which can be automatically learned; (iii) provide actionable real-time information, i.e. capable of working with online data. By evaluating numerical experiments on public datasets, we show that our algorithm improves performance with respect to the baseline methods and other recently developed solutions, especially in challenging scenarios where the time series are characterized by high number of components, low sampling rates and non negligible transitory phases. This thesis is part of a joint research project between Politecnico di Milano and STMicroelectronics.| File | Dimensione | Formato | |
|---|---|---|---|
|
CARLO_GHIGLIONE_TESI.pdf
non accessibile
Descrizione: Tesi
Dimensione
2.71 MB
Formato
Adobe PDF
|
2.71 MB | Adobe PDF | Visualizza/Apri |
|
CARLO_GHIGLIONE_EXECUTIVE_SUMMARY.pdf
non accessibile
Descrizione: Executive Summary
Dimensione
1.49 MB
Formato
Adobe PDF
|
1.49 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/198885