Time series data are essential across various fields, such as finance, healthcare, engineering, and climate science. In many applications, analyzing time series data is crucial for making predictions, identifying risks, and guiding strategic decisions. In practice, working with time series often generates challenges such as data scarcity, incompleteness, or imbalance across different classes, which can limit the accuracy and effectiveness of analytical models. To address these issues, data augmentation becomes crucial. However, traditional generative methods, such as Generative Adversarial Networks (GANs), often struggle to capture complex temporal patterns like trends, seasonality, and abrupt changes, especially when data availability is limited or imbalanced. Another significant challenge in working with time series data is the presence of domain gap, i.e., a difference in data distributions, which is caused by variations between users, devices, environments, or even time periods. To address this problem, we propose a method for time series generation that maps data from one class to others within specific domains. We incorporate domain adaptation and style transfer mechanisms in our method by adapting the StarGAN v2 model to time series. Specifically, our approach involves generating data associated with less-frequent classes starting from data associated with frequent ones, preserving the domain-specific characteristics of the original time series. To evaluate the effectiveness of our approach, we develop comprehensive metrics–namely, Domain Score and Distance Score–that assess the quality and usefulness of the generated data. Extensive experiments on the RealWorld Human Activity Recognition (HAR) dataset and the Case Western Reserve University (CWRU) Bearing dataset demonstrate the effectiveness of our method in generating realistic, domain-specific time series data, providing a valuable solution for scenarios with imbalanced data availability and significant domain gaps.

Le serie temporali sono dati essenziali in diversi settori, come la finanza, la sanità, l'ingegneria e le scienze climatiche. In molte applicazioni, l'analisi delle serie temporali è cruciale per fare previsioni, identificare rischi e guidare decisioni strategiche. Nella pratica, lavorare con serie temporali comporta spesso sfide come la scarsità dei dati, l'incompletezza o lo squilibrio tra le diverse classi, che possono limitare l'accuratezza e l'efficacia dei modelli analitici. Per affrontare questi problemi, l'aumento dei dati diventa fondamentale. Tuttavia, i metodi generativi tradizionali, come le Reti Generative Avversarie (GAN), spesso faticano a catturare schemi temporali complessi come tendenze, stagionalità e cambiamenti bruschi, specialmente quando la disponibilità dei dati è limitata o sbilanciata. Un'altra sfida significativa nel lavorare con le serie temporali è la presenza di un divario di dominio, ovvero una differenza nelle distribuzioni dei dati, che può derivare da variazioni tra utenti, dispositivi, ambienti o persino periodi di tempo. Per affrontare questo problema, proponiamo un metodo per la generazione di serie temporali che mappa i dati da una classe ad altre all'interno di domini specifici. Nel nostro metodo includiamo meccanismi di adattamento del dominio e trasferimento di stile adattando il modello StarGAN v2 alle serie temporali. In particolare, il nostro approccio prevede la generazione di dati associati a classi meno frequenti a partire da dati associati a classi più frequenti, preservando le caratteristiche specifiche del dominio delle serie temporali originali. Per valutare l'efficacia del nostro approccio, sviluppiamo metriche complete–Domain Score e Distance Score–che valutano la qualità e l'utilità dei dati generati. Esperimenti approfonditi sui dataset RealWorld Human Activity Recognition (HAR) e Case Western Reserve University (CWRU) Bearing dimostrano l'efficacia del nostro metodo nella generazione di dati di serie temporali realistici e specifici del dominio, offrendo una soluzione preziosa in scenari con disponibilità di dati sbilanciata e significative differenze tra i domini.

Domain-specific time series generation via adversarial learning

CIRINO, PIETRO ANDREA
2023/2024

Abstract

Time series data are essential across various fields, such as finance, healthcare, engineering, and climate science. In many applications, analyzing time series data is crucial for making predictions, identifying risks, and guiding strategic decisions. In practice, working with time series often generates challenges such as data scarcity, incompleteness, or imbalance across different classes, which can limit the accuracy and effectiveness of analytical models. To address these issues, data augmentation becomes crucial. However, traditional generative methods, such as Generative Adversarial Networks (GANs), often struggle to capture complex temporal patterns like trends, seasonality, and abrupt changes, especially when data availability is limited or imbalanced. Another significant challenge in working with time series data is the presence of domain gap, i.e., a difference in data distributions, which is caused by variations between users, devices, environments, or even time periods. To address this problem, we propose a method for time series generation that maps data from one class to others within specific domains. We incorporate domain adaptation and style transfer mechanisms in our method by adapting the StarGAN v2 model to time series. Specifically, our approach involves generating data associated with less-frequent classes starting from data associated with frequent ones, preserving the domain-specific characteristics of the original time series. To evaluate the effectiveness of our approach, we develop comprehensive metrics–namely, Domain Score and Distance Score–that assess the quality and usefulness of the generated data. Extensive experiments on the RealWorld Human Activity Recognition (HAR) dataset and the Case Western Reserve University (CWRU) Bearing dataset demonstrate the effectiveness of our method in generating realistic, domain-specific time series data, providing a valuable solution for scenarios with imbalanced data availability and significant domain gaps.
CRAIGHERO, MICHELE
STUCCHI, DIEGO
ING - Scuola di Ingegneria Industriale e dell'Informazione
10-ott-2024
2023/2024
Le serie temporali sono dati essenziali in diversi settori, come la finanza, la sanità, l'ingegneria e le scienze climatiche. In molte applicazioni, l'analisi delle serie temporali è cruciale per fare previsioni, identificare rischi e guidare decisioni strategiche. Nella pratica, lavorare con serie temporali comporta spesso sfide come la scarsità dei dati, l'incompletezza o lo squilibrio tra le diverse classi, che possono limitare l'accuratezza e l'efficacia dei modelli analitici. Per affrontare questi problemi, l'aumento dei dati diventa fondamentale. Tuttavia, i metodi generativi tradizionali, come le Reti Generative Avversarie (GAN), spesso faticano a catturare schemi temporali complessi come tendenze, stagionalità e cambiamenti bruschi, specialmente quando la disponibilità dei dati è limitata o sbilanciata. Un'altra sfida significativa nel lavorare con le serie temporali è la presenza di un divario di dominio, ovvero una differenza nelle distribuzioni dei dati, che può derivare da variazioni tra utenti, dispositivi, ambienti o persino periodi di tempo. Per affrontare questo problema, proponiamo un metodo per la generazione di serie temporali che mappa i dati da una classe ad altre all'interno di domini specifici. Nel nostro metodo includiamo meccanismi di adattamento del dominio e trasferimento di stile adattando il modello StarGAN v2 alle serie temporali. In particolare, il nostro approccio prevede la generazione di dati associati a classi meno frequenti a partire da dati associati a classi più frequenti, preservando le caratteristiche specifiche del dominio delle serie temporali originali. Per valutare l'efficacia del nostro approccio, sviluppiamo metriche complete–Domain Score e Distance Score–che valutano la qualità e l'utilità dei dati generati. Esperimenti approfonditi sui dataset RealWorld Human Activity Recognition (HAR) e Case Western Reserve University (CWRU) Bearing dimostrano l'efficacia del nostro metodo nella generazione di dati di serie temporali realistici e specifici del dominio, offrendo una soluzione preziosa in scenari con disponibilità di dati sbilanciata e significative differenze tra i domini.
File allegati
File Dimensione Formato  
2024_10_Cirino_Tesi.pdf

non accessibile

Descrizione: Tesi completa
Dimensione 9.9 MB
Formato Adobe PDF
9.9 MB Adobe PDF   Visualizza/Apri
2024_10_Cirino_Executive Summary.pdf

non accessibile

Descrizione: Executive summary della tesi
Dimensione 4.15 MB
Formato Adobe PDF
4.15 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/227063