Time-series clustering has effectively provided useful information in different application domains. There is an increased interest in time-series clustering as part of the effort in temporal data mining research. Clustering-as-a-service is an innovative and promising research area aiming at designing Cloud-based platforms and systems able to provide users an automatic tool to perform with high efficiency and quality time-series clustering in an "as-a-service" manner. This thesis introduces TIMEX-CLUSTERING, an open-source Python-based framework for time-series clustering-as-a-service. Differently from the tools and libraries present in the literature, which provide excellent results but based on non-automatic approaches, TIMEX-CLUSTERING provides, in an "as-a-service" manner, a fully automatic end-to-end clustering pipeline comprising data ingestion, data preprocessing, data description, data clustering and service delivery. In addition, w.r.t. the literature where only one clustering approach is chosen based on the subject data, TIMEX-CLUSTERING allows to use three different clustering approaches with a fully automatic pipeline, therefore the user can cover datasets with different nature and compare clusters obtained through different approaches. Finally, several experiments are performed and TIMEX-CLUSTERING is successfully applied to the analysis and clustering of the COVID-19 pandemic around the world.

Il clustering di serie temporali ha effettivamente fornito informazioni utili in diversi domini applicativi. C'è un crescente interesse per il raggruppamento di serie temporali come parte dello sforzo nella ricerca di data mining temporale. Clustering-as-a-service è un'area di ricerca innovativa e promettente che mira a progettare piattaforme e sistemi basati su cloud in grado di fornire agli utenti uno strumento automatico per eseguire con alta efficienza e qualità il clustering di serie temporali in modalità "as-a-service". Questa tesi introduce TIMEX-CLUSTERING, un framework open source basato su Python per il clustering-as-a-service di serie temporali. A differenza degli strumenti e delle librerie presenti in letteratura, che forniscono ottimi risultati ma basati su approcci non automatici, TIMEX-CLUSTERING fornisce, in modalità "as-a-service", una pipeline di clustering end-to-end completamente automatica comprendente acquisizione dei dati, pre-elaborazione dei dati, descrizione dei dati, clustering dei dati e fornitura di servizi. Inoltre, rispetto alla letteratura in cui viene scelto un solo approccio di clustering in base ai dati del soggetto, TIMEX-CLUSTERING consente di utilizzare tre diversi approcci di clustering con una pipeline completamente automatica, quindi l'utente può coprire set di dati di diversa natura e confrontare i cluster ottenuti attraverso approcci differenti. Infine, vengono eseguiti diversi esperimenti e TIMEX-CLUSTERING viene applicato con successo all'analisi e al raggruppamento della pandemia di COVID-19 in tutto il mondo.

A framework for time-series clustering-as-a-aservice.

GUADARRAMA RAMIREZ, URIEL
2021/2022

Abstract

Time-series clustering has effectively provided useful information in different application domains. There is an increased interest in time-series clustering as part of the effort in temporal data mining research. Clustering-as-a-service is an innovative and promising research area aiming at designing Cloud-based platforms and systems able to provide users an automatic tool to perform with high efficiency and quality time-series clustering in an "as-a-service" manner. This thesis introduces TIMEX-CLUSTERING, an open-source Python-based framework for time-series clustering-as-a-service. Differently from the tools and libraries present in the literature, which provide excellent results but based on non-automatic approaches, TIMEX-CLUSTERING provides, in an "as-a-service" manner, a fully automatic end-to-end clustering pipeline comprising data ingestion, data preprocessing, data description, data clustering and service delivery. In addition, w.r.t. the literature where only one clustering approach is chosen based on the subject data, TIMEX-CLUSTERING allows to use three different clustering approaches with a fully automatic pipeline, therefore the user can cover datasets with different nature and compare clusters obtained through different approaches. Finally, several experiments are performed and TIMEX-CLUSTERING is successfully applied to the analysis and clustering of the COVID-19 pandemic around the world.
ING - Scuola di Ingegneria Industriale e dell'Informazione
28-apr-2022
2021/2022
Il clustering di serie temporali ha effettivamente fornito informazioni utili in diversi domini applicativi. C'è un crescente interesse per il raggruppamento di serie temporali come parte dello sforzo nella ricerca di data mining temporale. Clustering-as-a-service è un'area di ricerca innovativa e promettente che mira a progettare piattaforme e sistemi basati su cloud in grado di fornire agli utenti uno strumento automatico per eseguire con alta efficienza e qualità il clustering di serie temporali in modalità "as-a-service". Questa tesi introduce TIMEX-CLUSTERING, un framework open source basato su Python per il clustering-as-a-service di serie temporali. A differenza degli strumenti e delle librerie presenti in letteratura, che forniscono ottimi risultati ma basati su approcci non automatici, TIMEX-CLUSTERING fornisce, in modalità "as-a-service", una pipeline di clustering end-to-end completamente automatica comprendente acquisizione dei dati, pre-elaborazione dei dati, descrizione dei dati, clustering dei dati e fornitura di servizi. Inoltre, rispetto alla letteratura in cui viene scelto un solo approccio di clustering in base ai dati del soggetto, TIMEX-CLUSTERING consente di utilizzare tre diversi approcci di clustering con una pipeline completamente automatica, quindi l'utente può coprire set di dati di diversa natura e confrontare i cluster ottenuti attraverso approcci differenti. Infine, vengono eseguiti diversi esperimenti e TIMEX-CLUSTERING viene applicato con successo all'analisi e al raggruppamento della pandemia di COVID-19 in tutto il mondo.
File allegati
File Dimensione Formato  
Thesis-Uriel_Guadarrama_Ramirez.pdf

accessibile in internet per tutti

Descrizione: A Framework for Time-Series Clustering-as-a-service
Dimensione 3.17 MB
Formato Adobe PDF
3.17 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/185817