This thesis focuses on functional data analysis (FDA), specifically on the problem of functional motif discovery. The aim is to improve both the computational efficiency and the practical applicability of two recent algorithms for motif discovery in curves: ProbKMA [3] and FunBIalign [5]. While these algorithms had been previously implemented in R, their computational inefficiency made them impractical for real-world applications involving large datasets. To address this shortcoming and combine both methods in a unified framework, we develop a new R package named funMoDisco. Computational efficiency is gained from a full C++ backend implementation, while a unified and simplified input/output interface improves the code usability. The package also extends ProbKMA’s functionality to allow discovering functional motifs within a single curve. This extension greatly enlarge the applicability of the algorithm making possible, for example, the discovery of repeated patterns in a single time series. Additionally, funMoDisco provides a flexible synthetic data generation function to simulate curves with embedded motifs, allowing for a controlled environment in which to test and validate functional motif discovery algorithms. This feature enables us to perform comprehensive evaluations under various conditions, thus increasing the robustness of the algorithms in practical applications. The source code for the project is publicly available at https://github.com/NiccoloF/motifDiscovery and the package is available on CRAN. Instructions for installing the package and guidelines for running the examples are detailed at the end of this thesis and within the package vignette.
Questa tesi si concentra sull’analisi dei dati funzionali (FDA), in particolare sul problema della scoperta di motivi funzionali. L’obiettivo è migliorare sia l’efficienza computazionale sia l’applicabilità pratica di due recenti algoritmi per la scoperta di motivi nelle curve: ProbKMA [3] e FunBIalign [5]. Sebbene questi algoritmi siano stati precedentemente implementati in R, la loro inefficienza computazionale li ha resi poco pratici per le applicazioni reali che coinvolgono grandi insiemi di dati. Per ovviare a questa carenza e combinare entrambi i metodi in un quadro unificato, abbiamo sviluppato un nuovo pacchetto R denominato funMoDisco. L’efficienza computazionale è garantita da un’implementazione completa del backend in C++, mentre un’interfaccia di input/output unificata e semplificata migliora l’usabilità del codice. Il pacchetto estende inoltre le funzionalità di ProbKMA per consentire la scoperta di motivi funzionali all’interno di una singola curva. Questa estensione amplia notevolmente l’applicabilità dell’algoritmo, rendendo possibile, ad esempio, la scoperta di motivi ripetuti in una singola serie temporale. Inoltre, funMoDisco fornisce una funzione flessibile di generazione di dati sintetici per simulare curve con motivi incorporati, consentendo un ambiente controllato in cui testare e convalidare gli algoritmi di scoperta dei motivi funzionali. Questa funzione ci permette di eseguire valutazioni complete in varie condizioni, aumentando così la robustezza degli algoritmi nelle applicazioni pratiche. Il codice sorgente del progetto è disponibile pubblicamente all’indirizzo https://github.com/NiccoloF/motifDiscovery e il pacchetto è disponibile su CRAN. Le istruzioni per l’installazione del pacchetto e le linee guida per l’esecuzione degli esempi sono riportate alla fine di questa tesi e all’interno della vignetta del pacchetto.
FunMoDisco: a computationally efficient R package for functional motif discovery
Feresini, Niccolò
2023/2024
Abstract
This thesis focuses on functional data analysis (FDA), specifically on the problem of functional motif discovery. The aim is to improve both the computational efficiency and the practical applicability of two recent algorithms for motif discovery in curves: ProbKMA [3] and FunBIalign [5]. While these algorithms had been previously implemented in R, their computational inefficiency made them impractical for real-world applications involving large datasets. To address this shortcoming and combine both methods in a unified framework, we develop a new R package named funMoDisco. Computational efficiency is gained from a full C++ backend implementation, while a unified and simplified input/output interface improves the code usability. The package also extends ProbKMA’s functionality to allow discovering functional motifs within a single curve. This extension greatly enlarge the applicability of the algorithm making possible, for example, the discovery of repeated patterns in a single time series. Additionally, funMoDisco provides a flexible synthetic data generation function to simulate curves with embedded motifs, allowing for a controlled environment in which to test and validate functional motif discovery algorithms. This feature enables us to perform comprehensive evaluations under various conditions, thus increasing the robustness of the algorithms in practical applications. The source code for the project is publicly available at https://github.com/NiccoloF/motifDiscovery and the package is available on CRAN. Instructions for installing the package and guidelines for running the examples are detailed at the end of this thesis and within the package vignette.File | Dimensione | Formato | |
---|---|---|---|
2024_12_Feresini_Tesi.pdf
accessibile in internet per tutti
Descrizione: Elaborato Tesi
Dimensione
5.12 MB
Formato
Adobe PDF
|
5.12 MB | Adobe PDF | Visualizza/Apri |
2024_12_Feresini_executive summary.pdf
accessibile in internet per tutti
Descrizione: Executive Summary
Dimensione
758.49 kB
Formato
Adobe PDF
|
758.49 kB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/230955