Nowadays, machine learning is been used in a different ranges of domains, from finance to predictive maintenance, from image recognition to natural language processing. In particular, the rise of new techniques and new architectures have allowed neural network models to reach in many cases human-level performance in different tasks and domains. However, this boost in performance often comes with a lack of interpretability, which is crucial in some particular domains, such as the one of medicine. Many studies have therefore been conducted with a particular focus on improving interpretability of neural networks models. This thesis project aims to apply knowledge-distillation, a technique which has been successfully applied to some kind of neural networks, to a LSTM, in such a way to simplify the model and obtain a CART tree. The underlying hypothesis is that this kind of tree is more interpretable than the original LSTM, as well as more accurate with respect to a standard decision tree. The dataset that has been used is the Sleep Data dataset, with time series of different biological signals coming from different patients. In particular, the network has been trained to recognize sleep apnea episodes. The CART trained with the help of the LSTM is actually performing slightly better with respect to the baseline. However, both the LSTM and the CART are not able to reach state-of-the-art performance. Therefore, further researches and improvements are needed in order to obtain better and more meaningful results.

Al giorno d'oggi, il machine learning è usato in un ampio range di applicazioni, dalla finanza alla predictive maintenance, dal riconoscimento delle immagini al natural language processing. In particolare, l'avvento di nuovi modelli e tecniche ha permesso alle reti neurali di raggiungere in molti ambiti le stesse performance di un essere umano. Nonostante ciò, questo miglioramento delle performance ha spesso come risultato il peggioramento dell'interpretabilità del modello stesso, che è un aspetto fondamentale in alcuni particolari settori come quello medico. Molti studi si sono quindi concentrati nel migliorare l'aspetto interpretativo dei modelli, con un particolare focus sulle reti neurali. Lo scopo di questa tesi è quella di applicare la tecnica del knowledge-distillation alle LSTM, in modo da vedere se questo strumento, che ha avuto successo per altri tipi di neural network, possa essere applicato a questo particolare tipo di modello. L'idea è quella di semplificare le LSTM ed ottenere un albero, più facilmente interpretabile rispetto al modello originale e anche più performante rispetto ad un albero tradizionale. Il dataset che è stato usato per la ricerca è lo Sleep Data dataset, che contiene varie time series proveniente da vari pazienti. Nello specifico, la rete è stata allenata per riconoscere episodi di sleep apnea. Il risultato è che l'albero che risulta dalla rete neurale ha delle performance leggermente superiori rispetto ad un albero allenato per lo stesso task e che è stato usato come benchmark. Per questo, ulteriori ricerche sono necessarie per approfondire l'applicazione di questa tecnica alle LSTM.

Knowledge distillation : a new approach towards LSTM intepretability

BACCELLI, ALESSIO
2018/2019

Abstract

Nowadays, machine learning is been used in a different ranges of domains, from finance to predictive maintenance, from image recognition to natural language processing. In particular, the rise of new techniques and new architectures have allowed neural network models to reach in many cases human-level performance in different tasks and domains. However, this boost in performance often comes with a lack of interpretability, which is crucial in some particular domains, such as the one of medicine. Many studies have therefore been conducted with a particular focus on improving interpretability of neural networks models. This thesis project aims to apply knowledge-distillation, a technique which has been successfully applied to some kind of neural networks, to a LSTM, in such a way to simplify the model and obtain a CART tree. The underlying hypothesis is that this kind of tree is more interpretable than the original LSTM, as well as more accurate with respect to a standard decision tree. The dataset that has been used is the Sleep Data dataset, with time series of different biological signals coming from different patients. In particular, the network has been trained to recognize sleep apnea episodes. The CART trained with the help of the LSTM is actually performing slightly better with respect to the baseline. However, both the LSTM and the CART are not able to reach state-of-the-art performance. Therefore, further researches and improvements are needed in order to obtain better and more meaningful results.
ING - Scuola di Ingegneria Industriale e dell'Informazione
29-apr-2020
2018/2019
Al giorno d'oggi, il machine learning è usato in un ampio range di applicazioni, dalla finanza alla predictive maintenance, dal riconoscimento delle immagini al natural language processing. In particolare, l'avvento di nuovi modelli e tecniche ha permesso alle reti neurali di raggiungere in molti ambiti le stesse performance di un essere umano. Nonostante ciò, questo miglioramento delle performance ha spesso come risultato il peggioramento dell'interpretabilità del modello stesso, che è un aspetto fondamentale in alcuni particolari settori come quello medico. Molti studi si sono quindi concentrati nel migliorare l'aspetto interpretativo dei modelli, con un particolare focus sulle reti neurali. Lo scopo di questa tesi è quella di applicare la tecnica del knowledge-distillation alle LSTM, in modo da vedere se questo strumento, che ha avuto successo per altri tipi di neural network, possa essere applicato a questo particolare tipo di modello. L'idea è quella di semplificare le LSTM ed ottenere un albero, più facilmente interpretabile rispetto al modello originale e anche più performante rispetto ad un albero tradizionale. Il dataset che è stato usato per la ricerca è lo Sleep Data dataset, che contiene varie time series proveniente da vari pazienti. Nello specifico, la rete è stata allenata per riconoscere episodi di sleep apnea. Il risultato è che l'albero che risulta dalla rete neurale ha delle performance leggermente superiori rispetto ad un albero allenato per lo stesso task e che è stato usato come benchmark. Per questo, ulteriori ricerche sono necessarie per approfondire l'applicazione di questa tecnica alle LSTM.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
MasterThesis-Alessio_Baccelli.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Thesis text
Dimensione 1.74 MB
Formato Adobe PDF
1.74 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/164383