Nowadays, machine learning algorithms are widely employed in many application fields. They are mostly used as ''black boxes'': they achieve excellent results but the reasoning behind their decisions is often difficult to understand. In many applications, like healthcare, credit loans and fraud detection, it is necessary that algorithms and their results are humanly understandable. While most studies focus on the interpretation of the results of supervised learning algorithms such as random forests and artificial neural networks, in our work we focus on the explainability of clustering algorithms. A possible way to make a clustering explainable is to approximate the output of a standard clustering algorithm through a small decision tree. In this thesis, we present a novel explainable tree-based clustering algorithm: ELiCA (Explainable Likelihood Clustering Algorithm). The main idea is to leverage a probabilistic modeling of the input clusters to guide the growth of the decision tree by explicitly considering the likelihood of a point to belong to a given cluster. More specifically, we characterize each input cluster with a Gaussian distribution and exploit this information in the objective function of the tree. In addition, ELiCA can be used in conjunction with Gaussian Mixture Model when a clustering is not available and must be estimated from data. We show that ELiCA can substitute state-of-the-art explainable tree-based clustering algorithms which characterize each cluster with its center only. We demonstrate that, keeping the same level of explanability with respect to state-of-the-art algorithms, ELiCA obtains higher accuracy and finds a better approximation of the input clustering.

Al giorno d'oggi, gli algoritmi di machine learning sono largamente impiegati in molti campi applicativi. Sono per lo più utilizzati come ''scatole nere'': ottengono ottimi risultati ma la motivazione delle loro decisioni è spesso difficile da comprendere. In molti ambiti, come l'assistenza sanitaria, i prestiti bancari e il rilevamento delle frodi, è necessario che gli algoritmi e i loro risultati siano comprensibili dall'uomo. Mentre la maggior parte degli studi si concentra sull'interpretazione di algoritmi di apprendimento supervisionato come foreste casuali e reti neurali artificiali, nella nostra tesi ci concentriamo sulla spiegabilità degli algoritmi di clustering. Un modo semplice per rendere spiegabile un clustering è quello di approssimare l'output di un algoritmo di clustering standard attraverso un piccolo albero decisionale. In questa tesi, presentiamo un nuovo algoritmo per creare clustering spiegabili, basato su alberi decisionali, denominato ELiCA (Explainable Likelihood Clustering Algorithm). L'idea principale è quella di sfruttare una modellazione probabilistica dei cluster in input per guidare la crescita dell'albero decisionale, considerando esplicitamente la probabilità che un punto appartenga a un dato cluster. In particolare, caratterizziamo ogni cluster in input con una distribuzione Gaussiana e sfruttiamo questa informazione nella funzione obiettivo dell'albero. Inoltre, ELiCA può essere utilizzato in combinazione con l'algoritmo Gaussian Mixture Model quando non si ha un clustering e bisogna stimarlo dai dati. Mostriamo che ELiCA può sostituire gli algoritmi allo stato dell'arte che creano clustering spiegabili, basati su alberi decisionali e che caratterizzano ogni cluster solo con il suo centro. Dimostriamo che, mantenendo lo stesso livello di spiegabilità rispetto agli algoritmi allo stato dell'arte, ELiCA ottiene una maggiore accuratezza e trova una migliore approssimazione del clustering in input.

Improving explainable clustering via probabilistic modeling

Gioria, Lucia
2022/2023

Abstract

Nowadays, machine learning algorithms are widely employed in many application fields. They are mostly used as ''black boxes'': they achieve excellent results but the reasoning behind their decisions is often difficult to understand. In many applications, like healthcare, credit loans and fraud detection, it is necessary that algorithms and their results are humanly understandable. While most studies focus on the interpretation of the results of supervised learning algorithms such as random forests and artificial neural networks, in our work we focus on the explainability of clustering algorithms. A possible way to make a clustering explainable is to approximate the output of a standard clustering algorithm through a small decision tree. In this thesis, we present a novel explainable tree-based clustering algorithm: ELiCA (Explainable Likelihood Clustering Algorithm). The main idea is to leverage a probabilistic modeling of the input clusters to guide the growth of the decision tree by explicitly considering the likelihood of a point to belong to a given cluster. More specifically, we characterize each input cluster with a Gaussian distribution and exploit this information in the objective function of the tree. In addition, ELiCA can be used in conjunction with Gaussian Mixture Model when a clustering is not available and must be estimated from data. We show that ELiCA can substitute state-of-the-art explainable tree-based clustering algorithms which characterize each cluster with its center only. We demonstrate that, keeping the same level of explanability with respect to state-of-the-art algorithms, ELiCA obtains higher accuracy and finds a better approximation of the input clustering.
BORACCHI, GIACOMO
LEVENI, FILIPPO
ING - Scuola di Ingegneria Industriale e dell'Informazione
4-mag-2023
2022/2023
Al giorno d'oggi, gli algoritmi di machine learning sono largamente impiegati in molti campi applicativi. Sono per lo più utilizzati come ''scatole nere'': ottengono ottimi risultati ma la motivazione delle loro decisioni è spesso difficile da comprendere. In molti ambiti, come l'assistenza sanitaria, i prestiti bancari e il rilevamento delle frodi, è necessario che gli algoritmi e i loro risultati siano comprensibili dall'uomo. Mentre la maggior parte degli studi si concentra sull'interpretazione di algoritmi di apprendimento supervisionato come foreste casuali e reti neurali artificiali, nella nostra tesi ci concentriamo sulla spiegabilità degli algoritmi di clustering. Un modo semplice per rendere spiegabile un clustering è quello di approssimare l'output di un algoritmo di clustering standard attraverso un piccolo albero decisionale. In questa tesi, presentiamo un nuovo algoritmo per creare clustering spiegabili, basato su alberi decisionali, denominato ELiCA (Explainable Likelihood Clustering Algorithm). L'idea principale è quella di sfruttare una modellazione probabilistica dei cluster in input per guidare la crescita dell'albero decisionale, considerando esplicitamente la probabilità che un punto appartenga a un dato cluster. In particolare, caratterizziamo ogni cluster in input con una distribuzione Gaussiana e sfruttiamo questa informazione nella funzione obiettivo dell'albero. Inoltre, ELiCA può essere utilizzato in combinazione con l'algoritmo Gaussian Mixture Model quando non si ha un clustering e bisogna stimarlo dai dati. Mostriamo che ELiCA può sostituire gli algoritmi allo stato dell'arte che creano clustering spiegabili, basati su alberi decisionali e che caratterizzano ogni cluster solo con il suo centro. Dimostriamo che, mantenendo lo stesso livello di spiegabilità rispetto agli algoritmi allo stato dell'arte, ELiCA ottiene una maggiore accuratezza e trova una migliore approssimazione del clustering in input.
File allegati
File Dimensione Formato  
2023_05_Gioria.pdf

accessibile in internet per tutti

Descrizione: tesi
Dimensione 11.88 MB
Formato Adobe PDF
11.88 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/203612