The cluster ensemble problem is an important problem in unsupervised learning that aims at aggregating multiple noisy partitions into a unique/better clustering solution. It can be formulated in terms of relabelling and voting, where relabelling refers to the task of finding optimal permutations that bring coherence among labels in input partitions. In this paper we propose a novel solution to the relabelling problem based on permutation synchronization. By effectively circumventing the need for a reference clustering, our method achieves superior performance than previous work under varying assumptions and scenarios, demonstrating its capability to handle diverse and complex datasets.

Il problema del cluster ensemble è un importante problema nel contesto dell'unsupervised learning che punta ad aggregare più partizioni rumorose in una unica/migliore soluzione di clustering . Può essere formulato in termini di relabeling e voting, dove il relabeling si riferisce al problema di trovare permutazioni ottimali che portino coerenza tra le label nelle partizioni in input. In questa tesi proponiamo una soluzione innovativa al problema del relabeling, basata sulla sincronizzazione di permutazioni. Aggirando effettivamente la necessità di un clustering di riferimento, il nostro metodo raggiunge prestazioni superiori rispetto a lavori preesistenti tenendo conto di diverse ipotesi e scenari, dimostrando la sua capacità di gestire dataset eterogenei e complessi.

Cluster Ensemble via Synchronized Relabeling

Alziati, Michele;AMARÙ, GIOVANNI
2022/2023

Abstract

The cluster ensemble problem is an important problem in unsupervised learning that aims at aggregating multiple noisy partitions into a unique/better clustering solution. It can be formulated in terms of relabelling and voting, where relabelling refers to the task of finding optimal permutations that bring coherence among labels in input partitions. In this paper we propose a novel solution to the relabelling problem based on permutation synchronization. By effectively circumventing the need for a reference clustering, our method achieves superior performance than previous work under varying assumptions and scenarios, demonstrating its capability to handle diverse and complex datasets.
MAGRI, LUCA
ING - Scuola di Ingegneria Industriale e dell'Informazione
5-ott-2023
2022/2023
Il problema del cluster ensemble è un importante problema nel contesto dell'unsupervised learning che punta ad aggregare più partizioni rumorose in una unica/migliore soluzione di clustering . Può essere formulato in termini di relabeling e voting, dove il relabeling si riferisce al problema di trovare permutazioni ottimali che portino coerenza tra le label nelle partizioni in input. In questa tesi proponiamo una soluzione innovativa al problema del relabeling, basata sulla sincronizzazione di permutazioni. Aggirando effettivamente la necessità di un clustering di riferimento, il nostro metodo raggiunge prestazioni superiori rispetto a lavori preesistenti tenendo conto di diverse ipotesi e scenari, dimostrando la sua capacità di gestire dataset eterogenei e complessi.
File allegati
File Dimensione Formato  
Tesi_AlziatiAmaru.pdf

accessibile in internet per tutti

Dimensione 7.93 MB
Formato Adobe PDF
7.93 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/210953