In today's digital age, the abundance of online resources presents users with countless options to fulfill their daily requirements. Navigating through these alternatives often involves weighing multiple, sometimes conflicting, factors. This complexity is further compounded in the realm of big data, where the task of identifying the most pertinent information within datasets is paramount across diverse domains such as database systems, data mining, and machine learning. Multi-criteria analysis (MCA) techniques serve as invaluable tools in decision-making scenarios, facilitating the identification of optimal alternatives amidst intricate trade-offs and competing objectives. This thesis delves into the parallel computation of the skyline, a fundamental concept in decision-making applications. The skyline operator identifies a set of alternatives that are not inferior to others across all relevant criteria, thereby aligning with the principles of multi-criteria analysis. Through a series of investigations, this research aims to enhance the efficiency of skyline computation algorithms in the context of multi-criteria decision-making scenarios. The objectives of the study encompass analyzing the performance of parallel skyline computation algorithms across various datasets, manipulating parameters such as cardinality and dimensionality, and exploring different partitioning strategies. Additionally, the research seeks to determine the optimal number of partitions for each algorithm and evaluate methodologies for enhancing their efficiency. Empirical validation using synthetic and real-world datasets is employed to validate the proposed approaches and identify potential avenues for further improvement. This research contributes to advancing the field of skyline computation within a parallel computing environment. The findings offer insights into the practical significance of the skyline operator in addressing real-world decision-making challenges, leveraging tools such as PySpark, thereby paving the way for future developments in this domain.

Nell'era digitale, l'abbondanza di risorse online presenta agli utenti innumerevoli opzioni per soddisfare le loro esigenze quotidiane. Navigare tra queste alternative spesso implica la ponderazione di molteplici fattori, a volte contrastanti. Questa complessità è ulteriormente aggravata nel campo dei big data, dove il compito di identificare le informazioni più pertinenti all'interno degli insiemi di dati è di primaria importanza in domini diversi come i database systems, il data mining e l'apprendimento automatico. Le tecniche di analisi multicriteriale (MCA) servono come strumenti preziosi negli scenari decisionali, facilitando l'identificazione di alternative ottimali tra intricati compromessi e obiettivi in competizione. Questa tesi approfondisce il calcolo parallelo dello skyline, un concetto fondamentale nelle applicazioni decision-making. L'operatore skyline identifica un insieme di alternative che non sono inferiori ad altre in tutti i criteri rilevanti, allineandosi così ai principi dell'analisi multicriteriale. Attraverso una serie di indagini, questa ricerca mira a migliorare l'efficienza degli algoritmi di calcolo dello skyline nel contesto di scenari decisionali multicriteriali. Gli obiettivi dello studio comprendono l'analisi delle prestazioni degli algoritmi di calcolo parallelo dello skyline su vari insiemi di dati, la manipolazione di parametri come la cardinalità e la dimensionalità e l'esplorazione di diverse strategie di partizione. Inoltre, la ricerca tenta di determinare il numero ottimale di partizioni per ciascun algoritmo e di valutare le metodologie per migliorarne l'efficienza. Per convalidare gli approcci proposti e identificare le potenziali strade per ulteriori miglioramenti, si ricorre alla convalida empirica utilizzando set di dati sintetici e reali. Questa ricerca contribuisce a far progredire il campo del calcolo degli skyline in un ambiente di calcolo parallelo. I risultati offrono spunti sull'importanza pratica dell'operatore skyline nell'affrontare le sfide decisionali del mondo reale, sfruttando strumenti come PySpark, aprendo così la strada a futuri sviluppi in questo campo.

Scalable solutions for skyline computation using pyspark: exploring parallel algorithms

Pindozzi, Alessandro
2022/2023

Abstract

In today's digital age, the abundance of online resources presents users with countless options to fulfill their daily requirements. Navigating through these alternatives often involves weighing multiple, sometimes conflicting, factors. This complexity is further compounded in the realm of big data, where the task of identifying the most pertinent information within datasets is paramount across diverse domains such as database systems, data mining, and machine learning. Multi-criteria analysis (MCA) techniques serve as invaluable tools in decision-making scenarios, facilitating the identification of optimal alternatives amidst intricate trade-offs and competing objectives. This thesis delves into the parallel computation of the skyline, a fundamental concept in decision-making applications. The skyline operator identifies a set of alternatives that are not inferior to others across all relevant criteria, thereby aligning with the principles of multi-criteria analysis. Through a series of investigations, this research aims to enhance the efficiency of skyline computation algorithms in the context of multi-criteria decision-making scenarios. The objectives of the study encompass analyzing the performance of parallel skyline computation algorithms across various datasets, manipulating parameters such as cardinality and dimensionality, and exploring different partitioning strategies. Additionally, the research seeks to determine the optimal number of partitions for each algorithm and evaluate methodologies for enhancing their efficiency. Empirical validation using synthetic and real-world datasets is employed to validate the proposed approaches and identify potential avenues for further improvement. This research contributes to advancing the field of skyline computation within a parallel computing environment. The findings offer insights into the practical significance of the skyline operator in addressing real-world decision-making challenges, leveraging tools such as PySpark, thereby paving the way for future developments in this domain.
ING - Scuola di Ingegneria Industriale e dell'Informazione
9-apr-2024
2022/2023
Nell'era digitale, l'abbondanza di risorse online presenta agli utenti innumerevoli opzioni per soddisfare le loro esigenze quotidiane. Navigare tra queste alternative spesso implica la ponderazione di molteplici fattori, a volte contrastanti. Questa complessità è ulteriormente aggravata nel campo dei big data, dove il compito di identificare le informazioni più pertinenti all'interno degli insiemi di dati è di primaria importanza in domini diversi come i database systems, il data mining e l'apprendimento automatico. Le tecniche di analisi multicriteriale (MCA) servono come strumenti preziosi negli scenari decisionali, facilitando l'identificazione di alternative ottimali tra intricati compromessi e obiettivi in competizione. Questa tesi approfondisce il calcolo parallelo dello skyline, un concetto fondamentale nelle applicazioni decision-making. L'operatore skyline identifica un insieme di alternative che non sono inferiori ad altre in tutti i criteri rilevanti, allineandosi così ai principi dell'analisi multicriteriale. Attraverso una serie di indagini, questa ricerca mira a migliorare l'efficienza degli algoritmi di calcolo dello skyline nel contesto di scenari decisionali multicriteriali. Gli obiettivi dello studio comprendono l'analisi delle prestazioni degli algoritmi di calcolo parallelo dello skyline su vari insiemi di dati, la manipolazione di parametri come la cardinalità e la dimensionalità e l'esplorazione di diverse strategie di partizione. Inoltre, la ricerca tenta di determinare il numero ottimale di partizioni per ciascun algoritmo e di valutare le metodologie per migliorarne l'efficienza. Per convalidare gli approcci proposti e identificare le potenziali strade per ulteriori miglioramenti, si ricorre alla convalida empirica utilizzando set di dati sintetici e reali. Questa ricerca contribuisce a far progredire il campo del calcolo degli skyline in un ambiente di calcolo parallelo. I risultati offrono spunti sull'importanza pratica dell'operatore skyline nell'affrontare le sfide decisionali del mondo reale, sfruttando strumenti come PySpark, aprendo così la strada a futuri sviluppi in questo campo.
File allegati
File Dimensione Formato  
2024_03_Pindozzi.pdf

accessibile in internet solo dagli utenti autorizzati

Dimensione 3.54 MB
Formato Adobe PDF
3.54 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/218756