Computazione distribuita di itemset frequenti usando MapReduce

Negli ultimi anni la quantità dei dati immagazzinati dai sistemi informativi è cresciuta in modo esponenziale e allo stesso tempo si sono moltiplicate le sorgenti che raccolgono insiemi di dati sempre più estesi ed eterogenei. La diminuzione del costo delle periferiche di storage e lo sviluppo di tecnologie che producono quantità di dati crescenti ha dato vita a grandi repository di dati. Sono numerosissime le applicazioni e le realtà che producono moli di dati sempre più ampie ed i contesti dove i dati vengono salvati per analisi future. In estrema sintesi, c'è disponibilità di grandi volumi di dati grezzi che le tecnologie e le tecniche tradizionali sono, per la quantità o le caratteristiche dei dati raccolti, non sempre adatte ad analizzare. Per poter analizzare e gestire questo tipo di dati è stato necessario sviluppare nuovi sistemi di storage distribuiti in grado di supportare l'esecuzione parallela di applicazioni con elevato accesso ai dati. Apache Hadoop è il framework più utilizzato in ambito scientifico ed industriale. Hadoop consente l'esecuzione di applicazioni distribuite su grandi cluster adottando il paradigma di programmazione MapReduce. Inoltre, è necessario sviluppare metodi ed algoritmi in grado di elaborare la grande mole di dati grezzi al fine di estrarre informazioni utili. Tradizionalmente, il data mining è la disciplina che si occupa dell'estrazione di conoscenza utile dai dati grezzi. I metodi e gli algoritmi di dati mining tradizionali sono stati progettati e sviluppati per sistemi centralizzati e, in alcuni casi, successivamente adattati ad ambienti distribuiti. Questo lavoro di tesi si sofferma sugli algoritmi di data mining per l'estrazione degli itemset frequenti, analizzando gli algoritmi principali, le corrispondenti implementazioni disponibili e le eventuali estensioni al paradigma MapReduce. Il nostro obiettivo è proporre un' implementazione in Hadoop-MapReduce di un algoritmo per l'estrazione degli itemset frequenti, tra quelli disponibili abbiamo scelto ECLAT (Equivalence CLAss Transformation) perché particolarmente adatto all'esecuzione distribuita e al paradigma MapReduce.

Computazione distribuita di itemset frequenti usando MapReduce

GERONAZZO, ANGELA

2012/2013

Abstract

Negli ultimi anni la quantità dei dati immagazzinati dai sistemi informativi è cresciuta in modo esponenziale e allo stesso tempo si sono moltiplicate le sorgenti che raccolgono insiemi di dati sempre più estesi ed eterogenei. La diminuzione del costo delle periferiche di storage e lo sviluppo di tecnologie che producono quantità di dati crescenti ha dato vita a grandi repository di dati. Sono numerosissime le applicazioni e le realtà che producono moli di dati sempre più ampie ed i contesti dove i dati vengono salvati per analisi future. In estrema sintesi, c'è disponibilità di grandi volumi di dati grezzi che le tecnologie e le tecniche tradizionali sono, per la quantità o le caratteristiche dei dati raccolti, non sempre adatte ad analizzare. Per poter analizzare e gestire questo tipo di dati è stato necessario sviluppare nuovi sistemi di storage distribuiti in grado di supportare l'esecuzione parallela di applicazioni con elevato accesso ai dati. Apache Hadoop è il framework più utilizzato in ambito scientifico ed industriale. Hadoop consente l'esecuzione di applicazioni distribuite su grandi cluster adottando il paradigma di programmazione MapReduce. Inoltre, è necessario sviluppare metodi ed algoritmi in grado di elaborare la grande mole di dati grezzi al fine di estrarre informazioni utili. Tradizionalmente, il data mining è la disciplina che si occupa dell'estrazione di conoscenza utile dai dati grezzi. I metodi e gli algoritmi di dati mining tradizionali sono stati progettati e sviluppati per sistemi centralizzati e, in alcuni casi, successivamente adattati ad ambienti distribuiti. Questo lavoro di tesi si sofferma sugli algoritmi di data mining per l'estrazione degli itemset frequenti, analizzando gli algoritmi principali, le corrispondenti implementazioni disponibili e le eventuali estensioni al paradigma MapReduce. Il nostro obiettivo è proporre un' implementazione in Hadoop-MapReduce di un algoritmo per l'estrazione degli itemset frequenti, tra quelli disponibili abbiamo scelto ECLAT (Equivalence CLAss Transformation) perché particolarmente adatto all'esecuzione distribuita e al paradigma MapReduce.

Scheda breve

Scheda completa

	Relatore
	
				TANCA, LETIZIA
			
	Correlatore/i
	
				PANIGATI, EMANUELE
			
	Scuola / Dip.
	
				ING  - Scuola di Ingegneria Industriale e dell'Informazione
			
	Data
	
				29-apr-2014
			
	Anno accademico
	
				2012/2013
			
	Tipo di documento
	
				Tesi di laurea Magistrale
			
	Appare nelle tipologie:
	
				Tesi di laurea Magistrale

File allegati

File	Dimensione	Formato
2014_04_Geronazzo.pdf accessibile in internet solo dagli utenti autorizzati Descrizione: Testo della tesi Dimensione 3.18 MB Formato Adobe PDF Visualizza/Apri	3.18 MB	Adobe PDF	Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/92562