Negli ultimi anni la quantità dei dati immagazzinati dai sistemi informativi è cresciuta in modo esponenziale e allo stesso tempo si sono moltiplicate le sorgenti che raccolgono insiemi di dati sempre più estesi ed eterogenei. La diminuzione del costo delle periferiche di storage e lo sviluppo di tecnologie che producono quantità di dati crescenti ha dato vita a grandi repository di dati. Sono numerosissime le applicazioni e le realtà che producono moli di dati sempre più ampie ed i contesti dove i dati vengono salvati per analisi future. In estrema sintesi, c'è disponibilità di grandi volumi di dati grezzi che le tecnologie e le tecniche tradizionali sono, per la quantità o le caratteristiche dei dati raccolti, non sempre adatte ad analizzare. Per poter analizzare e gestire questo tipo di dati è stato necessario sviluppare nuovi sistemi di storage distribuiti in grado di supportare l'esecuzione parallela di applicazioni con elevato accesso ai dati. Apache Hadoop è il framework più utilizzato in ambito scientifico ed industriale. Hadoop consente l'esecuzione di applicazioni distribuite su grandi cluster adottando il paradigma di programmazione MapReduce. Inoltre, è necessario sviluppare metodi ed algoritmi in grado di elaborare la grande mole di dati grezzi al fine di estrarre informazioni utili. Tradizionalmente, il data mining è la disciplina che si occupa dell'estrazione di conoscenza utile dai dati grezzi. I metodi e gli algoritmi di dati mining tradizionali sono stati progettati e sviluppati per sistemi centralizzati e, in alcuni casi, successivamente adattati ad ambienti distribuiti. Questo lavoro di tesi si sofferma sugli algoritmi di data mining per l'estrazione degli itemset frequenti, analizzando gli algoritmi principali, le corrispondenti implementazioni disponibili e le eventuali estensioni al paradigma MapReduce. Il nostro obiettivo è proporre un' implementazione in Hadoop-MapReduce di un algoritmo per l'estrazione degli itemset frequenti, tra quelli disponibili abbiamo scelto ECLAT (Equivalence CLAss Transformation) perché particolarmente adatto all'esecuzione distribuita e al paradigma MapReduce.

Computazione distribuita di itemset frequenti usando MapReduce

GERONAZZO, ANGELA
2012/2013

Abstract

Negli ultimi anni la quantità dei dati immagazzinati dai sistemi informativi è cresciuta in modo esponenziale e allo stesso tempo si sono moltiplicate le sorgenti che raccolgono insiemi di dati sempre più estesi ed eterogenei. La diminuzione del costo delle periferiche di storage e lo sviluppo di tecnologie che producono quantità di dati crescenti ha dato vita a grandi repository di dati. Sono numerosissime le applicazioni e le realtà che producono moli di dati sempre più ampie ed i contesti dove i dati vengono salvati per analisi future. In estrema sintesi, c'è disponibilità di grandi volumi di dati grezzi che le tecnologie e le tecniche tradizionali sono, per la quantità o le caratteristiche dei dati raccolti, non sempre adatte ad analizzare. Per poter analizzare e gestire questo tipo di dati è stato necessario sviluppare nuovi sistemi di storage distribuiti in grado di supportare l'esecuzione parallela di applicazioni con elevato accesso ai dati. Apache Hadoop è il framework più utilizzato in ambito scientifico ed industriale. Hadoop consente l'esecuzione di applicazioni distribuite su grandi cluster adottando il paradigma di programmazione MapReduce. Inoltre, è necessario sviluppare metodi ed algoritmi in grado di elaborare la grande mole di dati grezzi al fine di estrarre informazioni utili. Tradizionalmente, il data mining è la disciplina che si occupa dell'estrazione di conoscenza utile dai dati grezzi. I metodi e gli algoritmi di dati mining tradizionali sono stati progettati e sviluppati per sistemi centralizzati e, in alcuni casi, successivamente adattati ad ambienti distribuiti. Questo lavoro di tesi si sofferma sugli algoritmi di data mining per l'estrazione degli itemset frequenti, analizzando gli algoritmi principali, le corrispondenti implementazioni disponibili e le eventuali estensioni al paradigma MapReduce. Il nostro obiettivo è proporre un' implementazione in Hadoop-MapReduce di un algoritmo per l'estrazione degli itemset frequenti, tra quelli disponibili abbiamo scelto ECLAT (Equivalence CLAss Transformation) perché particolarmente adatto all'esecuzione distribuita e al paradigma MapReduce.
PANIGATI, EMANUELE
ING - Scuola di Ingegneria Industriale e dell'Informazione
29-apr-2014
2012/2013
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2014_04_Geronazzo.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Testo della tesi
Dimensione 3.18 MB
Formato Adobe PDF
3.18 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/92562