With Web 2.0, storing methods and technologies are radically changed. Nowadays we live in a world where the huge amount of data is distributed around different places, strongly limiting the usage of traditional databases, like RDBMS. In the last years, a new type of databases has found more and more space. They are called NoSQL, distributed databases that have different architectural features from the traditional ones and they also guarantee properties like high availability and scalability. However, they are not the solution to every problem of data management. They show some significant shortcomings that have an impact on how model applications are built and operate. One of these shortcomings is the absence of relational structures, useful to correlate data. One of the research objectives is to improve these aspects, maintaining the peculiar NoSQL database characteristics. This thesis aims at offering to designers the possibility to exploit scalability of NoSQL still adopting a relational model, so to take advantage from both approaches. To this end, we define a mapping model for data from a typical relational structure into a NoSQL one, based on the queries known at design time that will be performed on the database. The thesis presents the proposed approach and exploits HBase as target NoSQL for the mapping. HBase is particularly interesting because of its scalability and of its integration with Hadoop, that is, a map/reduce-based parallelization approach to support the execution of computations on large datasets. The approach is compared with a traditional relational one and the result we have achieved shows that it is promising in terms of improved performance on query execution.

Con l'avvento del Web 2.0, i metodi e le tecnologie per la gestione dei dati son dovuti cambiare radicalmente. Al giorno d'oggi viviamo ormai in un mondo dove la grande quantità di dati, distribuita su tutto il territorio, limita fortemente l'utilizzo di database tradizionali, quali sono i RDBMS. A partire da alcuni anni si parla infatti di NoSQL, database distribuiti che presentano caratteristiche architetturali diverse da quelle tradizionali e che garantiscono alta disponibilità e scalabilità in base al carico richiesto. Dall'altro lato però, questo tipo di database presenta alcuni difetti che hanno un impatto sul modo in cui operano le applicazioni. Uno di questi difetti è la mancanza di strutture relazionali, utili per correlare dati. Uno degli obiettivi di ricerca è migliorare questi aspetti, mantenendo le caratteristiche peculiari dei database NoSQL. Questa tesi vuole offrire ai progettisti la possibilità di sfruttare la scalabilità di un database NoSQL, adottando comunque un modello relazionale, in modo da trarre vantaggio da entrambi gli approcci. Per questo, abbiamo definito un modello per la mappatura di dati, da una tipica struttura relazionale ad una NoSQL, basata sulle query che andranno eseguite sulla struttura finale, conosciute in fase di progettazione. La tesi presenta l'approccio proposto e valorizza l'utilizzo di HBase come database NoSQL per la mappatura. HBase è particolarmente interessante per la sua scalabilità e per la sua integrazione con Hadoop, un approccio di parallelizzazione basato su map/reduce, per supportare l'esecuzione computazionale su grandi quantità di dati. L'approccio è paragonato con uno relazionale tradizionale, e il risultato che abbiamo raggiunto mostra come sia promettente in termini di miglioramento delle prestazioni delle richieste ricevute.

Mapping relational databases into a distributed NoSQL

GRAZIOLI, FRANCESCO
2013/2014

Abstract

With Web 2.0, storing methods and technologies are radically changed. Nowadays we live in a world where the huge amount of data is distributed around different places, strongly limiting the usage of traditional databases, like RDBMS. In the last years, a new type of databases has found more and more space. They are called NoSQL, distributed databases that have different architectural features from the traditional ones and they also guarantee properties like high availability and scalability. However, they are not the solution to every problem of data management. They show some significant shortcomings that have an impact on how model applications are built and operate. One of these shortcomings is the absence of relational structures, useful to correlate data. One of the research objectives is to improve these aspects, maintaining the peculiar NoSQL database characteristics. This thesis aims at offering to designers the possibility to exploit scalability of NoSQL still adopting a relational model, so to take advantage from both approaches. To this end, we define a mapping model for data from a typical relational structure into a NoSQL one, based on the queries known at design time that will be performed on the database. The thesis presents the proposed approach and exploits HBase as target NoSQL for the mapping. HBase is particularly interesting because of its scalability and of its integration with Hadoop, that is, a map/reduce-based parallelization approach to support the execution of computations on large datasets. The approach is compared with a traditional relational one and the result we have achieved shows that it is promising in terms of improved performance on query execution.
SCAVUZZO, MARCO
ING - Scuola di Ingegneria Industriale e dell'Informazione
18-dic-2014
2013/2014
Con l'avvento del Web 2.0, i metodi e le tecnologie per la gestione dei dati son dovuti cambiare radicalmente. Al giorno d'oggi viviamo ormai in un mondo dove la grande quantità di dati, distribuita su tutto il territorio, limita fortemente l'utilizzo di database tradizionali, quali sono i RDBMS. A partire da alcuni anni si parla infatti di NoSQL, database distribuiti che presentano caratteristiche architetturali diverse da quelle tradizionali e che garantiscono alta disponibilità e scalabilità in base al carico richiesto. Dall'altro lato però, questo tipo di database presenta alcuni difetti che hanno un impatto sul modo in cui operano le applicazioni. Uno di questi difetti è la mancanza di strutture relazionali, utili per correlare dati. Uno degli obiettivi di ricerca è migliorare questi aspetti, mantenendo le caratteristiche peculiari dei database NoSQL. Questa tesi vuole offrire ai progettisti la possibilità di sfruttare la scalabilità di un database NoSQL, adottando comunque un modello relazionale, in modo da trarre vantaggio da entrambi gli approcci. Per questo, abbiamo definito un modello per la mappatura di dati, da una tipica struttura relazionale ad una NoSQL, basata sulle query che andranno eseguite sulla struttura finale, conosciute in fase di progettazione. La tesi presenta l'approccio proposto e valorizza l'utilizzo di HBase come database NoSQL per la mappatura. HBase è particolarmente interessante per la sua scalabilità e per la sua integrazione con Hadoop, un approccio di parallelizzazione basato su map/reduce, per supportare l'esecuzione computazionale su grandi quantità di dati. L'approccio è paragonato con uno relazionale tradizionale, e il risultato che abbiamo raggiunto mostra come sia promettente in termini di miglioramento delle prestazioni delle richieste ricevute.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2014_12_Grazioli.pdf

accessibile in internet per tutti

Descrizione: Testo della tesi
Dimensione 2.24 MB
Formato Adobe PDF
2.24 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/102141