We currently live in the big data era, in which user-generated content is more than we can analyze day to day in real time because of noise, dynamism and size, without a systematic method. Today the scientific community seems to accept data mining as the most appropriate technique for generating useful information from big dataset, but the way of doing it with unstructured data is still a challenge since a form of preprocessing is required. In this scenario, the need to efficiently analyze this kind of data is increasing because of characteristics of such big data, especially their huge and sometimes unpredictable variety. Twitter alone, with 320 M active users every month and more than 500 M tweets per day, could represent an important source of information . For this research, we are just focusing on social networks. The reason for this choice is that they are increasingly becoming a platform where people comfortably update states and share or retrieve information about the world in real time (Mooney, Bunescu 2005). Sometimes news is spreading on them faster than in traditional common channels because user capillarity worldwide makes it possible (Kwak, Lee et al. 2010). In particular, we will focus on Twitter, because its micro-blogging nature makes it suitable for this kind of purpose. It questions the concept of little and private community of friends in favor of broadcast communications, sometimes less private and of common interest (Naaman, Boase et al. 2010). Another reason why we chose Twitter is because of hashtag semantic value, their power in summarizing tweet content and the spreading model through the social network that allows us to highlights clusters of topics just focusing on them (Romero, Meeder et al. 2011). One of the objectives of this thesis is to show how data mining can provide useful techniques to deal with these huge datasets for retrieving information to detect and analyze trending topics and the corresponding user’s interactions with them. We identified in Association Rules identification and evolution in time, a systematic approach for conduct the analysis.

La mole di dati generata nel contesto attuale, meglio conosciuto con il nome di big data, è tale da compromettere spesso la capacità di analisi con i metodi classici a causa del rumore, del dinamismo e delle dimensioni che caratterizzano tale sorgente d’informazione. Attualmente la comunità scientifica sembra riconoscere nelle tecniche di data mining, i metodi più appropriati per generare informazione a partire da insiemi particolarmente grandi di dati. Il contesto legato ai Social Network, inoltre, evidenzia un’ulteriore problematica legata alla natura stessa del dato che risulta essere non strutturato e sul quale gli algoritmi standard non possono essere eseguiti direttamente. D’altro canto, in questo scenario, cresce la necessità di rendere l’analisi sempre più efficiente considerando le dimensioni dei bacini di informazione rappresentati dalle piattaforme social. Solo Twitter, con 320 milioni di utenti attivi ogni mese e 500 milioni di tweet pubblicati giornalmente, rappresenta un bacino più che interessante. In questa ricerca, infatti, ci focalizzeremo sui social network in quanto riconosciamo la natura delle piattaforme social come mezzo di comunicazione ed espressione alla portata di tutti e come mezzo di informazione riguardo eventi e notizie su scala mondiale in tempo reale (Mooney, Bunescu 2005). È formalmente riconosciuto, infatti, che le notizie sui social tendono a propagarsi più velocemente rispetto ai tradizionali canali di informazione (Kwak, Lee et al. 2010). Nello specifico, ci focalizzeremo su Twitter, in quanto la sua natura di micro-blog incontra la necessità di riconoscere gli eventi e tracciarne gli andamenti. Twitter mette in discussione il concetto di piccola community privata di amici offrendo un canale di comunicazione di pubblico dominio (Naaman, Boase et al. 2010). Inoltre, l’utilizzo della citata piattaforma nasce dall’idea di sfruttare il valore semantico nell’uso degli hashtag e la loro capacità di riassumere il contenuto di ogni singolo tweet, che permette di evidenziare aree di interesse solo sulla base di parole chiave (Romero, Meeder et al. 2011). Uno degli obiettivi della tesi è quello di mostrare come l’adattamento delle tecniche di data mining classiche possa fornire uno strumento per il riconoscimento di eventi, della loro evoluzione nel tempo e del coinvolgimento degli utenti attraverso la rete. Abbiamo infine identificato nel calcolo delle regole di associazione, un approccio sistematico per condurre l’analisi.

Association rule mining on social non-structured data using clustering and graph databases

PALESE, CORRADO
2015/2016

Abstract

We currently live in the big data era, in which user-generated content is more than we can analyze day to day in real time because of noise, dynamism and size, without a systematic method. Today the scientific community seems to accept data mining as the most appropriate technique for generating useful information from big dataset, but the way of doing it with unstructured data is still a challenge since a form of preprocessing is required. In this scenario, the need to efficiently analyze this kind of data is increasing because of characteristics of such big data, especially their huge and sometimes unpredictable variety. Twitter alone, with 320 M active users every month and more than 500 M tweets per day, could represent an important source of information . For this research, we are just focusing on social networks. The reason for this choice is that they are increasingly becoming a platform where people comfortably update states and share or retrieve information about the world in real time (Mooney, Bunescu 2005). Sometimes news is spreading on them faster than in traditional common channels because user capillarity worldwide makes it possible (Kwak, Lee et al. 2010). In particular, we will focus on Twitter, because its micro-blogging nature makes it suitable for this kind of purpose. It questions the concept of little and private community of friends in favor of broadcast communications, sometimes less private and of common interest (Naaman, Boase et al. 2010). Another reason why we chose Twitter is because of hashtag semantic value, their power in summarizing tweet content and the spreading model through the social network that allows us to highlights clusters of topics just focusing on them (Romero, Meeder et al. 2011). One of the objectives of this thesis is to show how data mining can provide useful techniques to deal with these huge datasets for retrieving information to detect and analyze trending topics and the corresponding user’s interactions with them. We identified in Association Rules identification and evolution in time, a systematic approach for conduct the analysis.
ING - Scuola di Ingegneria Industriale e dell'Informazione
21-dic-2016
2015/2016
La mole di dati generata nel contesto attuale, meglio conosciuto con il nome di big data, è tale da compromettere spesso la capacità di analisi con i metodi classici a causa del rumore, del dinamismo e delle dimensioni che caratterizzano tale sorgente d’informazione. Attualmente la comunità scientifica sembra riconoscere nelle tecniche di data mining, i metodi più appropriati per generare informazione a partire da insiemi particolarmente grandi di dati. Il contesto legato ai Social Network, inoltre, evidenzia un’ulteriore problematica legata alla natura stessa del dato che risulta essere non strutturato e sul quale gli algoritmi standard non possono essere eseguiti direttamente. D’altro canto, in questo scenario, cresce la necessità di rendere l’analisi sempre più efficiente considerando le dimensioni dei bacini di informazione rappresentati dalle piattaforme social. Solo Twitter, con 320 milioni di utenti attivi ogni mese e 500 milioni di tweet pubblicati giornalmente, rappresenta un bacino più che interessante. In questa ricerca, infatti, ci focalizzeremo sui social network in quanto riconosciamo la natura delle piattaforme social come mezzo di comunicazione ed espressione alla portata di tutti e come mezzo di informazione riguardo eventi e notizie su scala mondiale in tempo reale (Mooney, Bunescu 2005). È formalmente riconosciuto, infatti, che le notizie sui social tendono a propagarsi più velocemente rispetto ai tradizionali canali di informazione (Kwak, Lee et al. 2010). Nello specifico, ci focalizzeremo su Twitter, in quanto la sua natura di micro-blog incontra la necessità di riconoscere gli eventi e tracciarne gli andamenti. Twitter mette in discussione il concetto di piccola community privata di amici offrendo un canale di comunicazione di pubblico dominio (Naaman, Boase et al. 2010). Inoltre, l’utilizzo della citata piattaforma nasce dall’idea di sfruttare il valore semantico nell’uso degli hashtag e la loro capacità di riassumere il contenuto di ogni singolo tweet, che permette di evidenziare aree di interesse solo sulla base di parole chiave (Romero, Meeder et al. 2011). Uno degli obiettivi della tesi è quello di mostrare come l’adattamento delle tecniche di data mining classiche possa fornire uno strumento per il riconoscimento di eventi, della loro evoluzione nel tempo e del coinvolgimento degli utenti attraverso la rete. Abbiamo infine identificato nel calcolo delle regole di associazione, un approccio sistematico per condurre l’analisi.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2016_12_palese.pdf

accessibile in internet per tutti

Descrizione: Testo della tesi
Dimensione 1.25 MB
Formato Adobe PDF
1.25 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/131953