With the technological evolution of the last few years, the data generated every day in the world have increased exponentially and the "big data" topic is among the most fashionable in the computer science world. These, if well interpreted, provide an important competitive advantage to a company because they can describe behaviors or interconnections that are apparently hidden between users of the service or product. Although the user data analysis topic is much explored, the data creation is less covered, especially when a certain application or website has not yet been released to the public and is missing in whole or in part. In this thesis we propose an exploration of some deep learning techniques such as recurrent neural networks (RNN) and generative adversarial neural networks (GANN) aimed at analyzing a small amount of weblog data, and then generating new ones. The objective of the work is to understand which is the best, comparing the results with a baseline: a statistical data generation algorithm based on association rules, which currently represents the state of the art for this field of study. Having available a robust technique for generating weblog sequences could be fundamental for a company that has not yet released its technology, since it could analyze the data generated as if they represented real users and thus improve their product / service before official release. Just as it could prove extremely useful in the field of research, where the lack of log data is today a widespread problem due to their privatization.

Con l’evoluzione tecnologica degli ultimi anni, i dati generati ogni giorno nel mondo sono aumentati in modo esponenziale e l’argomento "big data" è tra quelli più di moda nel mondo del computer science. Questi, se ben interpretati, forniscono un vantaggio competitivo importante ad un’azienda poiché possono descrivere dei comportamenti o delle interconnessioni apparentemente nascoste tra gli utilizzatori del servizio o prodotto. Sebbene sia molto esplorato l’ambito dell’analisi dei dati relativi agli utenti, è meno trattato l’ambito della creazione di dati nel momento in cui una certa applicazione o sito web non è stato ancora rilasciato al pubblico e mancano del tutto o in parte. In questa tesi proponiamo un’esplorazione di alcune tecniche di deep learning quali recurrent neural network (RNN) e generative adversarial neural network (GANN) volte ad analizzare una piccola quantità di dati di weblog, per poi generarne di nuovi. L’obiettivo del lavoro è capire qual è la migliore, confrontando i risultati con una baseline: un algoritmo di generazione dei dati di tipo statistico basato su association rules, che al momento rappresenta lo stato dell’arte per questo campo di studio. Avere a disposizione una tecnica robusta per la generazione di sequenze di weblog potrebbe essere fondamentale per un’azienda che non ha ancora rilasciato la propria tecnologia, poiché potrebbe analizzare i dati generati come se rappresentassero utenti reali e migliorare quindi il proprio prodotto/servizio prima del rilascio ufficiale. Così come potrebbe rivelarsi di estrema utilità nel campo della ricerca, dove la mancanza di dati di log è ad oggi un problema diffuso per via della privatizzazione degli stessi.

Generation of user navigation paths in web sites using generative adversarial neural networks and recurrent neural networks

PAVANETTO, SILVIO
2017/2018

Abstract

With the technological evolution of the last few years, the data generated every day in the world have increased exponentially and the "big data" topic is among the most fashionable in the computer science world. These, if well interpreted, provide an important competitive advantage to a company because they can describe behaviors or interconnections that are apparently hidden between users of the service or product. Although the user data analysis topic is much explored, the data creation is less covered, especially when a certain application or website has not yet been released to the public and is missing in whole or in part. In this thesis we propose an exploration of some deep learning techniques such as recurrent neural networks (RNN) and generative adversarial neural networks (GANN) aimed at analyzing a small amount of weblog data, and then generating new ones. The objective of the work is to understand which is the best, comparing the results with a baseline: a statistical data generation algorithm based on association rules, which currently represents the state of the art for this field of study. Having available a robust technique for generating weblog sequences could be fundamental for a company that has not yet released its technology, since it could analyze the data generated as if they represented real users and thus improve their product / service before official release. Just as it could prove extremely useful in the field of research, where the lack of log data is today a widespread problem due to their privatization.
ING - Scuola di Ingegneria Industriale e dell'Informazione
15-apr-2019
2017/2018
Con l’evoluzione tecnologica degli ultimi anni, i dati generati ogni giorno nel mondo sono aumentati in modo esponenziale e l’argomento "big data" è tra quelli più di moda nel mondo del computer science. Questi, se ben interpretati, forniscono un vantaggio competitivo importante ad un’azienda poiché possono descrivere dei comportamenti o delle interconnessioni apparentemente nascoste tra gli utilizzatori del servizio o prodotto. Sebbene sia molto esplorato l’ambito dell’analisi dei dati relativi agli utenti, è meno trattato l’ambito della creazione di dati nel momento in cui una certa applicazione o sito web non è stato ancora rilasciato al pubblico e mancano del tutto o in parte. In questa tesi proponiamo un’esplorazione di alcune tecniche di deep learning quali recurrent neural network (RNN) e generative adversarial neural network (GANN) volte ad analizzare una piccola quantità di dati di weblog, per poi generarne di nuovi. L’obiettivo del lavoro è capire qual è la migliore, confrontando i risultati con una baseline: un algoritmo di generazione dei dati di tipo statistico basato su association rules, che al momento rappresenta lo stato dell’arte per questo campo di studio. Avere a disposizione una tecnica robusta per la generazione di sequenze di weblog potrebbe essere fondamentale per un’azienda che non ha ancora rilasciato la propria tecnologia, poiché potrebbe analizzare i dati generati come se rappresentassero utenti reali e migliorare quindi il proprio prodotto/servizio prima del rilascio ufficiale. Così come potrebbe rivelarsi di estrema utilità nel campo della ricerca, dove la mancanza di dati di log è ad oggi un problema diffuso per via della privatizzazione degli stessi.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
Silvio-Pavanetto-Thesis.pdf

solo utenti autorizzati dal 31/03/2022

Descrizione: Testo della Tesi
Dimensione 3.29 MB
Formato Adobe PDF
3.29 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/145579