In the information overload age the user needs to find specific information without reading huge collection of documents. Topic modeling is a statistical model based on supervised and unsupervised algorithms that starting from an extended group of documents (corpus), allows to detect the treated shared topics starting from the identification of the keywords. In the last decade, the contribution of data visualization has become fundamental to improve the analysis and use of data. Always addressing an expert and niche audience the visualization of the results of topic modeling has always been linked to visual models sedimented and known as the streamgraph, the word clouds and the force directed graph. During the initial research phase of this thesis, it emerged that a metaphorical approach to data complexity can facilitate its representation and usability through a simple and intuitive interface. Initially, in Topic Tomographies (TopTom), a project in collaboration with ISI Foundation, the use of known visual models that evoke techniques of representation of the human body from the medical field has been experimented. Finally, critical issues and limitations of the project allowed us to analyze thoroughly the characteristics of the data, turning on the interest for the definition and visualization of the topic itself, abstract entity and automatically generated by an algorithm.

Nell’era dell’information overload l’utente ha necessità di trovare informazioni specifiche senza dover consultare immensi archivi documentali, digitali e non. Il topic modeling è un modello statistico basato sull’uso di una serie variabile di algoritmi che, a partire da un esteso gruppo di documenti (corpus), permette di identificare gli argomenti (topics) trattati a partire dall’identificazione delle parole chiave (keywords). Nell’ultimo decennio il contributo della data visualisation è diventato fondamentale per migliorare l’analisi e la fruizione dei dati. Rivolgendosi da sempre ad un pubblico esperto e di nicchia la visualizzazione dei risultati di topic modeling è sempre stata legata a modelli visivi sedimentati e noti come lo streamgraph, le word clouds e il force directed graph. Durante la fase di ricerca iniziale di questa tesi, è emerso come un approccio metaforico alla complessità dei dati possa agevolarne la rappresentazione e la fruibilità attraverso un’interfaccia semplice e intuitiva. Inizialmente in Topic Tomographies (TopTom), progetto nato in collaborazione con ISI Foundation, è stato sperimentato l’uso di modelli visivi noti che evocassero tecniche di rappresentazione del corpo umano provenienti dall’ambito medico. Infine, le criticità e i limiti del progetto hanno consentito di analizzare a fondo caratteristiche e problematiche dei dati, portando in primo piano l’interesse per la definizione e la visualizzazione del topic in sè, entità astratta e generata automaticamente da un algoritmo.

Tomotopigrafie. Modelli visivi per processi di topic modeling dinamico e gerarchico

GOBBO, BEATRICE
2016/2017

Abstract

In the information overload age the user needs to find specific information without reading huge collection of documents. Topic modeling is a statistical model based on supervised and unsupervised algorithms that starting from an extended group of documents (corpus), allows to detect the treated shared topics starting from the identification of the keywords. In the last decade, the contribution of data visualization has become fundamental to improve the analysis and use of data. Always addressing an expert and niche audience the visualization of the results of topic modeling has always been linked to visual models sedimented and known as the streamgraph, the word clouds and the force directed graph. During the initial research phase of this thesis, it emerged that a metaphorical approach to data complexity can facilitate its representation and usability through a simple and intuitive interface. Initially, in Topic Tomographies (TopTom), a project in collaboration with ISI Foundation, the use of known visual models that evoke techniques of representation of the human body from the medical field has been experimented. Finally, critical issues and limitations of the project allowed us to analyze thoroughly the characteristics of the data, turning on the interest for the definition and visualization of the topic itself, abstract entity and automatically generated by an algorithm.
MAURI, MICHELE
ARC III - Scuola del Design
20-apr-2018
2016/2017
Nell’era dell’information overload l’utente ha necessità di trovare informazioni specifiche senza dover consultare immensi archivi documentali, digitali e non. Il topic modeling è un modello statistico basato sull’uso di una serie variabile di algoritmi che, a partire da un esteso gruppo di documenti (corpus), permette di identificare gli argomenti (topics) trattati a partire dall’identificazione delle parole chiave (keywords). Nell’ultimo decennio il contributo della data visualisation è diventato fondamentale per migliorare l’analisi e la fruizione dei dati. Rivolgendosi da sempre ad un pubblico esperto e di nicchia la visualizzazione dei risultati di topic modeling è sempre stata legata a modelli visivi sedimentati e noti come lo streamgraph, le word clouds e il force directed graph. Durante la fase di ricerca iniziale di questa tesi, è emerso come un approccio metaforico alla complessità dei dati possa agevolarne la rappresentazione e la fruibilità attraverso un’interfaccia semplice e intuitiva. Inizialmente in Topic Tomographies (TopTom), progetto nato in collaborazione con ISI Foundation, è stato sperimentato l’uso di modelli visivi noti che evocassero tecniche di rappresentazione del corpo umano provenienti dall’ambito medico. Infine, le criticità e i limiti del progetto hanno consentito di analizzare a fondo caratteristiche e problematiche dei dati, portando in primo piano l’interesse per la definizione e la visualizzazione del topic in sè, entità astratta e generata automaticamente da un algoritmo.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
Gobbo_Tomotopigrafie_2018.pdf

accessibile in internet per tutti

Dimensione 18.36 MB
Formato Adobe PDF
18.36 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/140860