Object Oriented Data Analysis is an innovative approach to the statistical analysis of populations of complex objects which cannot be embedded into a standard Euclidean space, such as images, curves or trees. The variety of principles regulating the interpretation of written text, together with the need to automatically capture the variegated shades of human language, make text an eligible candidate to be explored in the context of Object Oriented Data Analysis, due to the intrinsic complexity of its linguistic properties. Within this framework, this work explores the vast literature dealing with the issue of text embedding, focusing on the type of mathematical representation employed and differentiating between models capturing either syntactic or semantic characteristics of language. To exhibit an application of Object Oriented Data Analysis to the study of text complexities, this thesis shows a promising example of the benefits and potentialities of supporting urban planning and decision-making with insights coming from scientific analyses of perceptions and thoughts of true visitors of specific areas of interest. Collecting data from Twitter on the region of Queen Elizabeth Olympic Park for two weeks of March 2018, this work performs a statistical investigation of the semantics properties of Tweets, framing text complexity in the view of Object Oriented Data Analysis and offering up-to-date intuitions on the perceived liveliness of the area of London 2012 Olympics and Paralympics, result of a renown model of urban regeneration planning. This study poses also particular attention on the importance of elaborating the available information to extract knowledge on the specific phenomenon of interest, showing that the analysis of raw information, which could also containing additional aspects with respect to the one regarding the specific application, leads to meaningless outcomes in terms of evaluation of the liveliness of the Queen Elizabeth Olympic Park. These examples support the thesis of awareness of the application needs in performing analysis, underlying the necessity to focus on the exploration of information according to studied phenomenon.
L'Object Oriented Data Analysis, letteralmente analisi di dati orientata agli oggetti, è un approccio innovativo all'indagine statistica di popolazioni costituite da oggetti complessi, quali ad esempio immagini, curve o alberi, che non possono essere incorporati in uno spazio euclideo. La varietà di principi che regolano l'interpretazione di un testo scritto, insieme alla necessità di cogliere in modo automatico le variegate sfaccettature del linguaggio umano, rendono il testo un candidato idoneo per l'Object Oriented Data Analysis, vista la sua intrinseca complessità. In quest'ottica, questo lavoro esplora la vasta letteratura per la modellizzazione delle proprietà del testo, concentrandosi sul tipo di rappresentazione matematica utilizzata e discriminando in base alla abilità dei modelli nel cogliere caratteristiche sintattiche o semantiche. Per fornire un esempio di utilizzo del testo come dato complesso nell'ambito dell'Object Oriented Data Analysis, questa tesi mostra un promettente caso di supporto alla pianificazione e progettazione urbana tramite indizi provenienti da indagini scientifiche basate su percezioni e pensieri di veri visitatori della specifica zona oggetto di studio. Raccogliendo dati tramite Twitter dall'area del Queen Elizabeth Olympic Park di Londra per due settimane di marzo 2018, questo lavoro svolge un'analisi statistica delle proprietà semantiche dei Tweets, interpretando la complessità del linguaggio dei messaggi nell'ottica dell'Object Oriented Data Analysis, offrendo così informazioni molto recenti sulla percepita vivacità dell'area, sede nel 2012 delle Olimpiadi e Paralimpiadi e frutto di un rinomato modello di rigenerazione urbana. Si pone inoltre particolare attenzione sull'importanza dell'elaborazione delle informazioni disponibili per estrarre conoscenze sul fenomeno specifico in analisi, dimostrando che l'utilizzo di informazioni non elaborate, che potrebbero contenere anche aspetti aggiuntivi rispetto a quello d'interesse per l'applicazione, porta a risultati insignificanti per la valutazione della vivacità del Queen Elizabeth Olympic Park. Questi esempi supportano la tesi della necessità di acquisire consapevolezza delle esigenze applicative prima di dedicarsi alla loro analisi, sottolineando l'importanza dell'esplorazione delle informazioni in base al fenomeno oggetto di studio.
Text is a complex object. An object oriented data analysis of tweets in the Queen Elizabeth olympic park
RIVA, PAOLA
2017/2018
Abstract
Object Oriented Data Analysis is an innovative approach to the statistical analysis of populations of complex objects which cannot be embedded into a standard Euclidean space, such as images, curves or trees. The variety of principles regulating the interpretation of written text, together with the need to automatically capture the variegated shades of human language, make text an eligible candidate to be explored in the context of Object Oriented Data Analysis, due to the intrinsic complexity of its linguistic properties. Within this framework, this work explores the vast literature dealing with the issue of text embedding, focusing on the type of mathematical representation employed and differentiating between models capturing either syntactic or semantic characteristics of language. To exhibit an application of Object Oriented Data Analysis to the study of text complexities, this thesis shows a promising example of the benefits and potentialities of supporting urban planning and decision-making with insights coming from scientific analyses of perceptions and thoughts of true visitors of specific areas of interest. Collecting data from Twitter on the region of Queen Elizabeth Olympic Park for two weeks of March 2018, this work performs a statistical investigation of the semantics properties of Tweets, framing text complexity in the view of Object Oriented Data Analysis and offering up-to-date intuitions on the perceived liveliness of the area of London 2012 Olympics and Paralympics, result of a renown model of urban regeneration planning. This study poses also particular attention on the importance of elaborating the available information to extract knowledge on the specific phenomenon of interest, showing that the analysis of raw information, which could also containing additional aspects with respect to the one regarding the specific application, leads to meaningless outcomes in terms of evaluation of the liveliness of the Queen Elizabeth Olympic Park. These examples support the thesis of awareness of the application needs in performing analysis, underlying the necessity to focus on the exploration of information according to studied phenomenon.File | Dimensione | Formato | |
---|---|---|---|
2018_07_Riva.pdf
accessibile in internet per tutti
Descrizione: Testo della tesi
Dimensione
8.59 MB
Formato
Adobe PDF
|
8.59 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/141731