The goal of this work is the study and design of a framework for the prediction of multimedia contents metadata. Metadata are information which describe a product specifying its distinctive properties: for example, the movie genre, the production year or the setting are all attributes which define the characteristics of a movie. The process of compilation of that information is often performed manually by domain experts, who rely exclusively on their experience in the field. With this thesis we aim to show that, using movie plots, it is possible to develop a machine learning architecture able to make complex predictions (multi-label) of the values of metadata like the mood (i.e. the effect induced by a content in the viewer). This thesis starts with the study of the state of the art, focusing on the multi-label classification of textual contents. We then present the designed architecture, describing the mathematical modeling of input text, the identified classification algorithms and the rebalancing methods used to harmonise the distribution of target classes. Subsequently, we describe the experimental analysis performed on the available data, discussing the results and highlighting strengths and weaknesses of each approach. Finally, we present some possible future developments of this work by proposing algorithmic and architectural improvements.
L'obiettivo di questo lavoro è lo studio e la progettazione di un framework per la predizione dei metadati di contenuti multimediali. I metadati sono informazioni che descrivono un prodotto specificandone le proprietà distintive: ad esempio, il genere cinematografico, l'anno di produzione o l’ambientazione della pellicola sono tutti attributi che tratteggiano le caratteristiche di un film. Il processo di compilazione di queste informazioni è spesso svolto in maniera manuale da un gruppo di esperti che si basano esclusivamente sulla loro esperienza nel settore. Con questo lavoro di tesi si vuole mostrare che, utilizzando la trama di un film, si riesce a sviluppare un efficiente sistema di machine learning in grado di compiere predizioni complesse (multi-label) dei valori di metadati come il mood (l'insieme degli effetti indotti dall'opera nello spettatore). L'elaborato di tesi parte dallo studio dello stato dell'arte e in particolare della classificazione multi-label di contenuti testuali. Si presenta, in seguito, l'architettura ideata, descrivendo le tecniche di modellizzazione matematica dei testi, gli algoritmi di classificazione identificati e i metodi di ribilanciamento della distribuzione delle classi da predire. Successivamente vengono mostrati gli esperimenti sui dati a disposizione discutendo i risultati ed evidenziando i punti di forza e di miglioramento di ciascun approccio. Infine vengono esposti i possibili sviluppi futuri proponendo innovazioni algoritmiche e architetturali al lavoro presente.
Mood prediction of movies using multi-label text classification
DI GIOSAFFATTE, ANDREA;IMBERTI, MATTEO
2017/2018
Abstract
The goal of this work is the study and design of a framework for the prediction of multimedia contents metadata. Metadata are information which describe a product specifying its distinctive properties: for example, the movie genre, the production year or the setting are all attributes which define the characteristics of a movie. The process of compilation of that information is often performed manually by domain experts, who rely exclusively on their experience in the field. With this thesis we aim to show that, using movie plots, it is possible to develop a machine learning architecture able to make complex predictions (multi-label) of the values of metadata like the mood (i.e. the effect induced by a content in the viewer). This thesis starts with the study of the state of the art, focusing on the multi-label classification of textual contents. We then present the designed architecture, describing the mathematical modeling of input text, the identified classification algorithms and the rebalancing methods used to harmonise the distribution of target classes. Subsequently, we describe the experimental analysis performed on the available data, discussing the results and highlighting strengths and weaknesses of each approach. Finally, we present some possible future developments of this work by proposing algorithmic and architectural improvements.File | Dimensione | Formato | |
---|---|---|---|
DiGiosaffatte_Imberti_Master_Thesis.pdf
accessibile in internet per tutti
Descrizione: Testo della tesi
Dimensione
1.39 MB
Formato
Adobe PDF
|
1.39 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/145537