Sentiment lexicons are essential tools for polarity classification and opinion mining. Especially, the sentiment lexicon is a list of words with a sentiment value (e.g. positive and negative). Although a number of domain-specific lexicons have been made available, it is impractical to build an ex ante lexicon that fully reflects the characteristics of the language usage in endless domains. The research proposes a novel approach to simultaneously train a sentiment classifier and adapt word polarities to the target domain, with a special attention on financial domain . As a starting point was trained a sentiment classifier from the general purpose lexicons. Hence, the wrongly predicted samples were tracked and were used as supervision. An exploration-exploitation mechanism was designed for updating polarity scores. Experimental results on popular datasets show that the approach proposed significantly improves the sentiment classification performance and the quality of the adapted sentiment lexicons. The model perfectly address the transparency issue that repeatedly occur with more complex technique for domain adaptation.
I Sentiment lexicons (lessici che riportano il valore o la polarita' del sentimento delle parole) sono strumenti fondamentali per lo svolgimento di attivita' di opinion mining e piu' specificatamente per la classificazione delle polarita'. Sebbene in letteratura sono stati sviluppati numerosi sentiment lexicons per specifici contesti (o domini), e' impossibile creare un sentiment lexicon ex-ante che possa essere usato in tutti i contesti esistenti. La ricerca esposta nell'elaborato propone un approccio innovativo che contemporameneamente istruisce un classificatore di sentimento e adatta la polarita' delle parole al contesto di riferimento. Principale attenzione e' stata posta sul contesto finanziario dato la crescente applicazione di tecniche di analisi dei sentimenti in tale campo riscontrata negli ultimi anni. Come punto di partenza il classficatore e' stato istruito con un sentiment lexicon di contesto generale. Questo e' stato fatto affinche' i campioni predetti erroneamente dal classificatore potessero essere tracciati e usati come supervisione per adattare la polarita' delle parole. Successivamente, e' stato sviluppato un meccanismo di exploration-exploitation per l'aggiornamento della polarita' delle parole. I risultati sperimentali svolti su datasets comunemente usati, mostrano che l'approccio proposto migliora in maniera significativa le performance del classificatore di sentimenti e la qualita' del sentiment lexicon adattato al contesto. Il modello e' inoltre in grado di risolvere il problema della trasparenza, comune in tecniche complesse di adattamento del dominio.
Cognitive-inspired domain adaptation of sentiment lexicons with high-level supervision
PALLUCCHINI, FILIPPO
2016/2017
Abstract
Sentiment lexicons are essential tools for polarity classification and opinion mining. Especially, the sentiment lexicon is a list of words with a sentiment value (e.g. positive and negative). Although a number of domain-specific lexicons have been made available, it is impractical to build an ex ante lexicon that fully reflects the characteristics of the language usage in endless domains. The research proposes a novel approach to simultaneously train a sentiment classifier and adapt word polarities to the target domain, with a special attention on financial domain . As a starting point was trained a sentiment classifier from the general purpose lexicons. Hence, the wrongly predicted samples were tracked and were used as supervision. An exploration-exploitation mechanism was designed for updating polarity scores. Experimental results on popular datasets show that the approach proposed significantly improves the sentiment classification performance and the quality of the adapted sentiment lexicons. The model perfectly address the transparency issue that repeatedly occur with more complex technique for domain adaptation.File | Dimensione | Formato | |
---|---|---|---|
2017_04_Pallucchini_01.pdf
accessibile in internet solo dagli utenti autorizzati
Descrizione: Testo della tesi
Dimensione
1.21 MB
Formato
Adobe PDF
|
1.21 MB | Adobe PDF | Visualizza/Apri |
2017_04_Pallucchini_02.pdf
accessibile in internet solo dagli utenti autorizzati
Descrizione: Articolo sottomesso alla conferenza ACL (Association for Computational Linguistics)
Dimensione
352.18 kB
Formato
Adobe PDF
|
352.18 kB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/139440