This work constitutes the researching, design, implementation and evaluation of the data science algorithms necessary to fulfill the necessities of the web application Knowledge Blocks. The app supports the extraction of knowledge from news articles speaking about events in the energy gas sector. The main results of the work are the proposed algorithms capable of: automatic assignments of tags to the articles using Machine Learning Classifiers, suggestion of new tags to the articles using Natural Language Processing techniques, correlation of similar articles using Vector Space Models and the production of a personalized newsletter for the users based on Syntactic and Semantic Scoring of the articles. These algorithms are the result of the study and integration of the main state-of-the-art techniques and the inclusion of some original proposals such as a Rule-based System for the tags assignment and Collaborative Filtering for the tags suggestion. Finally, the resulting algorithms are evaluated quantitatively and qualitatively.

Questo lavoro costituisce la ricerca, la progettazione, l'implementazione e la valutazione degli algoritmi di data science necessari per soddisfare le necessità dell'applicazione Knowledge Blocks. L'app supporta l'estrazione di conoscenza dagli articoli di notizie che parlano di eventi nel settore del gas energetico. I principali risultati del lavoro sono gli algoritmi proposti in grado di: assegnazione automatica di tag agli articoli utilizzando Machine Learning Classifiers, suggerimento di nuovi tag agli articoli usando tecniche di Natural Language Processing, correlazione di articoli simili usando Vector Space Models e la produzione di una newsletter personalizzata per gli utenti basata su Syntactic and Semantic Scoring degli articoli. Questi algoritmi sono il risultato dello studio e dell'integrazione delle principali state-of-the-art tecniche e dell'inserimento di alcune proposte originali come un Rule-based System per l'assegnazione dei tag e il Collaborative Filtering per il suggerimento dei tag. Infine, gli algoritmi risultanti sono valutati quantitativamente e qualitativamente.

Automated document tagging and newsletter generation using natural language processing and machine learning

OBANDO MAYORAL, SEBASTIAN ARTURO
2018/2019

Abstract

This work constitutes the researching, design, implementation and evaluation of the data science algorithms necessary to fulfill the necessities of the web application Knowledge Blocks. The app supports the extraction of knowledge from news articles speaking about events in the energy gas sector. The main results of the work are the proposed algorithms capable of: automatic assignments of tags to the articles using Machine Learning Classifiers, suggestion of new tags to the articles using Natural Language Processing techniques, correlation of similar articles using Vector Space Models and the production of a personalized newsletter for the users based on Syntactic and Semantic Scoring of the articles. These algorithms are the result of the study and integration of the main state-of-the-art techniques and the inclusion of some original proposals such as a Rule-based System for the tags assignment and Collaborative Filtering for the tags suggestion. Finally, the resulting algorithms are evaluated quantitatively and qualitatively.
ING - Scuola di Ingegneria Industriale e dell'Informazione
25-lug-2019
2018/2019
Questo lavoro costituisce la ricerca, la progettazione, l'implementazione e la valutazione degli algoritmi di data science necessari per soddisfare le necessità dell'applicazione Knowledge Blocks. L'app supporta l'estrazione di conoscenza dagli articoli di notizie che parlano di eventi nel settore del gas energetico. I principali risultati del lavoro sono gli algoritmi proposti in grado di: assegnazione automatica di tag agli articoli utilizzando Machine Learning Classifiers, suggerimento di nuovi tag agli articoli usando tecniche di Natural Language Processing, correlazione di articoli simili usando Vector Space Models e la produzione di una newsletter personalizzata per gli utenti basata su Syntactic and Semantic Scoring degli articoli. Questi algoritmi sono il risultato dello studio e dell'integrazione delle principali state-of-the-art tecniche e dell'inserimento di alcune proposte originali come un Rule-based System per l'assegnazione dei tag e il Collaborative Filtering per il suggerimento dei tag. Infine, gli algoritmi risultanti sono valutati quantitativamente e qualitativamente.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2019_07_OBANDO_MAYORAL.pdf

accessibile in internet per tutti

Descrizione: Thesis text
Dimensione 3.05 MB
Formato Adobe PDF
3.05 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/148888