Natural Language Processing is daily employed in many types of activities and tasks, such as spam detection or chatbots, and many other implementations are tailored according to custom applications and specific industrial needs. The following thesis work describes the activities related to the internship period carried out by the student at "Novable", a Belgian company providing AI-supported strategic consulting services and whose main product is a NLP-based startup scouting platform. In this perspective, the goal is the development by the student of a functionality to automatically perform startup industry classification starting from the text and the information present on each company website. The proposed work outlines an evaluation and study of different methodologies for the creation of a text classification functionality considering the most known methodologies and processing techniques in NLP. Statistical Machine Learning, Feature Engineering, Artificial Neural Network and Attention-based models are implemented and tested, comparing their outcomes and fine-tuning their parameters to achieve the best overall performances. The resulting model outputs a number of industries for each startup based on the text content, allowing to filter and navigate the list of companies based on the industries and providing a different way of interaction within Novable's platform.

Natural Language Processing viene quotidianamente utilizzato in molti tipi di attività, come spam detection e chatbot, e molte altre applicazioni vengono adattate a soluzioni personalizzate e a specifiche esigenze industriali. Il seguente lavoro di tesi descrive le attività relative al periodo di tirocinio svolto dallo studente presso "Novable", una compagnia belga che fornisce servizi di consulenza strategica supportati dall'intelligenza artificiale e il cui principale prodotto è una piattaforma di scouting per startup basata su tecniche di NLP. In questa ottica, l'obiettivo è lo sviluppo da parte dello studente di una funzionalità per eseguire automaticamente la classificazione di ciascuna startup relativamente alle industrie in cui opera a partire dal testo e dalle informazioni presenti sul sito web di ogni azienda. Nel lavoro proposto viene delineata una valutazione e uno studio di diverse implementazioni al fine dello sviluppo della funzionalità di classificazione considerando le metodologie di elaborazione più note in NLP. Tecniche relative a Statistical Machine Learning, Feature Engineering, Artificial Neural Network e Attention sono implementate e testate, confrontando i risultati e i modelli al fine di ottenere le migliori prestazioni complessive. Il modello risultante predice una serie di industrie per ogni startup in base al contenuto del testo, consentendo di filtrare e navigare l'elenco delle aziende considerando le industrie in cui operano e fornendo un modo diverso di interazione all'interno della piattaforma aziendale.

Natural Language Processing for startup industry classification

Dimonte, Giuseppe Alessio
2021/2022

Abstract

Natural Language Processing is daily employed in many types of activities and tasks, such as spam detection or chatbots, and many other implementations are tailored according to custom applications and specific industrial needs. The following thesis work describes the activities related to the internship period carried out by the student at "Novable", a Belgian company providing AI-supported strategic consulting services and whose main product is a NLP-based startup scouting platform. In this perspective, the goal is the development by the student of a functionality to automatically perform startup industry classification starting from the text and the information present on each company website. The proposed work outlines an evaluation and study of different methodologies for the creation of a text classification functionality considering the most known methodologies and processing techniques in NLP. Statistical Machine Learning, Feature Engineering, Artificial Neural Network and Attention-based models are implemented and tested, comparing their outcomes and fine-tuning their parameters to achieve the best overall performances. The resulting model outputs a number of industries for each startup based on the text content, allowing to filter and navigate the list of companies based on the industries and providing a different way of interaction within Novable's platform.
SCOTTI, VINCENZO
DAMOISAUX-DELNOY, LEYLA
ING - Scuola di Ingegneria Industriale e dell'Informazione
22-lug-2022
2021/2022
Natural Language Processing viene quotidianamente utilizzato in molti tipi di attività, come spam detection e chatbot, e molte altre applicazioni vengono adattate a soluzioni personalizzate e a specifiche esigenze industriali. Il seguente lavoro di tesi descrive le attività relative al periodo di tirocinio svolto dallo studente presso "Novable", una compagnia belga che fornisce servizi di consulenza strategica supportati dall'intelligenza artificiale e il cui principale prodotto è una piattaforma di scouting per startup basata su tecniche di NLP. In questa ottica, l'obiettivo è lo sviluppo da parte dello studente di una funzionalità per eseguire automaticamente la classificazione di ciascuna startup relativamente alle industrie in cui opera a partire dal testo e dalle informazioni presenti sul sito web di ogni azienda. Nel lavoro proposto viene delineata una valutazione e uno studio di diverse implementazioni al fine dello sviluppo della funzionalità di classificazione considerando le metodologie di elaborazione più note in NLP. Tecniche relative a Statistical Machine Learning, Feature Engineering, Artificial Neural Network e Attention sono implementate e testate, confrontando i risultati e i modelli al fine di ottenere le migliori prestazioni complessive. Il modello risultante predice una serie di industrie per ogni startup in base al contenuto del testo, consentendo di filtrare e navigare l'elenco delle aziende considerando le industrie in cui operano e fornendo un modo diverso di interazione all'interno della piattaforma aziendale.
File allegati
File Dimensione Formato  
2022_07_DIMONTE_THESIS.pdf

non accessibile

Descrizione: thesis
Dimensione 14.56 MB
Formato Adobe PDF
14.56 MB Adobe PDF   Visualizza/Apri
2022_07_DIMONTE_EXECUTIVESUMMARY.pdf

accessibile in internet per tutti

Descrizione: executive summary
Dimensione 384.49 kB
Formato Adobe PDF
384.49 kB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/190365