This work, carried out in collaboration with the WebRatio company, is part of Tigheder, a larger project that aims to create a social network for worldwide companies where they can look for competitors and collaborators. For this purpose, it is helpful to divide the companies in the Tigheder database according to an industrial taxonomy, i.e., according to similarities in terms of offered services and production processes. Manual classification according to these taxonomies would be very expensive, mainly if carried out on all companies worldwide, which today amount to hundreds of millions. Even taking a lot of time and people to classify companies manually, it is unfeasible to maintain a reliably up-to-date dataset, keeping up with company acquisitions, changes, and closures. The need to automate this activity is therefore evident. Our work within Tigheder aims to create a pipeline for automatically classifying companies by industrial sector using Machine Learning techniques. Our pipeline extracts useful information for classification directly from company websites. In fact, websites are easily accessible sources from which we can extract data regarding companies and the sectors in which they operate. The pipeline supports 13 different languages and it is composed of two parts: a scraping algorithm to extract the most frequent words from each website and a classification algorithm to assign one or more categories to each company. Company data in the Tigheder database is private and cannot be disclosed. For our experiments, we mainly used two partial datasets of about 4000 companies each, obtained after a time-consuming manual cleanup and reclassification work starting from about 100,000 raw entries. We tested four supervised learning techniques to classify the companies of the first dataset in 20 categories and the companies of the second in 81. For this classification task, we have used the American Standard Industrial Classification taxonomy categories. We also conducted experiments in the field of unsupervised learning to explore new possible categories or industrial taxonomies using clustering techniques. WebRatio deployed our pipeline into their systems, using it as a starting point for classifying business data in the Tigheder database.

Questo lavoro, svolto in collaborazione con l'azienda WebRatio, fa parte di Tigheder, un progetto più ampio che mira a creare un social network per le aziende mondiali dove queste possano cercare concorrenti e collaboratori. A tal fine, è utile suddividere le società presenti nel database di Tigheder secondo una tassonomia industriale, ovvero secondo gruppi basati sulle somiglianze delle aziende in termini di servizi offerti e processi produttivi. La classificazione manuale basata su queste tassonomie sarebbe molto onerosa, soprattutto se effettuata su tutte le aziende del mondo, che oggi ammontano a centinaia di milioni. Anche impiegando molto tempo e molte persone per classificare le aziende manualmente, è impensabile mantenere allo stesso modo un dataset aggiornato in modo affidabile, tenendo il passo con acquisizioni, modifiche e cessazioni delle aziende. La necessità di automatizzare questa attività è quindi evidente. Il nostro lavoro all'interno del progetto ha avuto l’obbiettivo di creare una pipeline per classificare automaticamente le aziende per settore industriale utilizzando tecniche di Machine Learning. Abbiamo estratto informazioni utili per la classificazione dai siti web aziendali, fonti facilmente accessibili da cui reperire dati relativi alle aziende e ai settori in cui esse operano. La pipeline supporta 13 lingue diverse. Essa comprende un algoritmo di scraping per estrarre le parole più frequenti da ciascun sito web e un algoritmo di classificazione per assegnare una o più categorie a ciascuna azienda. I dati delle aziende nel database di Tigheder sono privati e non possono essere divulgati. Nei nostri esperimenti abbiamo utilizzato principalmente due dataset da circa 4000 aziende ciascuno, ottenuti dopo un impegnativo lavoro di pulizia e riclassificazione manuale a partire da circa 100.000 aziende. Abbiamo testato quattro tecniche di apprendimento supervisionato per classificare le aziende del primo dataset in 20 categorie e le aziende del secondo in 81 categorie. Per questo lavoro di classificazione, abbiamo utilizzato le categorie della tassonomia americana Standard Industrial Classification. Abbiamo inoltre condotto esperimenti nel campo dell'apprendimento non supervisionato per esplorare nuove possibili categorie o tassonomie industriali utilizzando tecniche di clustering. WebRatio ha messo in funzione la nostra pipeline, utilizzandola come punto di partenza per classificare i dati delle aziende nel database di Tigheder.

A pipeline for company industrial sector classification from unstructured website content

CIMMINO, SIMONE
2021/2022

Abstract

This work, carried out in collaboration with the WebRatio company, is part of Tigheder, a larger project that aims to create a social network for worldwide companies where they can look for competitors and collaborators. For this purpose, it is helpful to divide the companies in the Tigheder database according to an industrial taxonomy, i.e., according to similarities in terms of offered services and production processes. Manual classification according to these taxonomies would be very expensive, mainly if carried out on all companies worldwide, which today amount to hundreds of millions. Even taking a lot of time and people to classify companies manually, it is unfeasible to maintain a reliably up-to-date dataset, keeping up with company acquisitions, changes, and closures. The need to automate this activity is therefore evident. Our work within Tigheder aims to create a pipeline for automatically classifying companies by industrial sector using Machine Learning techniques. Our pipeline extracts useful information for classification directly from company websites. In fact, websites are easily accessible sources from which we can extract data regarding companies and the sectors in which they operate. The pipeline supports 13 different languages and it is composed of two parts: a scraping algorithm to extract the most frequent words from each website and a classification algorithm to assign one or more categories to each company. Company data in the Tigheder database is private and cannot be disclosed. For our experiments, we mainly used two partial datasets of about 4000 companies each, obtained after a time-consuming manual cleanup and reclassification work starting from about 100,000 raw entries. We tested four supervised learning techniques to classify the companies of the first dataset in 20 categories and the companies of the second in 81. For this classification task, we have used the American Standard Industrial Classification taxonomy categories. We also conducted experiments in the field of unsupervised learning to explore new possible categories or industrial taxonomies using clustering techniques. WebRatio deployed our pipeline into their systems, using it as a starting point for classifying business data in the Tigheder database.
ARCHETTI, ALBERTO
ING - Scuola di Ingegneria Industriale e dell'Informazione
22-lug-2022
2021/2022
Questo lavoro, svolto in collaborazione con l'azienda WebRatio, fa parte di Tigheder, un progetto più ampio che mira a creare un social network per le aziende mondiali dove queste possano cercare concorrenti e collaboratori. A tal fine, è utile suddividere le società presenti nel database di Tigheder secondo una tassonomia industriale, ovvero secondo gruppi basati sulle somiglianze delle aziende in termini di servizi offerti e processi produttivi. La classificazione manuale basata su queste tassonomie sarebbe molto onerosa, soprattutto se effettuata su tutte le aziende del mondo, che oggi ammontano a centinaia di milioni. Anche impiegando molto tempo e molte persone per classificare le aziende manualmente, è impensabile mantenere allo stesso modo un dataset aggiornato in modo affidabile, tenendo il passo con acquisizioni, modifiche e cessazioni delle aziende. La necessità di automatizzare questa attività è quindi evidente. Il nostro lavoro all'interno del progetto ha avuto l’obbiettivo di creare una pipeline per classificare automaticamente le aziende per settore industriale utilizzando tecniche di Machine Learning. Abbiamo estratto informazioni utili per la classificazione dai siti web aziendali, fonti facilmente accessibili da cui reperire dati relativi alle aziende e ai settori in cui esse operano. La pipeline supporta 13 lingue diverse. Essa comprende un algoritmo di scraping per estrarre le parole più frequenti da ciascun sito web e un algoritmo di classificazione per assegnare una o più categorie a ciascuna azienda. I dati delle aziende nel database di Tigheder sono privati e non possono essere divulgati. Nei nostri esperimenti abbiamo utilizzato principalmente due dataset da circa 4000 aziende ciascuno, ottenuti dopo un impegnativo lavoro di pulizia e riclassificazione manuale a partire da circa 100.000 aziende. Abbiamo testato quattro tecniche di apprendimento supervisionato per classificare le aziende del primo dataset in 20 categorie e le aziende del secondo in 81 categorie. Per questo lavoro di classificazione, abbiamo utilizzato le categorie della tassonomia americana Standard Industrial Classification. Abbiamo inoltre condotto esperimenti nel campo dell'apprendimento non supervisionato per esplorare nuove possibili categorie o tassonomie industriali utilizzando tecniche di clustering. WebRatio ha messo in funzione la nostra pipeline, utilizzandola come punto di partenza per classificare i dati delle aziende nel database di Tigheder.
File allegati
File Dimensione Formato  
Simone Cimmino - Thesis.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Thesis
Dimensione 3.7 MB
Formato Adobe PDF
3.7 MB Adobe PDF   Visualizza/Apri
Simone Cimmino - Executive Summary.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Executive Summary
Dimensione 631.78 kB
Formato Adobe PDF
631.78 kB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/189677