In this work we present a novel methodological framework aimed at clustering cross-sectional datasets of Input-Output Tables. Input-Output Tables collect monetary transactions amongst the various sectors of an economic system over a period of time, usually a country considered for a year. To this aim, we apply Non-negative Matrix Factorisation (NMF) to reduce the dimensionality of the dataset. A small number of fundamental "Archetypes" is identified and countries are characterised as the expression of such Archetypes. NMF allows us to decouple the clustering problem into two different parts. The interpretation of the clusters is based on the interpretation of the Archetypes. We consider each Archetype as an economic network and interpret it on the basis of a Random Walk Centrality measure inducing a ranking of its nodes. Such centrality is defined based on the Mean First Passage Time (MFPT) computed considering the propagation of a small and indivisible supply-side shock hitting another sector. Clustering is computed considering the economies as the expression of the different Archetypes. We implement a k-medoid algorithm and compare two different metrics: the well-known Euclidean metric and the Aitchison metric. The Aitchison metric belongs to the framework of compositional data analysis, a branch of statistics whose focus is the analysis of the parts constituting the datapoint notwithstanding the total. This allows for a characterisation of countries considering the mix that originates them. The analysis is conducted on the OECD Input-Output Table database.

Il presente lavoro di tesi definisce una metodologia innovativa finalizzata al clustering di dataset cross-sectional di tavole Input-Output. Una tavola Input-Output offre una rappresentazione schematica di un sistema economico, registrando le transazioni tra vari settori di un’economia lungo un arco di tempo, mediante flussi monetari. Il problema che ci proponiamo di risolvere presenta svariati fattori di complessità. Anzitutto, per rendere le tavole raffrontabili, gli istituti che si occupano della loro pubblicazione armonizzano i dati a scapito di una significativa perdita di dettaglio rispetto alle misurazioni nazionali. Una seconda problematica è costituita dalla difficoltà di interpretazione di un cluster, una volta che questo sia stato individuato. Ogni nazione, infatti, è il frutto di un processo storico unico e particolare, del quale le tavole Input-Output provano a catturare l’aspetto economico. Questo rende l’interpretazione del clustering particolarmente difficile, dal momento che non ci è possibile validare i nostri risultati con una misura della loro bontà diversa dall’omogeneità interna e dal rapporto tra questi e le nostre aspettative. La nostra analisi propone una soluzione alle problematiche evidenziate mediante una decomposizione del problema in due parti. Attraverso una tecnica di riduzione dimensionale nota come Non-negative Matrix Factorisation, ipotizziamo che sia possibile individuare un numero ridotto e significativo di "archetipi". I vari paesi che analizziamo vengono quindi considerati come espressione di diversi livelli di attivazione di questi archetipi. L’interpretazione degli archetipi avviene considerando ciascuno di questi come un network economico. Ogni network viene caratterizzato in relazione alle sue modalità di reazione a uno shock economico lato domanda, considerando come centrali quei settori raggiunti più velocemente. Il clustering avviene quindi considerando i paesi in questo nuovo sistema di coordinate. A questo fine, vengono considerate due metriche diverse. La prima metrica è la ben nota distanza euclidea: in questo caso ci aspettiamo che due paesi appartenenti allo stesso gruppo mostrino attivazioni di intensità simile per tutte le componenti. La seconda metrica che utilizziamo è la metrica di Aitchison. Tale metrica appartiene all’insieme di tecniche statistiche afferenti al campo della statistica composizionale. In questo caso, la distanza viene calcolata considerando i rapporti tra le varie attivazioni e prescindendo dai valori complessivi di queste ultime. L’ipotesi che sottende questo metodo è che l’informazione non sia contenuta nei dati in quanto tali, ma nelle proporzioni tra le parti che li compongono. Il clustering viene effettuato mediante un algoritmo k-medoids, in modo da trovare, per ogni cluster, un prototipo che ne rappresenti i membri. L’analisi dei dati è stata condotta sul dataset di tavole Input-Output elaborato dall’OCSE (Organizzazione per la cooperazione e lo sviluppo economico), nella sua terza revisione.

Non-negative matrix factorization and compositional clustering of national input-output tables

MASCARETTI, ANDREA
2018/2019

Abstract

In this work we present a novel methodological framework aimed at clustering cross-sectional datasets of Input-Output Tables. Input-Output Tables collect monetary transactions amongst the various sectors of an economic system over a period of time, usually a country considered for a year. To this aim, we apply Non-negative Matrix Factorisation (NMF) to reduce the dimensionality of the dataset. A small number of fundamental "Archetypes" is identified and countries are characterised as the expression of such Archetypes. NMF allows us to decouple the clustering problem into two different parts. The interpretation of the clusters is based on the interpretation of the Archetypes. We consider each Archetype as an economic network and interpret it on the basis of a Random Walk Centrality measure inducing a ranking of its nodes. Such centrality is defined based on the Mean First Passage Time (MFPT) computed considering the propagation of a small and indivisible supply-side shock hitting another sector. Clustering is computed considering the economies as the expression of the different Archetypes. We implement a k-medoid algorithm and compare two different metrics: the well-known Euclidean metric and the Aitchison metric. The Aitchison metric belongs to the framework of compositional data analysis, a branch of statistics whose focus is the analysis of the parts constituting the datapoint notwithstanding the total. This allows for a characterisation of countries considering the mix that originates them. The analysis is conducted on the OECD Input-Output Table database.
ARENA, MARIKA
MENAFOGLIO, ALESSANDRA
ING - Scuola di Ingegneria Industriale e dell'Informazione
16-apr-2019
2018/2019
Il presente lavoro di tesi definisce una metodologia innovativa finalizzata al clustering di dataset cross-sectional di tavole Input-Output. Una tavola Input-Output offre una rappresentazione schematica di un sistema economico, registrando le transazioni tra vari settori di un’economia lungo un arco di tempo, mediante flussi monetari. Il problema che ci proponiamo di risolvere presenta svariati fattori di complessità. Anzitutto, per rendere le tavole raffrontabili, gli istituti che si occupano della loro pubblicazione armonizzano i dati a scapito di una significativa perdita di dettaglio rispetto alle misurazioni nazionali. Una seconda problematica è costituita dalla difficoltà di interpretazione di un cluster, una volta che questo sia stato individuato. Ogni nazione, infatti, è il frutto di un processo storico unico e particolare, del quale le tavole Input-Output provano a catturare l’aspetto economico. Questo rende l’interpretazione del clustering particolarmente difficile, dal momento che non ci è possibile validare i nostri risultati con una misura della loro bontà diversa dall’omogeneità interna e dal rapporto tra questi e le nostre aspettative. La nostra analisi propone una soluzione alle problematiche evidenziate mediante una decomposizione del problema in due parti. Attraverso una tecnica di riduzione dimensionale nota come Non-negative Matrix Factorisation, ipotizziamo che sia possibile individuare un numero ridotto e significativo di "archetipi". I vari paesi che analizziamo vengono quindi considerati come espressione di diversi livelli di attivazione di questi archetipi. L’interpretazione degli archetipi avviene considerando ciascuno di questi come un network economico. Ogni network viene caratterizzato in relazione alle sue modalità di reazione a uno shock economico lato domanda, considerando come centrali quei settori raggiunti più velocemente. Il clustering avviene quindi considerando i paesi in questo nuovo sistema di coordinate. A questo fine, vengono considerate due metriche diverse. La prima metrica è la ben nota distanza euclidea: in questo caso ci aspettiamo che due paesi appartenenti allo stesso gruppo mostrino attivazioni di intensità simile per tutte le componenti. La seconda metrica che utilizziamo è la metrica di Aitchison. Tale metrica appartiene all’insieme di tecniche statistiche afferenti al campo della statistica composizionale. In questo caso, la distanza viene calcolata considerando i rapporti tra le varie attivazioni e prescindendo dai valori complessivi di queste ultime. L’ipotesi che sottende questo metodo è che l’informazione non sia contenuta nei dati in quanto tali, ma nelle proporzioni tra le parti che li compongono. Il clustering viene effettuato mediante un algoritmo k-medoids, in modo da trovare, per ogni cluster, un prototipo che ne rappresenti i membri. L’analisi dei dati è stata condotta sul dataset di tavole Input-Output elaborato dall’OCSE (Organizzazione per la cooperazione e lo sviluppo economico), nella sua terza revisione.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2019_04_Mascaretti.pdf

Open Access dal 02/04/2020

Descrizione: Testo della tesi
Dimensione 2.79 MB
Formato Adobe PDF
2.79 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/146061