Bank failure could create bad effects for the whole economic system. Financial crisis, that involves world economy in last three years and that is having lasting effects in real economy, caused great difficulties to banks and, in some case, the failure of few of them. These banks, however, were good evaluated by rating agencies just few days before their default. My thesis starts from this consideration and aims to test different classifiers to predict bank ratings and, as a consequence, their default probabilities. For the purpose of my thesis, I prepare a data set based on 864 financial institutions from Europe and North America. Each bank is characterized by 38 financial ratios derived from balance sheet and income statement. Ratios describe assets quality, capital, operations and liquidity of the bank. A second data set is created from the original one: 489 banks with reduced missing values are include in it. Next step was to substitute outlier and replace missing values by the mean value: a third data set is built in this way. Eventually, Principal Component Analysis was made to create a forth data set, characterized by only seven dependent variables – linear combination of the original ones. Analysis on these data sets follow two different ways: on the one hand, a binary classification to divide solvent banks from insolvent ones; on the other, a multiclass classification to determine correct rating class for each bank. Different models are used to reach the scope of the thesis: logistic regression, nearest-neighbour approach, decision trees, bayesian networks, neural networks and Support Vector Machines. In addition, hybrid classifiers were built. Results show that SVM and hybrid instruments give higher value of accuracy. In detail, SVM obtain a 97% of correct classification for binary classification. For multiclass classification, hybrid classifier, that combines SVM and decision trees, gives an accuracy a bit over 65%; if I consider the possibility to make a classification with a 1-notch mistake, this classifier reaches an accuracy over 92%.

Il fallimento di una banca può causare effetti devastanti per l’intero sistema economico. La crisi che ha coinvolto l’economia mondiale nel biennio 2008/2009 e che ancora impatta su gran parte del mondo ha causato enormi difficoltà e, in alcuni casi, il fallimento di diverse banche. Tali banche, tuttavia, erano state valutate in maniera positiva dalle società di rating poco prima del default. Da questa considerazione ha preso spunto l’idea di testare modelli di classificazione per predire lo stato economico-finanziario di una banca. Per tale scopo è stato costruito un data set con 864 banche del mondo Occidentale. Ogni banca presenta 38 indicatori, creati dalle variabili di bilancio, che si riferiscono alla qualità degli asset, al capitale sociale, all’operatività e alla liquidità. Un secondo data set è stato creato considerando solo le banche con un numero ridotto di dati mancanti. In seguito, eliminando gli outlier e sostituendo i dati mancanti con il valor medio, è stato costruito un terzo data set. Infine, tramite la Principal Component Analysis si è creato un quarto data set, con soltanto 7 attributi esplicativi – combinazione lineare degli originali. Le analisi svolte hanno seguito due diversi vie: da un lato, la classificazione binaria - separando le banche solventi da quelle in difficoltà; dall’altro, la classificazione multi-categorica - per attribuire il rating corretto a ogni banca. In particolare, sono presentate diverse metodologie di analisi: dalla regressione logistica all’approccio nearest-neighbour, dagli alberi di decisione alle reti neurali, dai classificatori bayesiani alle Support vector machine. In aggiunta, sono creati modelli ibridi, combinando i classificatori citati. I risultati mostrano che le SVM e gli strumenti ibridi garantiscono l’accuratezza migliore. In particolare, per la classificazione binaria, le SVM ottengono un’accuratezza del 97%. Per la classificazione multi-categorica, lo strumento ibrido che combina le SVM con gli alberi di decisione garantisce un’accuratezza del 65%; se si considera, tuttavia, la possibilità di un errore di previsione di una classe, tale strumento fornisce un valore di accuratezza superiore al 92%.

L'utilizzo delle support vector machine e di strumenti ibridi nella stima del rating bancario

CANTU', STEFANO
2009/2010

Abstract

Bank failure could create bad effects for the whole economic system. Financial crisis, that involves world economy in last three years and that is having lasting effects in real economy, caused great difficulties to banks and, in some case, the failure of few of them. These banks, however, were good evaluated by rating agencies just few days before their default. My thesis starts from this consideration and aims to test different classifiers to predict bank ratings and, as a consequence, their default probabilities. For the purpose of my thesis, I prepare a data set based on 864 financial institutions from Europe and North America. Each bank is characterized by 38 financial ratios derived from balance sheet and income statement. Ratios describe assets quality, capital, operations and liquidity of the bank. A second data set is created from the original one: 489 banks with reduced missing values are include in it. Next step was to substitute outlier and replace missing values by the mean value: a third data set is built in this way. Eventually, Principal Component Analysis was made to create a forth data set, characterized by only seven dependent variables – linear combination of the original ones. Analysis on these data sets follow two different ways: on the one hand, a binary classification to divide solvent banks from insolvent ones; on the other, a multiclass classification to determine correct rating class for each bank. Different models are used to reach the scope of the thesis: logistic regression, nearest-neighbour approach, decision trees, bayesian networks, neural networks and Support Vector Machines. In addition, hybrid classifiers were built. Results show that SVM and hybrid instruments give higher value of accuracy. In detail, SVM obtain a 97% of correct classification for binary classification. For multiclass classification, hybrid classifier, that combines SVM and decision trees, gives an accuracy a bit over 65%; if I consider the possibility to make a classification with a 1-notch mistake, this classifier reaches an accuracy over 92%.
ING II - Facolta' di Ingegneria dei Sistemi
21-dic-2010
2009/2010
Il fallimento di una banca può causare effetti devastanti per l’intero sistema economico. La crisi che ha coinvolto l’economia mondiale nel biennio 2008/2009 e che ancora impatta su gran parte del mondo ha causato enormi difficoltà e, in alcuni casi, il fallimento di diverse banche. Tali banche, tuttavia, erano state valutate in maniera positiva dalle società di rating poco prima del default. Da questa considerazione ha preso spunto l’idea di testare modelli di classificazione per predire lo stato economico-finanziario di una banca. Per tale scopo è stato costruito un data set con 864 banche del mondo Occidentale. Ogni banca presenta 38 indicatori, creati dalle variabili di bilancio, che si riferiscono alla qualità degli asset, al capitale sociale, all’operatività e alla liquidità. Un secondo data set è stato creato considerando solo le banche con un numero ridotto di dati mancanti. In seguito, eliminando gli outlier e sostituendo i dati mancanti con il valor medio, è stato costruito un terzo data set. Infine, tramite la Principal Component Analysis si è creato un quarto data set, con soltanto 7 attributi esplicativi – combinazione lineare degli originali. Le analisi svolte hanno seguito due diversi vie: da un lato, la classificazione binaria - separando le banche solventi da quelle in difficoltà; dall’altro, la classificazione multi-categorica - per attribuire il rating corretto a ogni banca. In particolare, sono presentate diverse metodologie di analisi: dalla regressione logistica all’approccio nearest-neighbour, dagli alberi di decisione alle reti neurali, dai classificatori bayesiani alle Support vector machine. In aggiunta, sono creati modelli ibridi, combinando i classificatori citati. I risultati mostrano che le SVM e gli strumenti ibridi garantiscono l’accuratezza migliore. In particolare, per la classificazione binaria, le SVM ottengono un’accuratezza del 97%. Per la classificazione multi-categorica, lo strumento ibrido che combina le SVM con gli alberi di decisione garantisce un’accuratezza del 65%; se si considera, tuttavia, la possibilità di un errore di previsione di una classe, tale strumento fornisce un valore di accuratezza superiore al 92%.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2010_12_Cantù.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Testo della tesi
Dimensione 2.45 MB
Formato Adobe PDF
2.45 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/10382