Tropical cyclones (TCs) are among the most devastating extreme meteorological events, causing every year dramatic losses both in terms of life and economic damages. Studying TCs can help minimising their impacts on local economies. In this work, we contribute a methodology to estimate Tropical Cyclones intensity from brightness temperature images using Convolutional Neural Networks (CNNs). In particular, we provide new techniques to alleviate the intrinsic imabalance in existing datasets, which make it difficult for learning algorithms to generalize to rare classes. This issue is particularly relevant in TC studies, since high-intensity events are more rare than weaker ones. The dataset considered here is composed of satellite images from GridSat-B1 and observed intensities from IBTraCS, and it represents the largest dataset available in the literature. Following the transfer learning method, we test ResNet, DenseNet and EfficientNet on the original dataset, freezing the deeper convolutional layers and adapting the head of the network to the particular regression problem. We use a Gini-inspired coefficient to evaluate how much the distribution of samples differs from the uniform one and, therefore, to monitor the effects of the augmented dataset on the trained network performances. Clear trends in performance are detected according to different combinations of augmentation techniques employed to build the training dataset. We adapt random erasing and use it in combination with traditional augmentation approaches, such as horizontal and vertical flipping or random rotation, demonstrating it to be effective in preventing overfitting. Label distribution smoothing is also employed here to alleviate the imbalance between contiguous target labels, coupled with the Focal-R loss function to enhance the learning of less represented targets. Relevant improvements in performances are obtained in most intense classes on the test dataset, demonstrating to be a promising technique. The performance obtained on the different trained models show that the chosen data augmentation strategy has a relevant impact on the final mean absolute error, suggesting it can enhance the generalisability of the model. Lastly, a brief discussion of Grad-CAM heatmaps is introduced as a representation of features used by the CNN to predict new images. Three classes of features are identified, in which image borders, ring-like shapes or concentrated circular gradients are highlighted, respectively. These initial observations suggest that in the first scenario, the neural network seeks information that crosses the image boundaries. In the second scenario, it appears that the network is looking for temperature values related to wind patterns located at a certain radius. In the third scenario, the network seems to focus on identifying and analyzing particular features within the image, such as the eye of a tropical cyclone or distinctive cloud patterns, and disregarding other portions of the image. This is accomplished by applying a focused gradient to the relevant area of the image.

I cicloni tropicali (TC) sono tra gli eventi meteorologici estremi più devastanti e causano ogni anno perdite drammatiche sia in termini di vite umane che di perdite economiche. Lo studio dei cicloni tropicali può contribuire a migliorare le capacità di previsione e, di conseguenza, a minimizzare il loro impatto sulle economie locali. Il presente studio affronta il problema della stima dell’intensità dei cicloni tropicali tramite l’interpretazione delle immagini satellitari con l’utilizzo del machine learning. In particolare, per svolgere tale compito vengono utilizzate Convolutional Neural Network (CNN), che ricevono come input immagini relative alla temperatura radiante e restituiscono una stima sulla velocità massima del vento. Il dataset utilizzato è costituito da un insieme di immagini prese da GridSat (database del NOAA), rappresentanti cicloni tropicali, di varia intensità e sparsi su tutto il globo, e dai target presi da IBTraCS. Questo dataset è il più vasto utilizzato fino ad ora in letteratura. I dati relativi a questo fenomeno climatico sono caratterizzati dal problema del data imbalance, avendo molti campioni relativi alle intensità meno elevate e una scarsa rappresentatività dei fenomeni più estremi. Lo scopo principale dello studio è quello di proporre nuove tecniche che siano in grado di alleviare questo problema in modo più efficiente rispetto a quanto fatto fino ad ora. Lápproccio scelto è quello del transfer learning, grazie al quale è possibile prendere delle reti neurali che sono già state allenate su dataset notevolmente più grandi e sono state ottimizzate per l’estrapolazione di elementi dall’immagine. Per adattare la rete neurale allo scopo desiderato è necessario ricostruire parte dell’architettura, concentrandosi soprattutto sui fully connected layer. Pertanto, definiti gli ultimi layer della rete, si effettua un training per calibrare i relativi parametri. Nel frattempo, i parametri degli strati più profondi rimarranno costanti. Per affrontare questo tema, come prima cosa viene definito un coefficiente ispirato a quello proposto da Gini, adattandolo a tale scopo. Tale coefficiente è una misura della diversità della distribuzione del dataset ottenuto rispetto alla distribuzione uniforme. Questo coefficiente si è rivelato particolarmente utile al monitoraggio dell’efficacia delle diverse tecniche di data augmentation, fornendo un’indicazione più puntuale rispetto al numero di input. Confrontando varie tecniche di data augmentation, viene proposto un adattamento del random erasing al problema, riproducendo la reale difficoltà della perdita di dati all’interno delle immagini satellitari. Tale tecnica si è rivelata efficace, soprattutto sulle classi più intense e meno rappresentate, dimostrandosi una valida alternativa alle tecniche utilizzate in letteratura. Successivamente, viene proposto un cambiamento nell’approccio da seguire. Si testa in tal senso l’efficacia delle tecniche Label Distribution Smoothing accoppiate ad una loss function che sia funzione della frequenza dei target. L’LDS, tramite un filtro gaussiano, allevia le differenze intrinseche presenti nella numerosità dei target presenti per valore di velocità del vento, trasferendo l’informazione ai label limitrofi. La loss function testata è la Focal-R, funzione di un peso inversamente proporzionale alla frequenza assoluta del target all’interno del campione. In questo modo, viene pesato maggiormente lo scarto tra valore reale e la predizione di una classe meno rappresentata, inducendo la rete ad imparare maggiormente da questa per abbassare il valore globale della loss function. Tali tecniche si sono rivelate molto efficaci sulle classi più intense e meno rappresentate. Infine, vengono brevemente introdotte le heatmaps ispirate alla tipologia Grad-CAM come metodologia per la visualizzazione di feature importanti per la rete neurale nella stima dell’intensità. Vengono individuate tre classi principali di immagini. Nella prima, la rete pone peso maggiore in prossimità del bordo dell’immagine; ciò fa sospettare che in alcuni casi l’informazione sia tagliata fuori a valle della scelta della dimensione. La seconda classe presenta delle strutture ad anello; in tali casi la stima viene fatta in base a particolari informazioni contenute ad un raggio dal centro del ciclone più o meno costante. La terza classe presenta delle strutture circolari, con un gradiente delimitante una zona molto ristretta dell’immagine. In questo caso, quando la rete riesce a distinguere un elemento importante nell’immagine, come ad esempio l’occhio del ciclone, si concentra attorno a tale figura, tralasciando il resto.

Discovering data augmentation best practices for tropical cyclone intensity estimation with deep learning

PALCIC, GIULIO
2021/2022

Abstract

Tropical cyclones (TCs) are among the most devastating extreme meteorological events, causing every year dramatic losses both in terms of life and economic damages. Studying TCs can help minimising their impacts on local economies. In this work, we contribute a methodology to estimate Tropical Cyclones intensity from brightness temperature images using Convolutional Neural Networks (CNNs). In particular, we provide new techniques to alleviate the intrinsic imabalance in existing datasets, which make it difficult for learning algorithms to generalize to rare classes. This issue is particularly relevant in TC studies, since high-intensity events are more rare than weaker ones. The dataset considered here is composed of satellite images from GridSat-B1 and observed intensities from IBTraCS, and it represents the largest dataset available in the literature. Following the transfer learning method, we test ResNet, DenseNet and EfficientNet on the original dataset, freezing the deeper convolutional layers and adapting the head of the network to the particular regression problem. We use a Gini-inspired coefficient to evaluate how much the distribution of samples differs from the uniform one and, therefore, to monitor the effects of the augmented dataset on the trained network performances. Clear trends in performance are detected according to different combinations of augmentation techniques employed to build the training dataset. We adapt random erasing and use it in combination with traditional augmentation approaches, such as horizontal and vertical flipping or random rotation, demonstrating it to be effective in preventing overfitting. Label distribution smoothing is also employed here to alleviate the imbalance between contiguous target labels, coupled with the Focal-R loss function to enhance the learning of less represented targets. Relevant improvements in performances are obtained in most intense classes on the test dataset, demonstrating to be a promising technique. The performance obtained on the different trained models show that the chosen data augmentation strategy has a relevant impact on the final mean absolute error, suggesting it can enhance the generalisability of the model. Lastly, a brief discussion of Grad-CAM heatmaps is introduced as a representation of features used by the CNN to predict new images. Three classes of features are identified, in which image borders, ring-like shapes or concentrated circular gradients are highlighted, respectively. These initial observations suggest that in the first scenario, the neural network seeks information that crosses the image boundaries. In the second scenario, it appears that the network is looking for temperature values related to wind patterns located at a certain radius. In the third scenario, the network seems to focus on identifying and analyzing particular features within the image, such as the eye of a tropical cyclone or distinctive cloud patterns, and disregarding other portions of the image. This is accomplished by applying a focused gradient to the relevant area of the image.
ASCENSO, GUIDO
ING I - Scuola di Ingegneria Civile, Ambientale e Territoriale
4-mag-2023
2021/2022
I cicloni tropicali (TC) sono tra gli eventi meteorologici estremi più devastanti e causano ogni anno perdite drammatiche sia in termini di vite umane che di perdite economiche. Lo studio dei cicloni tropicali può contribuire a migliorare le capacità di previsione e, di conseguenza, a minimizzare il loro impatto sulle economie locali. Il presente studio affronta il problema della stima dell’intensità dei cicloni tropicali tramite l’interpretazione delle immagini satellitari con l’utilizzo del machine learning. In particolare, per svolgere tale compito vengono utilizzate Convolutional Neural Network (CNN), che ricevono come input immagini relative alla temperatura radiante e restituiscono una stima sulla velocità massima del vento. Il dataset utilizzato è costituito da un insieme di immagini prese da GridSat (database del NOAA), rappresentanti cicloni tropicali, di varia intensità e sparsi su tutto il globo, e dai target presi da IBTraCS. Questo dataset è il più vasto utilizzato fino ad ora in letteratura. I dati relativi a questo fenomeno climatico sono caratterizzati dal problema del data imbalance, avendo molti campioni relativi alle intensità meno elevate e una scarsa rappresentatività dei fenomeni più estremi. Lo scopo principale dello studio è quello di proporre nuove tecniche che siano in grado di alleviare questo problema in modo più efficiente rispetto a quanto fatto fino ad ora. Lápproccio scelto è quello del transfer learning, grazie al quale è possibile prendere delle reti neurali che sono già state allenate su dataset notevolmente più grandi e sono state ottimizzate per l’estrapolazione di elementi dall’immagine. Per adattare la rete neurale allo scopo desiderato è necessario ricostruire parte dell’architettura, concentrandosi soprattutto sui fully connected layer. Pertanto, definiti gli ultimi layer della rete, si effettua un training per calibrare i relativi parametri. Nel frattempo, i parametri degli strati più profondi rimarranno costanti. Per affrontare questo tema, come prima cosa viene definito un coefficiente ispirato a quello proposto da Gini, adattandolo a tale scopo. Tale coefficiente è una misura della diversità della distribuzione del dataset ottenuto rispetto alla distribuzione uniforme. Questo coefficiente si è rivelato particolarmente utile al monitoraggio dell’efficacia delle diverse tecniche di data augmentation, fornendo un’indicazione più puntuale rispetto al numero di input. Confrontando varie tecniche di data augmentation, viene proposto un adattamento del random erasing al problema, riproducendo la reale difficoltà della perdita di dati all’interno delle immagini satellitari. Tale tecnica si è rivelata efficace, soprattutto sulle classi più intense e meno rappresentate, dimostrandosi una valida alternativa alle tecniche utilizzate in letteratura. Successivamente, viene proposto un cambiamento nell’approccio da seguire. Si testa in tal senso l’efficacia delle tecniche Label Distribution Smoothing accoppiate ad una loss function che sia funzione della frequenza dei target. L’LDS, tramite un filtro gaussiano, allevia le differenze intrinseche presenti nella numerosità dei target presenti per valore di velocità del vento, trasferendo l’informazione ai label limitrofi. La loss function testata è la Focal-R, funzione di un peso inversamente proporzionale alla frequenza assoluta del target all’interno del campione. In questo modo, viene pesato maggiormente lo scarto tra valore reale e la predizione di una classe meno rappresentata, inducendo la rete ad imparare maggiormente da questa per abbassare il valore globale della loss function. Tali tecniche si sono rivelate molto efficaci sulle classi più intense e meno rappresentate. Infine, vengono brevemente introdotte le heatmaps ispirate alla tipologia Grad-CAM come metodologia per la visualizzazione di feature importanti per la rete neurale nella stima dell’intensità. Vengono individuate tre classi principali di immagini. Nella prima, la rete pone peso maggiore in prossimità del bordo dell’immagine; ciò fa sospettare che in alcuni casi l’informazione sia tagliata fuori a valle della scelta della dimensione. La seconda classe presenta delle strutture ad anello; in tali casi la stima viene fatta in base a particolari informazioni contenute ad un raggio dal centro del ciclone più o meno costante. La terza classe presenta delle strutture circolari, con un gradiente delimitante una zona molto ristretta dell’immagine. In questo caso, quando la rete riesce a distinguere un elemento importante nell’immagine, come ad esempio l’occhio del ciclone, si concentra attorno a tale figura, tralasciando il resto.
File allegati
File Dimensione Formato  
Master_Thesis_Giulio_Palcic.pdf

Open Access dal 18/04/2024

Dimensione 6.3 MB
Formato Adobe PDF
6.3 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/212352