In recent years, deep neural networks have become an indispensable tool for a wide range of applications, on which they have achieved extremely high predictive accuracy, in many cases, on par with human performance. These models led to great improvements in state-of-the-art results of many difficult tasks, such as image classification, speech recognition, or natural language processing. A considerable huge amount of data is a fundamental, necessary condition for training deep learning architectures, since is in their nature to be extremely data hungry models. Another factor that must be taken into account is that deep learning requires high-performance computational resources and very long training times. An approach that helps overcoming the problem of computational cost is transfer learning, that consists of leveraging the knowledge acquired by a model, trained on a source task, to solve a target task, saving time and energy. This thesis explores the field of transfer learning in two very different scenarios: image recognition and resolution of differential equations. In both cases, we investigated previous research works in the literature, trying to improve and extend proposed techniques on one hand, and developing new ideas and new approaches on the other. In the image recognition task, which is a supervised learning scenario, we focus on the problem of data impact in a transfer learning setting. In this scenario, we developed different criteria to select a subsample (i.e. perform a data selection) of the target dataset, in order to train in a smarter and faster way. We tested the different criteria on a variety of combinations of datasets, distortions and models, finding that results are poorly generalizable. In the scenario of resolution of differential equations, instead, we have no actual data, hence we focused on the problem of the perturbation of the initial conditions and the parameters of the equations, investigating how transfer learning helps with this particular type of distortions, and proposing new network architectures. We show how transfer learning accelerates the resolution of several systems of differential equations and that it becomes even more helpful with our modifications to the source-trained network.

Negli ultimi anni, le reti neurali profonde sono diventate un indispensabile strumento per un’ampia gamma di applicazioni, in cui hanno raggiunto un’alta precisione predittiva, spesso alla pari della performance umana. Questi modelli hanno portato a grandi miglioramenti allo stato dell’arte di molti problemi complessi, come classificazione di immagini, riconoscimento vocale o elaborazione del linguaggio naturale. Una considerevolmente grande quantità di dati è una condizione necessaria e fondamentale per allenare architetture di apprendimento profondo, dato che è nella loro natura essere modelli estrememamente affamati di dati. Un altro fattore di cui tener conto è che l’apprendimento profondo richiede risorse computazionali ad alte performance e tempi di allenamento molto lunghi. Un appproccio che aiuta a superare il problema del costo computazionale è il trasferimento dell’apprendimento, che consiste nello sfruttare la conoscenza acquisita da un modello, allenato su un problema origine, per risolvere un problema obiettivo, risparmiando tempo ed energia. Questa tesi esplora il campo del trasferimento dell’apprendimento in due scenari molto differenti: riconoscimento di immagini e risoluzione di equazioni differenziali. In entrambi i casi, abbiamo investigato precedenti lavori di ricerca in letteratura, cercando sia di migliorare ed estendere le tecniche proposte, sia di sviluppare nuove idee e nuovi approcci. Nell’ambito del riconoscimento di immagini, che è uno scenario di apprendimento supervisionato, ci focalizziamo sul problema dell’impatto dei dati in un contesto di trasferimento dell’apprendimento. In tale ambito, abbiamo sviluppato diversi criteri per selezionare un sottoinsieme (i.e. effettuare una selezione dei dati) nel dataset obiettivo, per allenare in modo più intelligente e veloce. Abbiamo testato diversi criteri su una varietà di combinazioni di dataset, distorsioni e modelli, scoprendo che i risultati non sono generalizzabili. Nell’ambito della risoluzione di equazioni differenziali, invece, non abbiamo veri dati, perciò ci siamo focalizzati sul problema della perturbazione delle condizioni iniziali e dei parametri dell’equazione, investigando come il trasferimento dell’apprendimento può aiutare con questo particolare tipo di distorsioni, e proponendo nuove architetture per le reti. Mostriamo come il trasferimento dell’apprendimento accelera la risoluzione di molti sistemi di equazioni differenziali e che diventa ancora più vantaggioso con le nostre modifiche alla rete allenata sul problema d’origine.

Improving domain-specific transfer learning applications for image recognition and differential equations

PATICCHIO, ALESSANDRO SAVERIO;SCARLATTI, TOMMASO
2018/2019

Abstract

In recent years, deep neural networks have become an indispensable tool for a wide range of applications, on which they have achieved extremely high predictive accuracy, in many cases, on par with human performance. These models led to great improvements in state-of-the-art results of many difficult tasks, such as image classification, speech recognition, or natural language processing. A considerable huge amount of data is a fundamental, necessary condition for training deep learning architectures, since is in their nature to be extremely data hungry models. Another factor that must be taken into account is that deep learning requires high-performance computational resources and very long training times. An approach that helps overcoming the problem of computational cost is transfer learning, that consists of leveraging the knowledge acquired by a model, trained on a source task, to solve a target task, saving time and energy. This thesis explores the field of transfer learning in two very different scenarios: image recognition and resolution of differential equations. In both cases, we investigated previous research works in the literature, trying to improve and extend proposed techniques on one hand, and developing new ideas and new approaches on the other. In the image recognition task, which is a supervised learning scenario, we focus on the problem of data impact in a transfer learning setting. In this scenario, we developed different criteria to select a subsample (i.e. perform a data selection) of the target dataset, in order to train in a smarter and faster way. We tested the different criteria on a variety of combinations of datasets, distortions and models, finding that results are poorly generalizable. In the scenario of resolution of differential equations, instead, we have no actual data, hence we focused on the problem of the perturbation of the initial conditions and the parameters of the equations, investigating how transfer learning helps with this particular type of distortions, and proposing new network architectures. We show how transfer learning accelerates the resolution of several systems of differential equations and that it becomes even more helpful with our modifications to the source-trained network.
PROTOPAPAS, PAVLOS
ING - Scuola di Ingegneria Industriale e dell'Informazione
6-giu-2020
2018/2019
Negli ultimi anni, le reti neurali profonde sono diventate un indispensabile strumento per un’ampia gamma di applicazioni, in cui hanno raggiunto un’alta precisione predittiva, spesso alla pari della performance umana. Questi modelli hanno portato a grandi miglioramenti allo stato dell’arte di molti problemi complessi, come classificazione di immagini, riconoscimento vocale o elaborazione del linguaggio naturale. Una considerevolmente grande quantità di dati è una condizione necessaria e fondamentale per allenare architetture di apprendimento profondo, dato che è nella loro natura essere modelli estrememamente affamati di dati. Un altro fattore di cui tener conto è che l’apprendimento profondo richiede risorse computazionali ad alte performance e tempi di allenamento molto lunghi. Un appproccio che aiuta a superare il problema del costo computazionale è il trasferimento dell’apprendimento, che consiste nello sfruttare la conoscenza acquisita da un modello, allenato su un problema origine, per risolvere un problema obiettivo, risparmiando tempo ed energia. Questa tesi esplora il campo del trasferimento dell’apprendimento in due scenari molto differenti: riconoscimento di immagini e risoluzione di equazioni differenziali. In entrambi i casi, abbiamo investigato precedenti lavori di ricerca in letteratura, cercando sia di migliorare ed estendere le tecniche proposte, sia di sviluppare nuove idee e nuovi approcci. Nell’ambito del riconoscimento di immagini, che è uno scenario di apprendimento supervisionato, ci focalizziamo sul problema dell’impatto dei dati in un contesto di trasferimento dell’apprendimento. In tale ambito, abbiamo sviluppato diversi criteri per selezionare un sottoinsieme (i.e. effettuare una selezione dei dati) nel dataset obiettivo, per allenare in modo più intelligente e veloce. Abbiamo testato diversi criteri su una varietà di combinazioni di dataset, distorsioni e modelli, scoprendo che i risultati non sono generalizzabili. Nell’ambito della risoluzione di equazioni differenziali, invece, non abbiamo veri dati, perciò ci siamo focalizzati sul problema della perturbazione delle condizioni iniziali e dei parametri dell’equazione, investigando come il trasferimento dell’apprendimento può aiutare con questo particolare tipo di distorsioni, e proponendo nuove architetture per le reti. Mostriamo come il trasferimento dell’apprendimento accelera la risoluzione di molti sistemi di equazioni differenziali e che diventa ancora più vantaggioso con le nostre modifiche alla rete allenata sul problema d’origine.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
Thesis_Paticchio_Scarlatti.pdf

accessibile in internet per tutti

Descrizione: Tesi
Dimensione 8.15 MB
Formato Adobe PDF
8.15 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/164376