One of the biggest challenges in the field of machine learning is being able to learn new concepts under the constraint of limited data. While humans can grasp new visual concepts from just one example, contemporary machine learning algorithms require hundreds or thousands of examples and can be very computationally expensive. These algorithms do not generalize well on problems consisting of small datasets. One-shot learning is particularly concerned with this sort of problem, i.e., being able to predict the class of an input image where only one single example is available for each class. In this thesis, we develop a series of deep learning models concerning the one-shot classification problem. In-depth analysis of these models is continuously performed, thus obtaining relevant information, which are used as a guide towards the adjustments that are necessary for improving the models. Consequently, we gain valuable insights on what positively impacts the network performance at the greatest extent. Four different models were developed as step-by-step improvements in terms of architecture, training procedure, as well as data preprocessing. Finally, using the best performing techniques attained during the analysis of our models, combined with the power of transfer learning, we were able to achieve a near state-of-the-art performance in one-shot classification on the Omniglot dataset.

Una delle maggiori sfide nel campo dell'apprendimento automatico è la capacità di apprendere nuovi concetti sotto il vincolo di dati limitati. Mentre gli umani possono cogliere nuovi concetti visivi da un solo esempio, gli algoritmi di machine learning contemporanei richiedono centinaia o migliaia di esempi e possono essere molto costosi dal punto di vista computazionale. Questi algoritmi non si generalizzano bene su problemi costituiti da piccoli set di dati. L'apprendimento one-shot è particolarmente interessato a questo tipo di problema, vale a dire, essere in grado di prevedere la classe di un'immagine di input in cui è disponibile un solo esempio per ogni classe. In questa tesi, sviluppiamo una serie di modelli di apprendimento profondo riguardanti il ​​problema della classificazione one-shot. L'analisi approfondita di questi modelli viene continuamente eseguita, ottenendo così informazioni pertinenti, che vengono utilizzate come guida per le regolazioni necessarie per migliorare i modelli. Di conseguenza, otteniamo preziose informazioni su ciò che influisce positivamente sulle prestazioni della rete nella massima misura. Sono stati sviluppati quattro diversi modelli come miglioramenti passo-passo in termini di architettura, procedura di formazione e preelaborazione dei dati. Infine, utilizzando le migliori tecniche ottenute durante l'analisi dei nostri modelli, in combinazione con la potenza dell'apprendimento del trasferimento, siamo stati in grado di ottenere prestazioni quasi all'avanguardia nella classificazione one-shot sul set di dati Omniglot.

Deep learning methods for one-shot learning on image recognition

SHABANI, BARDH
2019/2020

Abstract

One of the biggest challenges in the field of machine learning is being able to learn new concepts under the constraint of limited data. While humans can grasp new visual concepts from just one example, contemporary machine learning algorithms require hundreds or thousands of examples and can be very computationally expensive. These algorithms do not generalize well on problems consisting of small datasets. One-shot learning is particularly concerned with this sort of problem, i.e., being able to predict the class of an input image where only one single example is available for each class. In this thesis, we develop a series of deep learning models concerning the one-shot classification problem. In-depth analysis of these models is continuously performed, thus obtaining relevant information, which are used as a guide towards the adjustments that are necessary for improving the models. Consequently, we gain valuable insights on what positively impacts the network performance at the greatest extent. Four different models were developed as step-by-step improvements in terms of architecture, training procedure, as well as data preprocessing. Finally, using the best performing techniques attained during the analysis of our models, combined with the power of transfer learning, we were able to achieve a near state-of-the-art performance in one-shot classification on the Omniglot dataset.
ING - Scuola di Ingegneria Industriale e dell'Informazione
29-apr-2020
2019/2020
Una delle maggiori sfide nel campo dell'apprendimento automatico è la capacità di apprendere nuovi concetti sotto il vincolo di dati limitati. Mentre gli umani possono cogliere nuovi concetti visivi da un solo esempio, gli algoritmi di machine learning contemporanei richiedono centinaia o migliaia di esempi e possono essere molto costosi dal punto di vista computazionale. Questi algoritmi non si generalizzano bene su problemi costituiti da piccoli set di dati. L'apprendimento one-shot è particolarmente interessato a questo tipo di problema, vale a dire, essere in grado di prevedere la classe di un'immagine di input in cui è disponibile un solo esempio per ogni classe. In questa tesi, sviluppiamo una serie di modelli di apprendimento profondo riguardanti il ​​problema della classificazione one-shot. L'analisi approfondita di questi modelli viene continuamente eseguita, ottenendo così informazioni pertinenti, che vengono utilizzate come guida per le regolazioni necessarie per migliorare i modelli. Di conseguenza, otteniamo preziose informazioni su ciò che influisce positivamente sulle prestazioni della rete nella massima misura. Sono stati sviluppati quattro diversi modelli come miglioramenti passo-passo in termini di architettura, procedura di formazione e preelaborazione dei dati. Infine, utilizzando le migliori tecniche ottenute durante l'analisi dei nostri modelli, in combinazione con la potenza dell'apprendimento del trasferimento, siamo stati in grado di ottenere prestazioni quasi all'avanguardia nella classificazione one-shot sul set di dati Omniglot.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2020_04_Shabani.pdf

Open Access dal 16/04/2021

Descrizione: Thesis text
Dimensione 1.93 MB
Formato Adobe PDF
1.93 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/164684