Machine Learning (ML) is a fascinating field of research. In the era of knowledge, being able to find the right information in enormous amounts of data (e.g., the internet) and summarize it in a form that is compact and yet retains all the content one is interested in, is a key factor of success or failure in many fields. I am particularly interested in applying ML to vision problems because we, as humans, rely heavily on vision for our daily operations. Improvements in the technology at our disposal to interpret visual data can have a direct and remarkably rapid impact on many practical applications such as assist or automate driving, analyze medical images, aid surgeons in the operating room or improve the quality of life for visually impaired people. This manuscript presents my work on Recurrent Neural Networks (RNNs) and RNN-based models applied to visual data, describing three models I proposed, namely ReNet, ReSeg and DEConvLSTM. The first is an RNN-based alternative to Convolutional Neural Networks (CNNs) for object classification. The carefully designed interaction between the RNNs in the architecture allows the model to capture the full context of the image in just two levels of hierarchy as opposed to the many layers typically required by CNN-based models. The evolution of this model for semantic segmentation, called ReSeg, takes advantage of a similar inner structure as ReNet, further improved by the adoption of pretrained CNNs as well as the addition of transposed convolutional layers. Finally, the DEConvLSTM architecture addresses the much harder task of semantic segmentation in videos. To address this task I proposed a model that merges direct convolutions, transposed convolutions and RNNs in a unique coherent structure. The DEConvLSTM model exploits the speed of CNNs to process spatial information and the ability of RNNs to retain information through several steps of computation, and proved to be a valid architecture for video semantic segmentation. For each model, the architecture is first presented in detail, followed by a description of the experimental settings and of the datasets used for its evaluation. Results on publicly available dataset are compared to the state-of-the-art and discussed thoroughly.
Machine Learning (ML) è un affascinante campo di ricerca. Nell'era della conoscenza, essere in grado di trovare le informazioni giuste in enormi quantità di dati (ad esempio, Internet) e riassumerle in una forma compatta che conservi tutto il contenuto a cui si è interessati, è un fattore chiave di successo o il fallimento in molti campi. Mi interessa particolarmente l'applicazione di ML a problemi di computer vision perche' noi, come esseri umani, facciamo molto affidamento sulla visione per le nostre attività quotidiane. I miglioramenti nella tecnologia a nostra disposizione per interpretare i dati visivi possono avere un impatto diretto e particolarmente immediato in molte applicazioni pratiche, come assistere o automatizzare la guida di veicoli, l'analisi di immagini mediche, l'assistenza ai chirurghi in sala operatoria o il miglioramento della qualità della vita per le persone con problemi di vista. Questo manoscritto presenta il mio lavoro sulle Recurrent Neural Networks (RNN) e sui modelli basati su RNN applicati ai dati visivi, e descrive i tre modelli che ho proposto, ovvero Renet, ReSeg e DEConvLSTM. Il primo è un'alternativa basata su RNN per Convolutional Neural Networks (CNN) per la classificazione di oggetti. L'interazione tra le RNN nell'architettura in esame e' stata progettata per permettere al modello di catturare l'intero contesto dell'immagine in solo due livelli gerarchici, in contrasto con i molti layer tipicamente richiesti dai modelli basati su CNN. L'evoluzione di questo modello per la segmentazione semantica, chiamato ReSeg, si avvale di una struttura interna simile a ReNet, ma ulteriormente migliorata con l'adozione di una CNN preaddestrata così come l'aggiunta di layer di convoluzioni trasposte. Infine, l'architettura DEConvLSTM si occupa del molto più difficile obiettivo della segmentazione semantica nei video. Per far fronte a questo compito ho proposto un modello che unisce le convoluzioni dirette, quelle trasposte e le RNN in una struttura coerente unica. Il modello DEConvLSTM sfrutta la velocità della CNN per elaborare le informazioni spaziali e la capacità delle RNN di conservare le informazioni attraverso diversi passaggi di computazione, e ha dimostrato di essere un'architettura valida per la segmentazione semantica video. Nel resto della tesi l'architettura di ciascun modello viene prima presentata in dettaglio, seguita poi da una descrizione delle impostazioni sperimentali e dei dataset utilizzati per la sua valutazione. I risultati ottenuti su dataset disponibili pubblicamente vengono confrontati con lo stato dell'arte e discussi nel dettaglio.
Deep recurrent neural networks for visual scene understanding
VISIN, FRANCESCO
Abstract
Machine Learning (ML) is a fascinating field of research. In the era of knowledge, being able to find the right information in enormous amounts of data (e.g., the internet) and summarize it in a form that is compact and yet retains all the content one is interested in, is a key factor of success or failure in many fields. I am particularly interested in applying ML to vision problems because we, as humans, rely heavily on vision for our daily operations. Improvements in the technology at our disposal to interpret visual data can have a direct and remarkably rapid impact on many practical applications such as assist or automate driving, analyze medical images, aid surgeons in the operating room or improve the quality of life for visually impaired people. This manuscript presents my work on Recurrent Neural Networks (RNNs) and RNN-based models applied to visual data, describing three models I proposed, namely ReNet, ReSeg and DEConvLSTM. The first is an RNN-based alternative to Convolutional Neural Networks (CNNs) for object classification. The carefully designed interaction between the RNNs in the architecture allows the model to capture the full context of the image in just two levels of hierarchy as opposed to the many layers typically required by CNN-based models. The evolution of this model for semantic segmentation, called ReSeg, takes advantage of a similar inner structure as ReNet, further improved by the adoption of pretrained CNNs as well as the addition of transposed convolutional layers. Finally, the DEConvLSTM architecture addresses the much harder task of semantic segmentation in videos. To address this task I proposed a model that merges direct convolutions, transposed convolutions and RNNs in a unique coherent structure. The DEConvLSTM model exploits the speed of CNNs to process spatial information and the ability of RNNs to retain information through several steps of computation, and proved to be a valid architecture for video semantic segmentation. For each model, the architecture is first presented in detail, followed by a description of the experimental settings and of the datasets used for its evaluation. Results on publicly available dataset are compared to the state-of-the-art and discussed thoroughly.File | Dimensione | Formato | |
---|---|---|---|
thesis.pdf
non accessibile
Descrizione: Thesis
Dimensione
11.65 MB
Formato
Adobe PDF
|
11.65 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/132147