Video understanding involves problems such as video classification, which consists in labeling videos based on their contents and frames. In many real world applications such as robotics, self-driving car, augmented reality, and Internet of Things (IoT), video understanding tasks need to be carried out in a real-time manner on a device with limited memory resources and computation capabilities, while meeting latency requirement. In this context, whereas neural networks that are memory and computation-efficient - i.e., that present a reasonable trade-off between accuracy and efficiency with respect to memory size and computational speed - have been developed for image recognition tasks, studies about video classification have not made the most of these networks. To fill this gap, this project answers the following research question: how to build video classification pipelines that are based on memory and computation-efficient convolutional neural network (CNN) and how do the latter perform? In order to answer this question, the project builds and evaluates video classification pipelines that are new artefacts. This research involves triangulation (i.e., is qualitative and quantitative at the same time) and the empirical research method is used for the evaluation. The artefacts are based on one of existing memory and computation-efficient CNNs and its evaluation is based on a public video classification dataset and multiclass classification performance metrics. The case study research strategy is adopted: we try to generalize obtained results as far as possible to other memory and computation-efficient CNNs and video classification datasets. The abductive research approach is used in order to verify or falsify hypotheses. As results, the artefacts are built and show satisfactory performance metrics compared to baseline pipelines that are also developed in this thesis and metric values that are reported in other papers that used the same dataset. To conclude, video-classification pipelines based on memory and computation-efficient CNN can be built by designing and developing artefacts that combine approaches inspired from existing papers and new approaches and these artefacts present satisfactory performance. In particular, we observe that the drop in accuracy induced by memory and computation-efficient CNN when dealing with video frames is, to some extent, compensated by capturing temporal information via consideration of sequence of these frames.

La comprensione dei video è un termine che racchiude problemi come la classificazione dei video, che consiste nell'etichettare i video in base al loro contenuto e ai loro frame. In molte applicazioni del mondo reale come la robotica, l'auto a guida autonoma, la realtà aumentata e l'Internet of Things (IoT), le attività di comprensione dei video devono essere eseguite in tempo reale su un dispositivo con risorse di memoria e capacità di calcolo limitate rispettando dei requisiti di latenza. In questo contesto, benché reti neurali efficienti in termini di memoria ed tempo di computazione, ovvero che presentano un ragionevole compromesso tra accuratezza ed efficienza rispetto alle dimensioni della memoria e alla potenza di calcolo, sono state sviluppate per compiti di riconoscimento di immagini, negli studi sulla classificazione video non si è riusciti ad ottenere risultati paragonabili. Per colmare questa lacuna, questo progetto risponde alla seguente domanda: come si possono costruire pipeline di classificazione video basate su reti neurali convoluzionali (CNN) efficienti sia dal punto di vista computazionale che di memoria, e come preformano queste ultime? Per rispondere a questa domanda, il progetto costruisce e valuta nuove pipeline di classificazione video. Questa ricerca implica la triangolazione (cioè, è qualitativa e quantitativa allo stesso tempo) e il metodo empirico è usato per la valutazione. Le pipeline si basano sulle delle CNN esistenti efficienti nella memoria e nel tempo di calcolo e la sua valutazione si basa su un set di dati di classificazione di video pubblici e metriche di prestazioni di classificazione multiclasse. La strategia di ricerca del caso di studio è stata adottata: cerchiamo di generalizzare,per quanto possibile, risultati ottenuti da altri CNN efficienti nella memoria usata e nella potenza di calcolo richiesta e su certe basi di dati per la classificazione. L'approccio di ricerca abduttiva è utilizzato per verificare o falsificare ipotesi. Come risultati, gli artefatti vengono creati e mostrano prestazioni soddisfacenti rispetto a quelli di base sviluppati anch'essi in questa tesi e metriche riportati in altre ricerche che utilizzavano lo stesso insieme di dati. Per concludere, le pipeline di classificazione video basate sulla CNN efficienti possono essere costruite progettando e sviluppando artefatti che combinano approcci ispirati a ricerche esistenti e a nuovi approcci, e che questi nuovi artefatti presentano prestazioni soddisfacenti. In particolare, osserviamo che il calo di accuratezza indotto dalla CNN efficiente in termini di memoria e calcolo quando si gestiscono i frame del video è in parte compensato dall'acquisizione di informazioni temporali attraverso la sequenza di questi frame.

Video classification with memory and computation-efficient convolutional neural network

CHICHE, BENJAMIN NAOTO
2018/2019

Abstract

Video understanding involves problems such as video classification, which consists in labeling videos based on their contents and frames. In many real world applications such as robotics, self-driving car, augmented reality, and Internet of Things (IoT), video understanding tasks need to be carried out in a real-time manner on a device with limited memory resources and computation capabilities, while meeting latency requirement. In this context, whereas neural networks that are memory and computation-efficient - i.e., that present a reasonable trade-off between accuracy and efficiency with respect to memory size and computational speed - have been developed for image recognition tasks, studies about video classification have not made the most of these networks. To fill this gap, this project answers the following research question: how to build video classification pipelines that are based on memory and computation-efficient convolutional neural network (CNN) and how do the latter perform? In order to answer this question, the project builds and evaluates video classification pipelines that are new artefacts. This research involves triangulation (i.e., is qualitative and quantitative at the same time) and the empirical research method is used for the evaluation. The artefacts are based on one of existing memory and computation-efficient CNNs and its evaluation is based on a public video classification dataset and multiclass classification performance metrics. The case study research strategy is adopted: we try to generalize obtained results as far as possible to other memory and computation-efficient CNNs and video classification datasets. The abductive research approach is used in order to verify or falsify hypotheses. As results, the artefacts are built and show satisfactory performance metrics compared to baseline pipelines that are also developed in this thesis and metric values that are reported in other papers that used the same dataset. To conclude, video-classification pipelines based on memory and computation-efficient CNN can be built by designing and developing artefacts that combine approaches inspired from existing papers and new approaches and these artefacts present satisfactory performance. In particular, we observe that the drop in accuracy induced by memory and computation-efficient CNN when dealing with video frames is, to some extent, compensated by capturing temporal information via consideration of sequence of these frames.
DISABATO, SIMONE
ING - Scuola di Ingegneria Industriale e dell'Informazione
25-lug-2019
2018/2019
La comprensione dei video è un termine che racchiude problemi come la classificazione dei video, che consiste nell'etichettare i video in base al loro contenuto e ai loro frame. In molte applicazioni del mondo reale come la robotica, l'auto a guida autonoma, la realtà aumentata e l'Internet of Things (IoT), le attività di comprensione dei video devono essere eseguite in tempo reale su un dispositivo con risorse di memoria e capacità di calcolo limitate rispettando dei requisiti di latenza. In questo contesto, benché reti neurali efficienti in termini di memoria ed tempo di computazione, ovvero che presentano un ragionevole compromesso tra accuratezza ed efficienza rispetto alle dimensioni della memoria e alla potenza di calcolo, sono state sviluppate per compiti di riconoscimento di immagini, negli studi sulla classificazione video non si è riusciti ad ottenere risultati paragonabili. Per colmare questa lacuna, questo progetto risponde alla seguente domanda: come si possono costruire pipeline di classificazione video basate su reti neurali convoluzionali (CNN) efficienti sia dal punto di vista computazionale che di memoria, e come preformano queste ultime? Per rispondere a questa domanda, il progetto costruisce e valuta nuove pipeline di classificazione video. Questa ricerca implica la triangolazione (cioè, è qualitativa e quantitativa allo stesso tempo) e il metodo empirico è usato per la valutazione. Le pipeline si basano sulle delle CNN esistenti efficienti nella memoria e nel tempo di calcolo e la sua valutazione si basa su un set di dati di classificazione di video pubblici e metriche di prestazioni di classificazione multiclasse. La strategia di ricerca del caso di studio è stata adottata: cerchiamo di generalizzare,per quanto possibile, risultati ottenuti da altri CNN efficienti nella memoria usata e nella potenza di calcolo richiesta e su certe basi di dati per la classificazione. L'approccio di ricerca abduttiva è utilizzato per verificare o falsificare ipotesi. Come risultati, gli artefatti vengono creati e mostrano prestazioni soddisfacenti rispetto a quelli di base sviluppati anch'essi in questa tesi e metriche riportati in altre ricerche che utilizzavano lo stesso insieme di dati. Per concludere, le pipeline di classificazione video basate sulla CNN efficienti possono essere costruite progettando e sviluppando artefatti che combinano approcci ispirati a ricerche esistenti e a nuovi approcci, e che questi nuovi artefatti presentano prestazioni soddisfacenti. In particolare, osserviamo che il calo di accuratezza indotto dalla CNN efficiente in termini di memoria e calcolo quando si gestiscono i frame del video è in parte compensato dall'acquisizione di informazioni temporali attraverso la sequenza di questi frame.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
Benjamin_Naoto_Chiche_Master_Thesis.pdf

accessibile in internet per tutti

Descrizione: Master thesis text
Dimensione 4.46 MB
Formato Adobe PDF
4.46 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/149394