Odin Web: a web-based tool for image annotation, inference, and model evaluation

Computer Vision is a field of study, whose purpose is to replicate, by means of Machine Learning and Deep Learning methods, the ability of humans to extract information and interpret the visual world around them. Computer Vision exploits the vast amount of imagery data available, which has to be annotated with the truth the model should learn from. Being image annotation a laborious task, several tools that provide functionalities to annotate images and create high-quality datasets have been implemented. Thanks to the progress made, models increased in complexity, achieving exceptional results in image interpretation. This, however, added complexity to the model performance evaluation nec essary for their understanding and improvement. Studies on model performance analysis yielded the development of several tools that exploit "black-box" analysis techniques to achieve in-depth diagnosis of complex models. These advancements led Computer Vision to acquire an increasing impact in real-world scenarios applications. This combination un covered the need for tools to allow individuals with no technical knowledge to approach Computer Vision models. In this context, the objective is now the implementation of tools, accessible to non-technical users, that cover the entire pipeline of model development, from image annotation and model analysis to the practical application of Computer Vision models. ODIN Web, is a user-friendly web-based tool for dataset management, image annotation related to image classification, object detection, and instance segmentation tasks, and model performance investigation, that leverages the ODIN "black-box" analysis tool. Starting from this version, this thesis expands ODIN Web by implementing a user system, for collaboration and role based access control, integrating model inference, and providing geo-visualization functionalities for datasets of geolocalized satellite images. The relevance of the implemented tool was demonstrated by illustrating its usage in some real-application scenarios.

La Computer Vision è un campo di studi il cui obiettivo è di replicare, attraverso metodi di Machine Learning e Deep Learning, la capacità umana di estrarre informazioni e in terpretare il mondo visivo attorno a sé. La Computer Vision sfrutta la vasta quantità di dati visivi disponibili, i quali devono essere annotati con la "verità" da cui il modello dovrebbe imparare. Essendo l’annotazione di immagini un compito laborioso, diversi tool che forniscono funzionalità per annotare le immagini e creare dataset di alta qualità sono stati implementati. Grazie ai progressi fatti, i modelli sono aumentati in complessità rag giungendo risultati eccellenti nell’interpretazione di immagini. Tuttavia, ciò ha aggiunto complessità alla valutazione della performance dei modelli necessaria per la loro compren sione e il loro perfezionamento. Studi sull’analisi della performance dei modelli hanno portato allo sviluppo di diversi tool che sfruttano tecniche di analisi "black-box" per ot tenere una diagnosi approfondita di modelli complessi. Questi progressi hanno portato la Computer Vision ad acquisire un impatto sempre maggiore in scenari di applicazione reale. Questo ha sollevato la necessità di tool che permettano ad individui che non possiedono conoscenze tecniche, di approcciarsi ai modelli di Computer Vision. In questo contesto, l’obiettivo è quello di implementare tool intuitivi, che coprano l’intero processo di sviluppo di modelli, dall’annotazione di immagini e analisi di modelli all’applicazione pratica dei modelli di Computer Vision. ODIN Web, è un web-based tool intuitivo per la gestione di dataset, per l’annotazione di immagini legata alla classificazione di immagini, alla in dividuazione e alla segmentazione di oggetti, e per l’investigazione della performance dei modelli, funzione che sfrutta ODIN, un tool di analisi di tipo "black-box". Partendo da questa versione, questa tesi espande ODIN Web implementando un sistema di utenti, per la collaborazione e l’accesso controllato basato sul ruolo, integrando l’inferenza dei mod elli, e fornendo delle funzionalità di geo-visualizzazione per dataset formati da immagini satellitari geolocalizzate. L’importanza del tool implementato è stata dimostrata illustrando il suo utilizzo in alcuni scenari di applicazione reale.