Currently, the state-of-the-art models developed for addressing the semantic image segmentation tasks are fully supervised deep convolutional architectures. Being fully supervised requires the presence of a training dataset where a human annotator has to manually annotate each single pixel in thousands of images to a specific class label. However, this process is highly time-consuming, and consequently, the number of annotations becomes challenging, leading to a diminished quality of the dataset itself. Additionally, even by growing the number of class labels, it remains impossible to compare them to the numerous hundred thousand nouns in the English language limiting the comprehensive representation of all objects in the real-world context. In this work, we have developed a framework for weakly-supervised semantic segmentation to alleviate the complexity of generating ground truth images and overcoming the limitations of a xed or small set of class labels. The framework makes use of the CLIP embedding space to generate an embedding vector for each pixel. The embedding space has a peculiar characteristic: the distance between continuous vectors in the embedding space re ects the semantic distance between words in natural language. Given the weakly supervised characteristic, our framework allows us to learn novel classes without the use of meticulously annotated ground truth images. Instead, it relies only on a list of objects within the image or a short description in natural language usually known as "caption". We have tested our framework using the famous encoder-decoder U-Net architecture over the PASCAL VOC2012 dataset using the mean IoU metric to assess the result. Although our architecture has achieved lower performance compared to fully supervised architectures that take advantage of densely labeled ground truth images, it is important to note that our framework was trained in a weakly supervised manner, relying solely on a list of objects present in the image. Despite this limitation, the results of our framework are comparable to those of fully supervised architectures.

Attualmente, i modelli all’avanguardia sviluppati per affrontare i compiti di segmentazione semantica delle immagini, sono architetture convoluzionali profonde completamente supervisionate. La supervisione completa richiede la presenza di un set di dati di addestramento della rete, in cui un annotatore umano deve annotare manualmente ogni singolo pixel in migliaia di immagini con un'etichetta legata ad una specifica classe. Questo processo, richiede molto tempo e aumentare il numero di annotazioni per creare un dataset più esteso risulta impegnativo portando ad una diminuzione della qualità del dataset stesso. Inoltre, anche aumentando il numero di classi con cui i pixel vengono annotati, rimane impossibile confrontarle con le centinaia di migliaia di sostantivi della lingua inglese, limitando la rappresentazione di tutti gli oggetti nel mondo reale. In questo lavoro, abbiamo sviluppato un framework per la segmentazione semantica debolmente supervisionata per alleviare la complessità della generazione manuale di immagini completamente annotate e superare il limite di un insieme fisso o limitato di classi da etichettare. Il framework utilizza lo spazio di incorporamento CLIP per generare un vettore continuo per ogni pixel. Lo spazio di incorporazione ha una caratteristica peculiare: la distanza tra vettori continui nello spazio riflette la distanza semantica tra le parole nel linguaggio naturale. Data la caratteristica di debole supervisione, il nostro framework ci permette di apprendere nuove classi senza l'uso di immagini meticolosamente annotate. Al contrario, si basa solo su un elenco di oggetti all'interno dell'immagine o su una breve descrizione in linguaggio naturale, solitamente nota come "didascalia". Abbiamo testato il nostro framework utilizzando la famosa architettura encoder-decoder U-Net sul dataset PASCAL VOC2012, utilizzando la metrica IoU media per valutare il risultato. Sebbene la nostra architettura abbia ottenuto prestazioni inferiori rispetto alle architetture completamente supervisionate che sfruttano immagini densamente annotate, è importante notare che il nostro framework è stato addestrato in modo debolmente supervisionato, basandosi esclusivamente su un elenco di oggetti presenti nell'immagine. Nonostante questa limitazione, i risultati del nostro framework sono paragonabili a quelli delle architetture con supervisione completa.

Exploring weakly supervised semantic segmentation using CLIP embeddings

GRILLI, FRANCESCO
2022/2023

Abstract

Currently, the state-of-the-art models developed for addressing the semantic image segmentation tasks are fully supervised deep convolutional architectures. Being fully supervised requires the presence of a training dataset where a human annotator has to manually annotate each single pixel in thousands of images to a specific class label. However, this process is highly time-consuming, and consequently, the number of annotations becomes challenging, leading to a diminished quality of the dataset itself. Additionally, even by growing the number of class labels, it remains impossible to compare them to the numerous hundred thousand nouns in the English language limiting the comprehensive representation of all objects in the real-world context. In this work, we have developed a framework for weakly-supervised semantic segmentation to alleviate the complexity of generating ground truth images and overcoming the limitations of a xed or small set of class labels. The framework makes use of the CLIP embedding space to generate an embedding vector for each pixel. The embedding space has a peculiar characteristic: the distance between continuous vectors in the embedding space re ects the semantic distance between words in natural language. Given the weakly supervised characteristic, our framework allows us to learn novel classes without the use of meticulously annotated ground truth images. Instead, it relies only on a list of objects within the image or a short description in natural language usually known as "caption". We have tested our framework using the famous encoder-decoder U-Net architecture over the PASCAL VOC2012 dataset using the mean IoU metric to assess the result. Although our architecture has achieved lower performance compared to fully supervised architectures that take advantage of densely labeled ground truth images, it is important to note that our framework was trained in a weakly supervised manner, relying solely on a list of objects present in the image. Despite this limitation, the results of our framework are comparable to those of fully supervised architectures.
GIULIVI, LORIS
ING - Scuola di Ingegneria Industriale e dell'Informazione
9-apr-2024
2022/2023
Attualmente, i modelli all’avanguardia sviluppati per affrontare i compiti di segmentazione semantica delle immagini, sono architetture convoluzionali profonde completamente supervisionate. La supervisione completa richiede la presenza di un set di dati di addestramento della rete, in cui un annotatore umano deve annotare manualmente ogni singolo pixel in migliaia di immagini con un'etichetta legata ad una specifica classe. Questo processo, richiede molto tempo e aumentare il numero di annotazioni per creare un dataset più esteso risulta impegnativo portando ad una diminuzione della qualità del dataset stesso. Inoltre, anche aumentando il numero di classi con cui i pixel vengono annotati, rimane impossibile confrontarle con le centinaia di migliaia di sostantivi della lingua inglese, limitando la rappresentazione di tutti gli oggetti nel mondo reale. In questo lavoro, abbiamo sviluppato un framework per la segmentazione semantica debolmente supervisionata per alleviare la complessità della generazione manuale di immagini completamente annotate e superare il limite di un insieme fisso o limitato di classi da etichettare. Il framework utilizza lo spazio di incorporamento CLIP per generare un vettore continuo per ogni pixel. Lo spazio di incorporazione ha una caratteristica peculiare: la distanza tra vettori continui nello spazio riflette la distanza semantica tra le parole nel linguaggio naturale. Data la caratteristica di debole supervisione, il nostro framework ci permette di apprendere nuove classi senza l'uso di immagini meticolosamente annotate. Al contrario, si basa solo su un elenco di oggetti all'interno dell'immagine o su una breve descrizione in linguaggio naturale, solitamente nota come "didascalia". Abbiamo testato il nostro framework utilizzando la famosa architettura encoder-decoder U-Net sul dataset PASCAL VOC2012, utilizzando la metrica IoU media per valutare il risultato. Sebbene la nostra architettura abbia ottenuto prestazioni inferiori rispetto alle architetture completamente supervisionate che sfruttano immagini densamente annotate, è importante notare che il nostro framework è stato addestrato in modo debolmente supervisionato, basandosi esclusivamente su un elenco di oggetti presenti nell'immagine. Nonostante questa limitazione, i risultati del nostro framework sono paragonabili a quelli delle architetture con supervisione completa.
File allegati
File Dimensione Formato  
2024_04_Grilli_01.pdf

Open Access dal 20/03/2025

Descrizione: Tesi
Dimensione 29.75 MB
Formato Adobe PDF
29.75 MB Adobe PDF Visualizza/Apri
2024_04_Grilli_02.pdf

Open Access dal 20/03/2025

Descrizione: Executive summary
Dimensione 1.13 MB
Formato Adobe PDF
1.13 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/218678