Zero-shot Video Camouflaged Object Segmentation is the task that aims to automatically separate the foreground subject from the background when the subject blends or camouflages with the environment. This task is crucial nowadays for those most difficult settings in which autonomous driving vehicles, surveillance systems, and medical instruments may fall, where the object of interest is not immediately distinguishable from the surroundings. Camouflaged videos present many challenges, such as brightness changes, complex movements, shape variations of the subject over time, and little appearance information. Research in this field is stuck on two main problems: data scarcity and computational power. While State Of The Art methods focus on the development of specific architectures, we have designed a novel training framework that can be used in many supervised architectures as a "de-supervising" plug-and-play framework, as it allows us to use videos for training without the need for annotation, and without requiring additional computational power beyond that already required by the model to be trained. Our framework, termed DeSC-V, enables unsupervised training by combining predictions at different time instants through motion, exploiting the correlation of different video frames. Specifically, we retrieve the segmentation mask of the current frame using a model pre-trained for images and the masks of related frames using the network to be trained. We then create pseudo-annotations for the camouflaged objects needed for the supervision by exploiting the relationships between the considered frames and aligning the subject position in the retrieved masks at the current time to compensate for the occurred motion. Our experiments show that DeSC-V enabled the trained network to generalize to new, unseen videos, proving the effectiveness of our framework. This training can even be performed on low-end old hardware on videos without supervision, demonstrating that adopting DeSC-V can solve the two major challenges of Zero-shot Video Camouflaged Object Segmentation.
La Segmentazione Automatica dei Soggetti Camuffati nei Video, è il compito che mira a separare automaticamente il soggetto in primo piano dallo sfondo quando il soggetto tende a confondersi o mimetizzarsi con l'ambiente. Questo compito è cruciale al giorno d'oggi, soprattutto in alcuni casi estremi in cui veicoli a guida autonoma, sistemi di sorveglianza, e strumenti medici possono ricadere, dove l'oggetto di interesse non è immediatamente distinguibile dallo sfondo. Questo tipo di video presenta molte sfide, come cambiamenti di luminosità, movimenti complessi, variazioni della forma del soggetto nel tempo, e scarse informazioni visive. La ricerca in questo campo è bloccata da due problemi principali: scarsità di dati, e potenza computazionale richiesta. Mentre i metodi dello Stato dell'Arte si concentrano sullo sviluppo di architetture specifiche, noi abbiamo invece progettato un nuovo framework di addestramento, denominato DeSC-V, che può essere impiegato in molte reti che richiedono supevisione, per "de-supervisionarle" in maniera plug-and-play, ovvero consentendoci di utilizzare video negli addestramenti senza richiedere annotazioni di alcun tipo, e senza richiedere ulteriore potenza di calcolo rispetto a quella già necessaria per addestrare la rete. DeSC-V consente un addestramento non supervisionato combinando le previsioni di diversi istanti temporali mediante il moto sfruttando la correlazione tra i frame di un video. In particolare, otteniamo la maschera del frame corrente utilizzando un modello pre-addestrato per le immagini, e le maschere dei frame correlati utilizzando la rete da addestrare. Creiamo quindi pseudo-annotazioni per i soggetti sfruttando le relazioni tra i frame considerati allineando le posizioni del soggetto nelle maschere ottenute al tempo corrente per compensare il moto avvenuto. I nostri esperimenti mostrano che DeSC-V ha permesso alla rete addestrata di generalizzare su nuovi video, provandone l'efficacia. Questo addestramento può anche essere eseguito su hardware datato e di fascia bassa senza supervisione, mostrando che l'adozione di DeSC-V può risolvere le due principali sfide di questo campo.
DeSC-V: de-supervision in camouflaged videos
Alessandrini, Luca
2023/2024
Abstract
Zero-shot Video Camouflaged Object Segmentation is the task that aims to automatically separate the foreground subject from the background when the subject blends or camouflages with the environment. This task is crucial nowadays for those most difficult settings in which autonomous driving vehicles, surveillance systems, and medical instruments may fall, where the object of interest is not immediately distinguishable from the surroundings. Camouflaged videos present many challenges, such as brightness changes, complex movements, shape variations of the subject over time, and little appearance information. Research in this field is stuck on two main problems: data scarcity and computational power. While State Of The Art methods focus on the development of specific architectures, we have designed a novel training framework that can be used in many supervised architectures as a "de-supervising" plug-and-play framework, as it allows us to use videos for training without the need for annotation, and without requiring additional computational power beyond that already required by the model to be trained. Our framework, termed DeSC-V, enables unsupervised training by combining predictions at different time instants through motion, exploiting the correlation of different video frames. Specifically, we retrieve the segmentation mask of the current frame using a model pre-trained for images and the masks of related frames using the network to be trained. We then create pseudo-annotations for the camouflaged objects needed for the supervision by exploiting the relationships between the considered frames and aligning the subject position in the retrieved masks at the current time to compensate for the occurred motion. Our experiments show that DeSC-V enabled the trained network to generalize to new, unseen videos, proving the effectiveness of our framework. This training can even be performed on low-end old hardware on videos without supervision, demonstrating that adopting DeSC-V can solve the two major challenges of Zero-shot Video Camouflaged Object Segmentation.File | Dimensione | Formato | |
---|---|---|---|
2024_10_Alessandrini_Executive Summary.pdf
solo utenti autorizzati a partire dal 18/09/2025
Descrizione: Executive Summary
Dimensione
6.46 MB
Formato
Adobe PDF
|
6.46 MB | Adobe PDF | Visualizza/Apri |
2024_10_Alessandrini_Tesi.pdf
solo utenti autorizzati a partire dal 18/09/2025
Descrizione: Tesi
Dimensione
40.22 MB
Formato
Adobe PDF
|
40.22 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/226962