Smart agriculture, driven by technological advancements and data analytics, is transforming conventional farming practices. Within this revolution, effective weed control emerges as a critical challenge, demanding precise weed detection and segmentation. Deep learning models offer promising solutions to weed control but they require large amounts of annotated data. This constitutes an important obstacle since in this domain the annotated data available is limited. In our research we tackle the problem by embracing the Few Shot Semantic Segmentation (FSS) framework, a contemporary Computer Vision approach that leverages meta-learning principles. FSS models are able to achieve accurate segmentation results, even when only a few class samples are available. We specifically analyze the image embeddings produced by the backbone, that constitutes the first step of a typical FSS pipeline, and organize the study into three primary branches. Firstly, we explore methods to optimize the image embeddings, with a focus on reducing dimensionality. Secondly, we investigate the influence of backbone parameters on the segmentation performance, recognizing the impact of architecture and depth on segmentation quality. Additionally, we examine the role of pre-trained backbones in domain-specific tasks, comparing generic pre-training with a domain-specific fine-tuned alternative. The research explores these dimensions by analyzing different dimensionality reduction approaches, proposing a solution with an introduction of a module that leverages a multi-head attention mechanism, which efficiently rescales and shifts the prototypes' distribution. Our solution is able to improve over the baselines by a margin. We further analyze different backbone networks, evaluating their behaviour in the context of weed segmentation. Moreover, we introduce Ensemble methods in the FSS framework, and we showcase their effectiveness in enhancing segmentation performance. Our findings offer valuable insights in FSS, in the domain of weed segmentation, particularly as our experiments are mostly performed on an agricultural dataset. We additionally validate our experiments also on a general-purpose dataset like PASCAL-5i, this way creating transferable knowledge with our study.

L'agricoltura smart sta trasformando le pratiche agricole convenzionali. All'interno di questa rivoluzione, il controllo dei raccolti emerge come una sfida fondamentale, e necessita una precisa individuazione e segmentazione delle infestanti. I modelli di deep learning offrono soluzioni promettenti al problema, ma richiedono grandi quantità di dati annotati, un grosso ostacolo in questo settore, essendo i dati annotati disponibili molto limitati. Nella nostra ricerca affrontiamo il problema utilizzando il Few Shot Semantic Segmentation (FSS), un approccio contemporaneo di Computer Vision. I modelli di FSS sono capaci di ottenere risultati di segmentazione accurati anche quando sono disponibili solo pochi campioni per ogni classe. In particolare, nel nostro studio analizziamo le rappresentazioni delle immagini prodotte dalla backbone, che costituisce il primo step di un tipico processo FSS, e organizziamo lo studio in tre rami principali. In primo luogo, esploriamo metodi per ottimizzare le rappresentazioni delle immagini, focalizzandoci sulla riduzione della dimensionalità. In secondo luogo, indaghiamo sull'influenza dei parametri della backbone sulle prestazioni di segmentazione, riconoscendo l'impatto della profondità della rete sulla qualità della segmentazione. Esaminiamo il ruolo di backbones pre-addestrate in tasks appartenenti a domini specifici, confrontando il pre-addestramento generico su dataset non specifici con un'alternativa di fine-tuning sul dominio specifico. La nostra ricerca esplora queste dimensioni analizzando diversi approcci di riduzione della dimensionalità, proponendo una soluzione con l'introduzione di un modulo che sfrutta un meccanismo di multi-head attention, che riscala ed adatta efficientemente la distribuzione dei prototipi. La nostra soluzione è in grado di migliorare significativamente rispetto alle baselines. Inoltre, introduciamo metodi di Ensemble nel framework FSS, dimostrando la loro efficacia nel migliorare le prestazioni di segmentazione. I risultati ottenuti offrono preziose intuizioni nel campo del FSS e della agricoltura smart, essendo i nostri esperimenti validati su un dataset agricolo. In aggiunta, validiamo i nostri esperimenti anche su un dataset più generico come PASCAL-5i, creando così una conoscenza trasferibile con il nostro studio.

Enhancing agricultural image embeddings for detecting weeds in few shot segmentation

MARANELLI, ALESSANDRO
2022/2023

Abstract

Smart agriculture, driven by technological advancements and data analytics, is transforming conventional farming practices. Within this revolution, effective weed control emerges as a critical challenge, demanding precise weed detection and segmentation. Deep learning models offer promising solutions to weed control but they require large amounts of annotated data. This constitutes an important obstacle since in this domain the annotated data available is limited. In our research we tackle the problem by embracing the Few Shot Semantic Segmentation (FSS) framework, a contemporary Computer Vision approach that leverages meta-learning principles. FSS models are able to achieve accurate segmentation results, even when only a few class samples are available. We specifically analyze the image embeddings produced by the backbone, that constitutes the first step of a typical FSS pipeline, and organize the study into three primary branches. Firstly, we explore methods to optimize the image embeddings, with a focus on reducing dimensionality. Secondly, we investigate the influence of backbone parameters on the segmentation performance, recognizing the impact of architecture and depth on segmentation quality. Additionally, we examine the role of pre-trained backbones in domain-specific tasks, comparing generic pre-training with a domain-specific fine-tuned alternative. The research explores these dimensions by analyzing different dimensionality reduction approaches, proposing a solution with an introduction of a module that leverages a multi-head attention mechanism, which efficiently rescales and shifts the prototypes' distribution. Our solution is able to improve over the baselines by a margin. We further analyze different backbone networks, evaluating their behaviour in the context of weed segmentation. Moreover, we introduce Ensemble methods in the FSS framework, and we showcase their effectiveness in enhancing segmentation performance. Our findings offer valuable insights in FSS, in the domain of weed segmentation, particularly as our experiments are mostly performed on an agricultural dataset. We additionally validate our experiments also on a general-purpose dataset like PASCAL-5i, this way creating transferable knowledge with our study.
CATALANO, NICO
ING - Scuola di Ingegneria Industriale e dell'Informazione
19-dic-2023
2022/2023
L'agricoltura smart sta trasformando le pratiche agricole convenzionali. All'interno di questa rivoluzione, il controllo dei raccolti emerge come una sfida fondamentale, e necessita una precisa individuazione e segmentazione delle infestanti. I modelli di deep learning offrono soluzioni promettenti al problema, ma richiedono grandi quantità di dati annotati, un grosso ostacolo in questo settore, essendo i dati annotati disponibili molto limitati. Nella nostra ricerca affrontiamo il problema utilizzando il Few Shot Semantic Segmentation (FSS), un approccio contemporaneo di Computer Vision. I modelli di FSS sono capaci di ottenere risultati di segmentazione accurati anche quando sono disponibili solo pochi campioni per ogni classe. In particolare, nel nostro studio analizziamo le rappresentazioni delle immagini prodotte dalla backbone, che costituisce il primo step di un tipico processo FSS, e organizziamo lo studio in tre rami principali. In primo luogo, esploriamo metodi per ottimizzare le rappresentazioni delle immagini, focalizzandoci sulla riduzione della dimensionalità. In secondo luogo, indaghiamo sull'influenza dei parametri della backbone sulle prestazioni di segmentazione, riconoscendo l'impatto della profondità della rete sulla qualità della segmentazione. Esaminiamo il ruolo di backbones pre-addestrate in tasks appartenenti a domini specifici, confrontando il pre-addestramento generico su dataset non specifici con un'alternativa di fine-tuning sul dominio specifico. La nostra ricerca esplora queste dimensioni analizzando diversi approcci di riduzione della dimensionalità, proponendo una soluzione con l'introduzione di un modulo che sfrutta un meccanismo di multi-head attention, che riscala ed adatta efficientemente la distribuzione dei prototipi. La nostra soluzione è in grado di migliorare significativamente rispetto alle baselines. Inoltre, introduciamo metodi di Ensemble nel framework FSS, dimostrando la loro efficacia nel migliorare le prestazioni di segmentazione. I risultati ottenuti offrono preziose intuizioni nel campo del FSS e della agricoltura smart, essendo i nostri esperimenti validati su un dataset agricolo. In aggiunta, validiamo i nostri esperimenti anche su un dataset più generico come PASCAL-5i, creando così una conoscenza trasferibile con il nostro studio.
File allegati
File Dimensione Formato  
ExecutiveSummary.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Executive Summary
Dimensione 3.08 MB
Formato Adobe PDF
3.08 MB Adobe PDF   Visualizza/Apri
Enhancing Agricultural Image Embeddings for detecting Weeds in Few Shot Segmentation.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Tesi
Dimensione 26.77 MB
Formato Adobe PDF
26.77 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/214257