Benefitting from the giant steps in terms of microscopy imaging techniques, it has been possible to gather and then accumulate various bio-microscopic images. Through computer vision and machine learning methods it is possible to interpret biological activities and molecular functions, reason why thus image analysis has become more and more important in the current research panorama. One of the most prominent issues in biological image analysis lies in the lack of annotation and often even a large portion of data from unseen classes, i.e. the open-set issue. It is possible to consider a typical open-set problem the image-based protein subcellular localization, in which there are tens of subcellular compartments in cells while the labeled data may only consist of proteins from several major organs. So far, the open-set problem has been rarely studied for biomedical image data, and thus the main goal of this study is to train a few-shot learning model for the recognition of protein subcellular localization from immunofluorescence images by conducting experiments on a data set collected from Human Protein Atlas (HPA), which results show that the introduced system can provide accurate results even with a small handful of images for an unknown class in a multi-instance learning scenario.

Traendo beneficio dai passi da gigante in termini di tecniche di imaging microscopico, è stato possibile raccogliere e quindi accumulare varie immagini bio-microscopiche. Attraverso metodi di visione artificiale e machine learning è possibile dare un’interpretazione alle attività biologiche e funzioni molecolari, motivo per cui l'analisi delle immagini è diventata sempre più importante nel panorama della ricerca attuale. Uno dei problemi più importanti nell'analisi dell'immagine biologica risiede nella mancanza di annotazioni e spesso anche di una grande porzione di dati provenienti da classi sconosciute, ovvero il problema dell'open set. È possibile considerare un tipico problema di open-set la localizzazione subcellulare della proteina basata sull'immagine, in cui ci sono decine di compartimenti subcellulari nelle cellule mentre i dati etichettati possono provenire in gran parte da proteine da diversi organi principali. Finora, il problema dell’open set è stato raramente studiato per i dati di immagine biomedica, e quindi l'obiettivo principale di questo studio è quello di addestrare un modello di apprendimento few-shots per il riconoscimento della localizzazione subcellulare della proteina da immagini ottenute tramite immunofluorescenza conducendo esperimenti su dati set raccolto dallo Human Protein Atlas (HPA), i cui risultati mostrano che il sistema introdotto può fornire risultati accurati anche con una piccola manciata di immagini per una classe sconosciuta in uno scenario di apprendimento multi-istanza.

Protein sub-cellular localization from microscopic images via few-shot learnings in an open set scenario

Arcamone, Francesco
2020/2021

Abstract

Benefitting from the giant steps in terms of microscopy imaging techniques, it has been possible to gather and then accumulate various bio-microscopic images. Through computer vision and machine learning methods it is possible to interpret biological activities and molecular functions, reason why thus image analysis has become more and more important in the current research panorama. One of the most prominent issues in biological image analysis lies in the lack of annotation and often even a large portion of data from unseen classes, i.e. the open-set issue. It is possible to consider a typical open-set problem the image-based protein subcellular localization, in which there are tens of subcellular compartments in cells while the labeled data may only consist of proteins from several major organs. So far, the open-set problem has been rarely studied for biomedical image data, and thus the main goal of this study is to train a few-shot learning model for the recognition of protein subcellular localization from immunofluorescence images by conducting experiments on a data set collected from Human Protein Atlas (HPA), which results show that the introduced system can provide accurate results even with a small handful of images for an unknown class in a multi-instance learning scenario.
MATTEUCCI, MATTEO
YANG, YANG
ING - Scuola di Ingegneria Industriale e dell'Informazione
21-dic-2021
2020/2021
Traendo beneficio dai passi da gigante in termini di tecniche di imaging microscopico, è stato possibile raccogliere e quindi accumulare varie immagini bio-microscopiche. Attraverso metodi di visione artificiale e machine learning è possibile dare un’interpretazione alle attività biologiche e funzioni molecolari, motivo per cui l'analisi delle immagini è diventata sempre più importante nel panorama della ricerca attuale. Uno dei problemi più importanti nell'analisi dell'immagine biologica risiede nella mancanza di annotazioni e spesso anche di una grande porzione di dati provenienti da classi sconosciute, ovvero il problema dell'open set. È possibile considerare un tipico problema di open-set la localizzazione subcellulare della proteina basata sull'immagine, in cui ci sono decine di compartimenti subcellulari nelle cellule mentre i dati etichettati possono provenire in gran parte da proteine da diversi organi principali. Finora, il problema dell’open set è stato raramente studiato per i dati di immagine biomedica, e quindi l'obiettivo principale di questo studio è quello di addestrare un modello di apprendimento few-shots per il riconoscimento della localizzazione subcellulare della proteina da immagini ottenute tramite immunofluorescenza conducendo esperimenti su dati set raccolto dallo Human Protein Atlas (HPA), i cui risultati mostrano che il sistema introdotto può fornire risultati accurati anche con una piccola manciata di immagini per una classe sconosciuta in uno scenario di apprendimento multi-istanza.
File allegati
File Dimensione Formato  
Arcamone_Tesi_Polimi (3).pdf

Open Access dal 10/12/2022

Descrizione: Tesi magistrale arcamone
Dimensione 1.64 MB
Formato Adobe PDF
1.64 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/184180