The material presented have in this thesis have been developed by the STMicroelectronics Applied Math team located in Agrate Brianza during an internship in collaboration with Politecnico di Milano. STMicroelectronics is one of the principal manufacturers in the sector of semiconductors and microelectronics. Integrated Circuits are produced in bulk on circular wafers in different production lines trough different specialized steps that progressively manipulate the different layers of which the wafers are made. Due to the complexity of the production process, wafers have to be constantly monitored by inspection machines that gather each day huge amounts of different data. Among all the gathered measurements, inspection machines also produce TEM (Transmission electron microscopy) images of the various steps involved in the manufacturing process. This type of data is extremely important to correctly identify the various problem and defects that can incur during the manufacturing process, however they are also quite hard to handle since they can not be automatically labeled. Given the extremely high number of TEM images produced each day at STMicroelectronics and the high level of skill required to correctly annotate each image it is impossible to rely solely on human annotations to correctly organize the images. The dataset considered in this thesis is formed by more than 35000 TEM images gathered by the STMicroelectronics physics laboratory over the last 5 years. The purpose is to provide STMicroelectronics with a content based image retrieval solution to easily access images present in the database using a visual query. Starting from a small subset of annotated images, we trained a neural network able to generate a vector representation of images, called embedding, in which similar images are put closer then different images. The proposed model leverages the advantages of siamese networks and autoencoders to generate general and correct embeddings on the considered dataset. Then, an image retrieval solution to efficiently query and update the database automatically is proposed to provide fast and reliable access to the images while only using a minimal amount of resources.

I materiali presentati in questa tesi sono stati sviluppati dal gruppo di matematica applicata STMicroelectronics situato ad Agrate Brianza durante un tirocinio in collaborazione col Politecnico di Milano. STMicroelectronics è uno dei maggiori produttori nel settore dei semiconduttori e della microelettronica. I circuiti integrati sono prodotti in lotti su wafer circolari, in diverse linee di produzione, attraverso diversi passaggi specializzati che manipolano progressivamente i diversi strati di cui i wafer sono costituiti. Data la complessità del processo produttivo, i wafer devono essere costantemente monitorati da macchine di ispezione che ogni giorno raccolgono grandi quantitá di dati. Fra tutti i dati raccolti le macchine di ispezione producono anche immagini TEM (Microscopio elettronico a trasmissione) dei vari passaggi coinvolti nel processo manifatturiero. Questo tipo di dati è estremamente importante per identificare i vari problemi e difetti in cui si puo incorrere durante la produzione, ma sono anche molto difficili da gestire visto che non possono essere classificati automaticamente. Dato l’alto numero di immagini TEM prodotte ogni giorno in STMicroelectronics, e le competenze necessarie per annotare correttamente ogni immagine, è impossibile affidarsi solamente al lavoro umano per organizzarle correttamente. Il dataset considerato in questa tesi è formato da oltre 35000 immagini TEM raccolte dai laboratori di fisica STMicroelectronics durante gli ultimi 5 anni. L’obiettivo è quindi di fornire STMicroelectronics di una soluzione per la ricerca di immagini basata sul loro contenuto per semplificare l’accesso alle immagini presenti nel database permettendo di ricercare immagini contenute in esso tramite query visuali. Partendo da un piccolo gruppo di immagini annotate, abbiamo addestrato una rete neurale in grado di generare a partire dalle immagini una loro rappresentazione vettoriale, detta embedding, nella quale immagini simili sono poste a distanza minore di immagini diverse. Il modello proposto sfrutta i vantaggi portati dall’architettura siamese e da quella degli autoencoder per generare embedding corretti e capaci di generalizzare sul dataset considerato. Una soluzione che permette di interrogare e aggiornare efficacemente il database è poi proposta per fornire un accesso rapido e affidabile impiegando una quantità minima di risorse.

Deep learning content-based image retrieval for TEM images

GATTA, GIUSEPPE GIANMARCO
2020/2021

Abstract

The material presented have in this thesis have been developed by the STMicroelectronics Applied Math team located in Agrate Brianza during an internship in collaboration with Politecnico di Milano. STMicroelectronics is one of the principal manufacturers in the sector of semiconductors and microelectronics. Integrated Circuits are produced in bulk on circular wafers in different production lines trough different specialized steps that progressively manipulate the different layers of which the wafers are made. Due to the complexity of the production process, wafers have to be constantly monitored by inspection machines that gather each day huge amounts of different data. Among all the gathered measurements, inspection machines also produce TEM (Transmission electron microscopy) images of the various steps involved in the manufacturing process. This type of data is extremely important to correctly identify the various problem and defects that can incur during the manufacturing process, however they are also quite hard to handle since they can not be automatically labeled. Given the extremely high number of TEM images produced each day at STMicroelectronics and the high level of skill required to correctly annotate each image it is impossible to rely solely on human annotations to correctly organize the images. The dataset considered in this thesis is formed by more than 35000 TEM images gathered by the STMicroelectronics physics laboratory over the last 5 years. The purpose is to provide STMicroelectronics with a content based image retrieval solution to easily access images present in the database using a visual query. Starting from a small subset of annotated images, we trained a neural network able to generate a vector representation of images, called embedding, in which similar images are put closer then different images. The proposed model leverages the advantages of siamese networks and autoencoders to generate general and correct embeddings on the considered dataset. Then, an image retrieval solution to efficiently query and update the database automatically is proposed to provide fast and reliable access to the images while only using a minimal amount of resources.
FRAGNETO, PASQUALINA
ROSSI, BEATRICE
CARRERA, DIEGO
FOLLONI, NICOLO'
ING - Scuola di Ingegneria Industriale e dell'Informazione
21-dic-2021
2020/2021
I materiali presentati in questa tesi sono stati sviluppati dal gruppo di matematica applicata STMicroelectronics situato ad Agrate Brianza durante un tirocinio in collaborazione col Politecnico di Milano. STMicroelectronics è uno dei maggiori produttori nel settore dei semiconduttori e della microelettronica. I circuiti integrati sono prodotti in lotti su wafer circolari, in diverse linee di produzione, attraverso diversi passaggi specializzati che manipolano progressivamente i diversi strati di cui i wafer sono costituiti. Data la complessità del processo produttivo, i wafer devono essere costantemente monitorati da macchine di ispezione che ogni giorno raccolgono grandi quantitá di dati. Fra tutti i dati raccolti le macchine di ispezione producono anche immagini TEM (Microscopio elettronico a trasmissione) dei vari passaggi coinvolti nel processo manifatturiero. Questo tipo di dati è estremamente importante per identificare i vari problemi e difetti in cui si puo incorrere durante la produzione, ma sono anche molto difficili da gestire visto che non possono essere classificati automaticamente. Dato l’alto numero di immagini TEM prodotte ogni giorno in STMicroelectronics, e le competenze necessarie per annotare correttamente ogni immagine, è impossibile affidarsi solamente al lavoro umano per organizzarle correttamente. Il dataset considerato in questa tesi è formato da oltre 35000 immagini TEM raccolte dai laboratori di fisica STMicroelectronics durante gli ultimi 5 anni. L’obiettivo è quindi di fornire STMicroelectronics di una soluzione per la ricerca di immagini basata sul loro contenuto per semplificare l’accesso alle immagini presenti nel database permettendo di ricercare immagini contenute in esso tramite query visuali. Partendo da un piccolo gruppo di immagini annotate, abbiamo addestrato una rete neurale in grado di generare a partire dalle immagini una loro rappresentazione vettoriale, detta embedding, nella quale immagini simili sono poste a distanza minore di immagini diverse. Il modello proposto sfrutta i vantaggi portati dall’architettura siamese e da quella degli autoencoder per generare embedding corretti e capaci di generalizzare sul dataset considerato. Una soluzione che permette di interrogare e aggiornare efficacemente il database è poi proposta per fornire un accesso rapido e affidabile impiegando una quantità minima di risorse.
File allegati
File Dimensione Formato  
tesi_2.pdf

non accessibile

Dimensione 6.37 MB
Formato Adobe PDF
6.37 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/183598