Quality Control in Manufacturing Operations has always been a critical step of the production process and recently has become a source of competitive advantage in the market. With the entrance in the Fourth Industrial Revolution and the implementation of Industry 4.0 enabling technologies, an increasing number of companies is adopting sensors with the aim of controlling the production parameters, making available vast quantities of numeric data. In this Master Thesis, we aim at presenting a comparative study of Machine Learning algorithms applied to the context of defect detections in manufacturing, characterized by large numeric datasets describing an entire production process, presenting observations with failure rates of less than 1% and high sparsity, hardly importable on personal computers. We are going to focus on the performance of the recently introduced Extreme Gradient Boosting in comparison with Deep Learning models like LSTM Networks, to try and keep in consideration the sequential structure of data. These models are also compared with Back Propagation Neural Networks in order to create a structured and comprehensive contribution to the existing literature about the chosen Bosch dataset, which lacks the investigation of NNs to address the classification problem. We furtherly investigate dataset preparation techniques, like oversampling, and thresholding and feature extraction methods in correspondence with large volumes of sparse data. In particular, we propose XGBoost as feature selection algorithm, for exploiting its parallelized computation based on gradient descent in comparison with traditional techniques based on χ2 and Gini index, with the final objective of creating a general reference study for addressing high dimensionality in datasets. Experimental results show that XGboost is the best for dealing with such a large dataset, capable of handling both raw features and engineered ones in short times. Neural Networks, instead, confirm their ability in extracting knowledge, reaching their best performance with a reduced feature dataset originated through the most important features selected by XGBoost.

Il controllo qualità è sempre stato un passaggio chiave nei processi produttivi industriali e recentemente è diventato un sorgente di vantaggio competitivo nel mercato. Con l’ingresso nell’era della quarta rivoluzione industriale e con l’implementazione delle tecnologie abilitanti di Industria 4.0, un numero sempre crescente di compagnie sta implementando dei sensori con l’obiettivo di controllare i parametri del processo produttivo, rendendo disponibili grandi quantità di dati numerici. In questa tesi si vuole presentare uno studio comparativo degli algoritmi di Machine Learning applicati al contesto del rilevamento dei difetti di produzione, caratterizzato da ampi dataset numerici, i quali descrivono un intero processo produttivo, che presentano tra tutte le osservazioni una difettosità inferiore all’1%, altamente sparsi e difficilmente importabili interamente sui personal computer. Ci soffermeremo sulle prestazioni degli algoritmi di più recente introduzione, come l’Extreme Gradient Boosting che verrà comparato con i modelli di Deep Learning come le reti LSTM, con la finalità di tenere in considerazione la struttura sequenziale dei dati. Questi modelli verrano confrontati con i Back Propagation Neural Network, al fine di creare una contribuzione strutturata e comprensiva alla letteratura esistente riferita al dataset scelto fornito da Bosch, per il quale non è stata ancora affrontata l’investigazione delle reti neurali. Inoltre, verrà investigata la preparazione dei dati con tecniche quali oversampling, e thresholding e metodi di selezione delle variabili in corrispondenza di grandi volumi di dati sparsi. In particolare, proponiamo XGBoost come algoritmo di selezione di variabili, per sfruttare la sua capacità di calcolo parallelizzato basato sulla discesa del gradiente, confrontandolo con tecniche tradizionali basate su χ2 e Gini index, con l’obiettivo finale di creare uno studio di riferimento per l’analisi di dataset caratterizzati da alta dimensionalità. I risultati sperimentali mostrano che XGBoost è il migliore per trattare dei dataset così grandi, essendo capace di gestire al meglio le variabili originali e quelle costruite in brevi tempi. Le reti neurali, invece, confermano la loro abilità nell’estrazione di conoscenza, registrando i migliori risultati con dataset a ridotto numero di variabili, in particolare le 50 più importanti, selezionate tramite XGBoost.

Machine learning-based defect detection in manufacturing

TAIOCCHI, MARCO
2017/2018

Abstract

Quality Control in Manufacturing Operations has always been a critical step of the production process and recently has become a source of competitive advantage in the market. With the entrance in the Fourth Industrial Revolution and the implementation of Industry 4.0 enabling technologies, an increasing number of companies is adopting sensors with the aim of controlling the production parameters, making available vast quantities of numeric data. In this Master Thesis, we aim at presenting a comparative study of Machine Learning algorithms applied to the context of defect detections in manufacturing, characterized by large numeric datasets describing an entire production process, presenting observations with failure rates of less than 1% and high sparsity, hardly importable on personal computers. We are going to focus on the performance of the recently introduced Extreme Gradient Boosting in comparison with Deep Learning models like LSTM Networks, to try and keep in consideration the sequential structure of data. These models are also compared with Back Propagation Neural Networks in order to create a structured and comprehensive contribution to the existing literature about the chosen Bosch dataset, which lacks the investigation of NNs to address the classification problem. We furtherly investigate dataset preparation techniques, like oversampling, and thresholding and feature extraction methods in correspondence with large volumes of sparse data. In particular, we propose XGBoost as feature selection algorithm, for exploiting its parallelized computation based on gradient descent in comparison with traditional techniques based on χ2 and Gini index, with the final objective of creating a general reference study for addressing high dimensionality in datasets. Experimental results show that XGboost is the best for dealing with such a large dataset, capable of handling both raw features and engineered ones in short times. Neural Networks, instead, confirm their ability in extracting knowledge, reaching their best performance with a reduced feature dataset originated through the most important features selected by XGBoost.
ING - Scuola di Ingegneria Industriale e dell'Informazione
16-apr-2019
2017/2018
Il controllo qualità è sempre stato un passaggio chiave nei processi produttivi industriali e recentemente è diventato un sorgente di vantaggio competitivo nel mercato. Con l’ingresso nell’era della quarta rivoluzione industriale e con l’implementazione delle tecnologie abilitanti di Industria 4.0, un numero sempre crescente di compagnie sta implementando dei sensori con l’obiettivo di controllare i parametri del processo produttivo, rendendo disponibili grandi quantità di dati numerici. In questa tesi si vuole presentare uno studio comparativo degli algoritmi di Machine Learning applicati al contesto del rilevamento dei difetti di produzione, caratterizzato da ampi dataset numerici, i quali descrivono un intero processo produttivo, che presentano tra tutte le osservazioni una difettosità inferiore all’1%, altamente sparsi e difficilmente importabili interamente sui personal computer. Ci soffermeremo sulle prestazioni degli algoritmi di più recente introduzione, come l’Extreme Gradient Boosting che verrà comparato con i modelli di Deep Learning come le reti LSTM, con la finalità di tenere in considerazione la struttura sequenziale dei dati. Questi modelli verrano confrontati con i Back Propagation Neural Network, al fine di creare una contribuzione strutturata e comprensiva alla letteratura esistente riferita al dataset scelto fornito da Bosch, per il quale non è stata ancora affrontata l’investigazione delle reti neurali. Inoltre, verrà investigata la preparazione dei dati con tecniche quali oversampling, e thresholding e metodi di selezione delle variabili in corrispondenza di grandi volumi di dati sparsi. In particolare, proponiamo XGBoost come algoritmo di selezione di variabili, per sfruttare la sua capacità di calcolo parallelizzato basato sulla discesa del gradiente, confrontandolo con tecniche tradizionali basate su χ2 e Gini index, con l’obiettivo finale di creare uno studio di riferimento per l’analisi di dataset caratterizzati da alta dimensionalità. I risultati sperimentali mostrano che XGBoost è il migliore per trattare dei dataset così grandi, essendo capace di gestire al meglio le variabili originali e quelle costruite in brevi tempi. Le reti neurali, invece, confermano la loro abilità nell’estrazione di conoscenza, registrando i migliori risultati con dataset a ridotto numero di variabili, in particolare le 50 più importanti, selezionate tramite XGBoost.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2019_04_Taiocchi.pdf

solo utenti autorizzati dal 04/04/2020

Descrizione: Testo della tesi
Dimensione 6.17 MB
Formato Adobe PDF
6.17 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/145902