The contemporary business and industrial ecosystems necessitate advanced predictive analytical frameworks to optimize various operational aspects. This thesis explores the application of Machine Learning (ML) in two distinct domains: lead scoring in marketing and fault detection in semiconductor manufacturing, each anchored on a binary classification task. In both domains, original methodologies are employed, centered around specialized hyperparameter tuning across two datasets of different sizes: an extensive raw lead scoring dataset encompassing over 1.5 million initial samples, and the plasma etching dataset, comprising three experiments with 42/43 wafers each. In paper 1 of this thesis, related to the lead scoring task, after identifying the grids for the hyperparameters which give the best Area Under Precision-Recall Curve (AUC-PR) in the presence of mainly behavioural data, the ML models are, then, trained with the transferred hyperparameters on unseen data, made up of behavioural and products’ features. Heterogeneous ensemble models show strength in improving performance metrics such as Precision, Recall, F1 score and AUC-PR, as well as business-oriented metrics like Gain Chart. In paper 2 of this thesis, a novel approach is developed to handle small, variable-length datasets in semiconductor manufacturing. It employs automatic feature extraction to correlate experiments with shared sensors and uses ANOVA-F to cope with overfitting. Classifiers are trained on a complete experimental dataset, while a second one related to another experiment is appropriately split into two for validation and testing. This research emphasizes the effectiveness of simpler Machine Learning models like Decision Trees, which not only demonstrate higher performance metrics compared to Deep Learning models but also offer more transparent insights into plasma etching processes.

Gli ecosistemi aziendali e industriali contemporanei richiedono quadri analitici predittivi avanzati per ottimizzare vari aspetti operativi. Questa tesi esplora l’applicazione del Machine Learning (ML) in due ambiti distinti: il lead scoring nel marketing e la rilevazione di guasti nella produzione di semiconduttori, entrambi basati su task di classificazione binaria. In entrambi i settori, vengono impiegati metodi originali, incentrati su un hyperparameter tuning specializzato per due set di dati di dimensioni diverse: un ampio dataset di lead scoring con oltre 1,5 milioni di campioni iniziali e un dataset di incisione al plasma, comprendente tre esperimenti con 42/43 wafer ciascuno. Nel primo articolo di questa tesi, relativo alla valutazione dei lead, dopo aver identificato le griglie per gli iperparametri che offrono la migliore Area Sotto la Curva Precision-Recall (AUC-PR) in presenza di dati prevalentemente comportamentali, i modelli di ML sono poi addestrati con gli iperparametri trasferiti su dati non visti, composti da caratteristiche comportamentali e dei prodotti. Modelli di ensemble eterogenei dimostrano la loro efficacia nel migliorare metriche di performance come Precision, Recall, punteggio F1 e AUC-PR, così come metriche orientate al business come il Gain Chart. Nel secondo articolo della tesi, viene sviluppato un nuovo approccio per gestire set di dati piccoli e di lunghezza variabile nella produzione di semiconduttori. Questo approccio impiega l’estrazione automatica delle caratteristiche per correlare esperimenti con gli stessi sensori e utilizza il criterio ANOVA-F per gestire l’overfitting. I classificatori sono addestrati su un dataset completo di un esperimento, mentre un secondo relativo ad un altro esperimento è suddiviso in modo appropriato per la validazione e il test. Questa ricerca enfatizza l’efficacia di modelli di Machine Learning più semplici come gli Alberi Decisionali, che non solo dimostrano migliori metriche di performance rispetto ai modelli di Deep Learning, ma offrono anche una visione più chiara dei processi di incisione al plasma.

Marketing and Manufacturing advancements: the critical role of Hyperparameter Tuning

Sgrò, Edoardo
2022/2023

Abstract

The contemporary business and industrial ecosystems necessitate advanced predictive analytical frameworks to optimize various operational aspects. This thesis explores the application of Machine Learning (ML) in two distinct domains: lead scoring in marketing and fault detection in semiconductor manufacturing, each anchored on a binary classification task. In both domains, original methodologies are employed, centered around specialized hyperparameter tuning across two datasets of different sizes: an extensive raw lead scoring dataset encompassing over 1.5 million initial samples, and the plasma etching dataset, comprising three experiments with 42/43 wafers each. In paper 1 of this thesis, related to the lead scoring task, after identifying the grids for the hyperparameters which give the best Area Under Precision-Recall Curve (AUC-PR) in the presence of mainly behavioural data, the ML models are, then, trained with the transferred hyperparameters on unseen data, made up of behavioural and products’ features. Heterogeneous ensemble models show strength in improving performance metrics such as Precision, Recall, F1 score and AUC-PR, as well as business-oriented metrics like Gain Chart. In paper 2 of this thesis, a novel approach is developed to handle small, variable-length datasets in semiconductor manufacturing. It employs automatic feature extraction to correlate experiments with shared sensors and uses ANOVA-F to cope with overfitting. Classifiers are trained on a complete experimental dataset, while a second one related to another experiment is appropriately split into two for validation and testing. This research emphasizes the effectiveness of simpler Machine Learning models like Decision Trees, which not only demonstrate higher performance metrics compared to Deep Learning models but also offer more transparent insights into plasma etching processes.
AHMED , IBRAHIM
TORTOLINI, VALENTINA
ING - Scuola di Ingegneria Industriale e dell'Informazione
19-dic-2023
2022/2023
Gli ecosistemi aziendali e industriali contemporanei richiedono quadri analitici predittivi avanzati per ottimizzare vari aspetti operativi. Questa tesi esplora l’applicazione del Machine Learning (ML) in due ambiti distinti: il lead scoring nel marketing e la rilevazione di guasti nella produzione di semiconduttori, entrambi basati su task di classificazione binaria. In entrambi i settori, vengono impiegati metodi originali, incentrati su un hyperparameter tuning specializzato per due set di dati di dimensioni diverse: un ampio dataset di lead scoring con oltre 1,5 milioni di campioni iniziali e un dataset di incisione al plasma, comprendente tre esperimenti con 42/43 wafer ciascuno. Nel primo articolo di questa tesi, relativo alla valutazione dei lead, dopo aver identificato le griglie per gli iperparametri che offrono la migliore Area Sotto la Curva Precision-Recall (AUC-PR) in presenza di dati prevalentemente comportamentali, i modelli di ML sono poi addestrati con gli iperparametri trasferiti su dati non visti, composti da caratteristiche comportamentali e dei prodotti. Modelli di ensemble eterogenei dimostrano la loro efficacia nel migliorare metriche di performance come Precision, Recall, punteggio F1 e AUC-PR, così come metriche orientate al business come il Gain Chart. Nel secondo articolo della tesi, viene sviluppato un nuovo approccio per gestire set di dati piccoli e di lunghezza variabile nella produzione di semiconduttori. Questo approccio impiega l’estrazione automatica delle caratteristiche per correlare esperimenti con gli stessi sensori e utilizza il criterio ANOVA-F per gestire l’overfitting. I classificatori sono addestrati su un dataset completo di un esperimento, mentre un secondo relativo ad un altro esperimento è suddiviso in modo appropriato per la validazione e il test. Questa ricerca enfatizza l’efficacia di modelli di Machine Learning più semplici come gli Alberi Decisionali, che non solo dimostrano migliori metriche di performance rispetto ai modelli di Deep Learning, ma offrono anche una visione più chiara dei processi di incisione al plasma.
File allegati
File Dimensione Formato  
2023_12_Sgro_Tesi_01.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Tesi
Dimensione 2.83 MB
Formato Adobe PDF
2.83 MB Adobe PDF   Visualizza/Apri
2023_12_Sgro_Executive Summary_02.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Executive Summary
Dimensione 724.22 kB
Formato Adobe PDF
724.22 kB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/214266