Digital twin for MEMS: LSTM-based predictive modeling for electrostatically actuated microbeams

This thesis explores the development of a data-driven digital twin framework for Micro-Electro-Mechanical Systems (MEMS),with a specific focus on a slender beam electrostatically actuated between two electrodes. The research demonstrates that Long Short-Term Memory (LSTM) neural networks can serve as computationally efficient surrogates for finite element analysis, enabling real-time prediction of MEMS beam dynamics with nanometer-scale accuracy. An ensemble modeling approach was developed, comprising two specialized LSTM networks: one trained for sinusoidal (wave) actuation and another for step voltage actuation. The training dataset encompasses $1,176$ unique geometric configurations per actuation type, systematically varying beam length ($80-140\mu$m), beam height ($1-8\mu$m), air gap ($1-4\mu$m), and actuation voltage ($1-100$V), resulting in over $110,000$ temporal displacement sequences generated through high-fidelity COMSOL simulations. The thesis implements and validates autoregressive prediction capabilities, demonstrating that the models can generate complete $10\mu$s displacement time series from initial conditions alone. While the step model produces physically realistic dynamic responses with stable long-horizon predictions, comprehensive testing reveals specific failure modes: the wave model exhibits zero-plateau behavior in low displacement regimes and poor extrapolation beyond training boundaries, while both models lack representation of pull-in phenomena due to deliberate exclusion from training data. These limitations are systematically analyzed, with root causes traced to autoregressive instability, data preprocessing choices, and the absence of physics-based constraints. The developed digital twin framework enables multiple practical applications, including rapid design space exploration, predictive maintenance, and anomaly detection. By providing real-time predictions of future displacement trajectories, the system can identify anomalies when predictions diverge from observed sensor data or when displacements exceed predefined failure thresholds. The low memory footprint ($20$MB) and power consumption ($\sim0.5$W) make the models suitable for embedded deployment in edge computing applications. This research establishes that purely data-driven LSTM systems for MEMS dynamics are viable and practically useful within their operational envelope, achieving equivalent to finite element accuracy at a fraction of computational cost. However, the identified limitations, particularly poor extrapolation outside parameter space, absence of uncertainty quantification, and lack of physics-informed constraints—highlight priority directions for future enhancement. Recommended improvements include actuation-specific data preprocessing to eliminate scaling bias, extended training coverage encompassing pull-in regimes, integration of physics-informed loss terms or hybrid reduced-order models, implementation of uncertainty quantification methods, and experimental validation against fabricated devices. These enhancements would enable transition from specialized interpolation models to robust, general-purpose digital twins for MEMS design and monitoring.

Lo scopo di questa tesi è esplorare il framework di Digital Twin per sistemi microelettromeccanici (MEMS) con un focus specifico sulle travi snelle posizionate in mezzo a due elettrodi azionate da un campo elettrico. È stato sviluppato un sistema \textit{ensemble} composto da reti neurali \textit{Long-Short Term Memory }(LSTM) che consente l'analisi della risposta della serie temporale dello spostamento verticale della trave in due punti critici posizionati nella sezione trasversale: uno situato a metà ed il secondo a tre quarti della lunghezza della stessa trave. Sono stati selezionati e addestrati separatamente due diversi modelli sul dataset generato attraverso la simulazione multifisica COMSOL: uno specializzato per l'attuazione a onda sinusoidale e l'altro per l'attivazione a gradino. Il dataset di addestramento era composto da $1176$ configurazioni geometriche uniche per caratteristiche geometriche e di attuazione, variando sistematicamente la lunghezza della trave ($80 - 140\mu$m), l'altezza della trave ($1 - 8\mu$m), lo spazio composto da aria tra elettrodo e trave ($1 - 4\mu$m) e il livello della tensione di attuazione ($1- 100V$), per un totale di $110.000$ sequenze temporali. I modelli hanno dimostrato di riuscire a catturare la stessa scala nanometrica sui dataset, raggiungendo rispettivamente per l'attuazione a onda e gradino $35,1$ nm e $10,5$ nm per errore quadratico medio nella posizione a metà lunghezza, calcolati come la differenza tra lo spostamento effettivo dai dati di simulazione fisica e i valori di spostamento previsti dal modello LSTM. Il modello di attuazione a gradino ha mostrato le migliori prestazioni con $3,75$ nm di errore assoluto medio, calcolato con gli stessi dati del precedente calcolo dell'errore, quindi catturando le dinamiche transitorie della geometria selezionata. Grazie ai tempi di inferenza dei modelli inferiori a $1$ millisecondo si è ottenuto un fattore di miglioramento di $10^5$-$10^6\times$ rispetto alla simulazione multifisica agli elementi finiti, consentendo applicazioni di digital twin in tempo reale. La tesi implementa e convalida la capacità di previsione autoregressiva, dimostrando che i modelli possono generare complete serie temporali di spostamento di $10\,\mu$s partendo solo dalle condizioni iniziali. Mentre il modello a gradino produce risposte dinamiche fisicamente realistiche con predizioni stabili a lungo orizzonte, test completi rivelano specifiche modalità di fallimento: il modello ad onda presenta un comportamento di plateau-zero in regimi a basso spostamento e scarsa estrapolazione oltre i confini di addestramento, mentre entrambi i modelli mancano di rappresentazione dei fenomeni di pull-in a causa dell'esclusione deliberata dai dati di addestramento. Queste limitazioni sono sistematicamente analizzate, con le cause alla radice ricondotte all'instabilità autoregressiva, alle scelte di preprocessamento dei dati e all'assenza di vincoli basati sulla fisica. Il framework di digital twin sviluppato abilita molteplici applicazioni pratiche, includendo esplorazione rapida dello spazio di progetto, manutenzione predittiva e rilevamento di anomalie. Fornendo predizioni in tempo reale delle traiettorie future di spostamento ($[\hat{u}(t+1),\hat{u}(t+2),\ldots,\hat{u}(t+t_{\text{fin}}-1)]$), il sistema può identificare anomalie quando le predizioni divergono dai dati sensoriali osservati del MEMS o quando gli spostamenti superano soglie di fallimento predefinite. Il ridotto footprint di memoria ($20$ MB) e il basso consumo energetico ($\sim0,5$ W) rendono i modelli adatti per l'uso negli embedded in applicazioni di edge computing. Questa ricerca stabilisce che i surrogati LSTM puramente data-driven per la dinamica MEMS sono fattibili e praticamente utili all'interno del loro dominio operativo, raggiungendo una precisione equivalente agli elementi finiti a una frazione del costo computazionale. Tuttavia, le limitazioni identificate, in particolare la scarsa estrapolazione, l'assenza di quantificazione dell'incertezza e la mancanza di vincoli physics-informed, evidenziano direzioni per futuri miglioramenti. I miglioramenti includono preprocessamento dei dati specifico per tipo di attuazione per eliminare il bias di scaling, estensione della copertura di addestramento che comprenda i regimi di pull-in, integrazione di termini di loss physics-informed o modelli ibridi, implementazione di metodi di quantificazione dell'incertezza e validazione sperimentale con dispositivi di misurazione. Questi miglioramenti consentirebbero la transizione da modelli di interpolazione specializzati a digital twin robusti e general-purpose per la progettazione e il monitoraggio di MEMS.