A deep learning approach to 2D digital image correlation: development through convolutional neural network and comparison with a finite element based code

2D Digital Image Correlation (DIC) is a no-contact optical technique widely adopted in experimental mechanics to measure full-field displacements on material surfaces by tracking the deformation of a random texture across reference and deformed images. Despite its maturity, traditional DIC, in both its subset-based and finite-element formulations, relies on iterative optimisation procedures that are computationally expensive, and its accuracy depends strongly on user-defined parameters whose optimal configuration may vary across different experimental conditions. These limitations have motivated the adoption of a deep learning framework as an alternative approach to DIC. This thesis develops DenseDisplacementNet, an encoder--decoder Convolutional neural network (CNN) with skip connections and group normalisation, with approximately 8.17 million trainable parameters, for dense sub-pixel displacement field estimation. A comprehensive synthetic dataset is generated via a Boolean model for speckle-pattern creation, spanning translations, rotations, polynomial, and sinusoidal displacement fields. The training strategy is refined through a two-stage Bayesian hyperparameter search with the Optuna framework, yielding AdamW with OneCycleLR scheduling and a batch size of four as the optimal configuration. Metrological performance is assessed following the DIC Challenge 2.0 protocol on the standardised STAR benchmark. The network achieves a mean End-Point Error of 0.0246 pixels on the held-out test set, a spatial resolution of 65.6 pixels, and a Metrological Efficiency Indicator of 0.36~px$^{2}$, the lowest among all compared methods, with an inference time of 3.8 milliseconds per image pair. A systematic comparison with a finite-element DIC code reveals complementary strengths: FE-DIC attains finer spatial resolution (22.3 pixels) through its pyramidal multi-resolution strategy, whereas the CNN delivers superior measurement resolution and proves especially effective on sub-pixel displacement fields. Conversely, FE-DIC shows greater robustness for out-of-distribution displacement patterns, highlighting the role of training-set design in deep learning-based DIC approaches.

La Digital Image Correlation 2D (DIC) è una tecnica ottica senza contatto adottata nella meccanica sperimentale per misurare campi di spostamento su superfici di materiali, tracciando la deformazione di una texture casuale tra immagini di riferimento e deformate. Nonostante la sua maturità, la DIC tradizionale, sia nella formulazione a subset sia in quella a elementi finiti, si basa su procedure di ottimizzazione iterativa computazionalmente onerose, e la sua accuratezza dipende da parametri definiti dall'utente la cui configurazione ottimale varia con le condizioni sperimentali. Tali limitazioni hanno motivato l'adozione di un approccio basato sul deep learning come alternativa alla DIC. Questa tesi sviluppa DenseDisplacementNet, una CNN encoder--decoder con skip connections e group normalisation, con circa 8.17 milioni di parametri addestrabili, per la stima densa di campi di spostamento sub-pixel. Un dataset sintetico è generato tramite un modello Booleano per la creazione di pattern speckle, comprendente traslazioni, rotazioni, campi polinomiali e sinusoidali. La strategia di addestramento è ottimizzata mediante ricerca Bayesiana degli iperparametri in due fasi con il framework Optuna, individuando AdamW con scheduling OneCycleLR e batch size pari a quattro come configurazione ottimale. Le prestazioni metrologiche sono valutate secondo il protocollo DIC Challenge 2.0 sul benchmark STAR. La rete raggiunge un End-Point Error medio di 0.0246 pixel sul test set, una risoluzione spaziale di 65.6 pixel e un Metrological Efficiency Indicator di 0.36~px$^{2}$, il più basso tra i metodi confrontati, con un tempo di inferenza di 3.8 millisecondi per coppia di immagini. Un confronto sistematico con un codice FE-DIC rivela punti di forza complementari: la FE-DIC raggiunge una risoluzione spaziale più fine (22.3 pixel) grazie alla strategia piramidale multi-risoluzione, mentre la CNN offre una risoluzione di misura superiore risultando efficace su campi sub-pixel. La FE-DIC mostra invece maggiore robustezza per spostamenti fuori distribuzione, evidenziando il ruolo del dataset di addestramento negli approcci DIC basati su deep learning.