Many physical, financial and social phenomena can be modeled by means of Partial Differential Equations, that may however be very difficult to be solved analytically. For this reason their numerical solution is a central topic in the applied mathematics field, mostly focused on Galerkin-type praradigms. Such methods require the construction of a mesh discretization of spatial domains, that can be very complicated, and heavy operations to be performed at every node, and then to build a suitable discrete (i.e. fnite-dimensional) approximation space on top of that. When problem dimensionality increases, the number of points and consequently the computational cost arise, incurring in the so-called curse of dimensionality. Machine learning provides powerful and innovative tools that has proved to be able to overcome this issue and work with huge quantity of multidimensional data. This thesis presents therefore a fully data-driven approach to the approximate solution of Partial Differential Equations, based on a coupling of two artificial neural networks that predict the valuation of the solution on coordinate points given as input. One structure works on the boundary and the other in the interior of the domain, in order to exploit all the information about the physics of the problem given by the equation and the (boundary, initial) data. The absence of particular theoretical background in the subject does not allow a rigorous proof of convergence results and error bounds. On the other hand, the method applied to a large class of problems appears to be rapidly convergent, even if to values of the error of order no lower than 1e-03. Moreover, the dimensionality increase slows the convergence down but does not produce relevant obstacles in the training phase. Fast convergence gives a good black-box method, that cannot however substitute the traditional approaches since it shows lacks in recognizing particular features of the solution (e.g. irregularities, boundary/interior layers) even when the number of hidden layers increases.

Molti fenomeni fisici, finanziari e sociali possono essere modellati per mezzo di Equazioni a Derivate Parziali, che tuttavia sono spesso difficili da risolvere in modo analitico. Per questa ragione la loro soluzione numerica è un argomento centrale nel campo della matematica applicata, soprattutto focalizzata su paradigmi di tipo Galerkin. Tali metodi richiedono la costruzione di mesh per la discretizzazione di domini spaziali, che possono essere molto complicati, e l'esecuzione di pesanti operazioni ad ogni nodo. Quando la dimensionalità dei problemi aumenta, il numero di punti e di conseguenza il costo computazionale crescono, incorrendo nella cosiddetta curse of dimensionality. Il machine learning fornisce strumenti potenti ed innovativi che si sono dimostrati in grado di sorpassare questo problema e lavorare con grandi quantità di dati multidimensionali. Questa tesi presenta quindi un approccio completamente data-driven alla risoluzione approssimata delle Equazioni a Derivate Parziali, basato su un accoppiamento di due reti neurali artificiali che predicono la valutazione della soluzione in coordinate di punti date in input. Una struttura lavora sul bordo e l'altra all'interno del dominio, con lo scopo di sfruttare tutte le informazioni riguardanti la fisica del problema fornite dall'equazione e dai dati (al contorno, iniziali). L'assenza di un background teorico approfondito in materia non permette una dimostrazione rigorosa di risultati di convergenza o controllo dell'errore. D'altra parte, il metodo applicato a un'ampia classe di problemi sembra essere rapidamente convergente, anche se verso valori dell'errore di ordine non inferiore a 1e-03. Inoltre, l'aumento della dimensionalità rallenta la convergenza ma non produce ostacoli rilevanti nella fase di training. La rapida convergenza fornisce un buon metodo black-box, che non può tuttavia sostituirsi agli approcci tradizionali poiché mostra falle nel riconoscimento di caratteristiche particolari della soluzione (come irregolarità, strati al bordo/interni) anche quando il numero di strati nascosti aumenta.

Artificial neural networks for the approximate solution of partial differential equations

Crippa, Beatrice
2020/2021

Abstract

Many physical, financial and social phenomena can be modeled by means of Partial Differential Equations, that may however be very difficult to be solved analytically. For this reason their numerical solution is a central topic in the applied mathematics field, mostly focused on Galerkin-type praradigms. Such methods require the construction of a mesh discretization of spatial domains, that can be very complicated, and heavy operations to be performed at every node, and then to build a suitable discrete (i.e. fnite-dimensional) approximation space on top of that. When problem dimensionality increases, the number of points and consequently the computational cost arise, incurring in the so-called curse of dimensionality. Machine learning provides powerful and innovative tools that has proved to be able to overcome this issue and work with huge quantity of multidimensional data. This thesis presents therefore a fully data-driven approach to the approximate solution of Partial Differential Equations, based on a coupling of two artificial neural networks that predict the valuation of the solution on coordinate points given as input. One structure works on the boundary and the other in the interior of the domain, in order to exploit all the information about the physics of the problem given by the equation and the (boundary, initial) data. The absence of particular theoretical background in the subject does not allow a rigorous proof of convergence results and error bounds. On the other hand, the method applied to a large class of problems appears to be rapidly convergent, even if to values of the error of order no lower than 1e-03. Moreover, the dimensionality increase slows the convergence down but does not produce relevant obstacles in the training phase. Fast convergence gives a good black-box method, that cannot however substitute the traditional approaches since it shows lacks in recognizing particular features of the solution (e.g. irregularities, boundary/interior layers) even when the number of hidden layers increases.
ING - Scuola di Ingegneria Industriale e dell'Informazione
21-dic-2021
2020/2021
Molti fenomeni fisici, finanziari e sociali possono essere modellati per mezzo di Equazioni a Derivate Parziali, che tuttavia sono spesso difficili da risolvere in modo analitico. Per questa ragione la loro soluzione numerica è un argomento centrale nel campo della matematica applicata, soprattutto focalizzata su paradigmi di tipo Galerkin. Tali metodi richiedono la costruzione di mesh per la discretizzazione di domini spaziali, che possono essere molto complicati, e l'esecuzione di pesanti operazioni ad ogni nodo. Quando la dimensionalità dei problemi aumenta, il numero di punti e di conseguenza il costo computazionale crescono, incorrendo nella cosiddetta curse of dimensionality. Il machine learning fornisce strumenti potenti ed innovativi che si sono dimostrati in grado di sorpassare questo problema e lavorare con grandi quantità di dati multidimensionali. Questa tesi presenta quindi un approccio completamente data-driven alla risoluzione approssimata delle Equazioni a Derivate Parziali, basato su un accoppiamento di due reti neurali artificiali che predicono la valutazione della soluzione in coordinate di punti date in input. Una struttura lavora sul bordo e l'altra all'interno del dominio, con lo scopo di sfruttare tutte le informazioni riguardanti la fisica del problema fornite dall'equazione e dai dati (al contorno, iniziali). L'assenza di un background teorico approfondito in materia non permette una dimostrazione rigorosa di risultati di convergenza o controllo dell'errore. D'altra parte, il metodo applicato a un'ampia classe di problemi sembra essere rapidamente convergente, anche se verso valori dell'errore di ordine non inferiore a 1e-03. Inoltre, l'aumento della dimensionalità rallenta la convergenza ma non produce ostacoli rilevanti nella fase di training. La rapida convergenza fornisce un buon metodo black-box, che non può tuttavia sostituirsi agli approcci tradizionali poiché mostra falle nel riconoscimento di caratteristiche particolari della soluzione (come irregolarità, strati al bordo/interni) anche quando il numero di strati nascosti aumenta.
File allegati
File Dimensione Formato  
2021_12_Crippa_01.pdf

accessibile in internet per tutti

Descrizione: Tesi
Dimensione 9.18 MB
Formato Adobe PDF
9.18 MB Adobe PDF Visualizza/Apri
2021_12_Crippa_02.pdf

accessibile in internet per tutti

Descrizione: Executive_summary
Dimensione 643.15 kB
Formato Adobe PDF
643.15 kB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/183284