Deep reinforcement learning-based maintenance optimization of natural gas transmission pipeline networks

Biblioteche e Archivi
POLITesi - Archivio digitale delle tesi di laurea e di dottorato

Ensuring supply of natural gas is key for the functioning of society and requires balancing operation and maintenance costs. In this thesis, the problem is addressed by framing maintenance of Natural Gas Transmission Pipeline (NGTP) networks as a sequential decision problem and a Deep Reinforcement Learning (DRL) algorithm is developed for its solution based on Proximal Policy Optimization (PPO). The framework integrates graph theory to model network interdependencies and a flow optimization model to maximize network flow in NGTP networks with evolving states, considering dynamic demand rates and uncertain operating conditions. The DRL agent is initialized by Imitation Learning (IL), and specifically by Behavioral Cloning (BC) that uses expert demonstrations as the training set; these are generated by implementing condition-based and preventive maintenance policies, to align expert state-action pairs directly onto the agent’s starting policy. To ensure an optimal model architecture and training configuration, automated hyperparameter tuning is conducted by Tree-structured Parzen Estimator (TPE) optimization. The proposed methodology is applied to an NGTP network, and its performance is compared to conventional maintenance strategies.

Garantire l'approvvigionamento di gas naturale è fondamentale per il funzionamento della società e richiede un equilibrio tra costi operativi e di manutenzione. In questa tesi, il problema viene affrontato inquadrando la manutenzione delle reti di gasdotti per il trasporto di gas naturale (Natural Gas Transmission Pipeline, NGTP) come un problema decisionale sequenziale e viene sviluppato un algoritmo di Deep Reinforcement Learning (DRL) per la sua soluzione basato su Proximal Policy Optimization (PPO). Il framework integra la teoria dei grafi per modellare le interdipendenze di rete e un modello di ottimizzazione del flusso per massimizzare il flusso di rete nei gasdotti per il trasporto di gas naturale con stati in evoluzione, considerando tassi di domanda di gas dinamici e condizioni operative incerte. L'agente DRL viene inizializzato tramite apprendimento per imitazione (Imitation Learning, IL) e, in particolare, tramite Behavioral Cloning (BC) che utilizza dimostrazioni di esperti come set di addestramento; queste vengono generate implementando politiche di manutenzione su condizione e preventiva, per allineare le coppie stato-azione degli esperti direttamente alla politica iniziale dell'agente. Per garantire un'architettura del modello e una configurazione di addestramento ottimali, viene eseguita una regolazione automatica degli iperparametri tramite ottimizzazione con Tree-structured Parzen Estimator (TPE). La metodologia proposta viene applicata a una rete NGTP e le sue prestazioni vengono confrontate con strategie di manutenzione convenzionali.

Deep reinforcement learning-based maintenance optimization of natural gas transmission pipeline networks

SAMPAOLESI, LUCA

2024/2025

Abstract

Ensuring supply of natural gas is key for the functioning of society and requires balancing operation and maintenance costs. In this thesis, the problem is addressed by framing maintenance of Natural Gas Transmission Pipeline (NGTP) networks as a sequential decision problem and a Deep Reinforcement Learning (DRL) algorithm is developed for its solution based on Proximal Policy Optimization (PPO). The framework integrates graph theory to model network interdependencies and a flow optimization model to maximize network flow in NGTP networks with evolving states, considering dynamic demand rates and uncertain operating conditions. The DRL agent is initialized by Imitation Learning (IL), and specifically by Behavioral Cloning (BC) that uses expert demonstrations as the training set; these are generated by implementing condition-based and preventive maintenance policies, to align expert state-action pairs directly onto the agent’s starting policy. To ensure an optimal model architecture and training configuration, automated hyperparameter tuning is conducted by Tree-structured Parzen Estimator (TPE) optimization. The proposed methodology is applied to an NGTP network, and its performance is compared to conventional maintenance strategies.

Scheda breve

Scheda completa

	Relatore
	
				ZIO, ENRICO
			
	Correlatore/i
	
				NASERI, MASOUD
			
	Scuola / Dip.
	
				ING  - Scuola di Ingegneria Industriale e dell'Informazione
			
	Data
	
				26-mar-2026
			
	Anno accademico
	
				2024/2025
			
	Abstract in italiano
	
				Garantire l'approvvigionamento di gas naturale è fondamentale per il funzionamento della società e richiede un equilibrio tra costi operativi e di manutenzione. In questa tesi, il problema viene affrontato inquadrando la manutenzione delle reti di gasdotti per il trasporto di gas naturale (Natural Gas Transmission Pipeline, NGTP) come un problema decisionale sequenziale e viene sviluppato un algoritmo di Deep Reinforcement Learning (DRL) per la sua soluzione basato su Proximal Policy Optimization (PPO). Il framework integra la teoria dei grafi per modellare le interdipendenze di rete e un modello di ottimizzazione del flusso per massimizzare il flusso di rete nei gasdotti per il trasporto di gas naturale con stati in evoluzione, considerando tassi di domanda di gas dinamici e condizioni operative incerte.
L'agente DRL viene inizializzato tramite apprendimento per imitazione (Imitation Learning, IL) e, in particolare, tramite Behavioral Cloning (BC) che utilizza dimostrazioni di esperti come set di addestramento; queste vengono generate implementando politiche di manutenzione su condizione e preventiva, per allineare le coppie stato-azione degli esperti direttamente alla politica iniziale dell'agente. Per garantire un'architettura del modello e una configurazione di addestramento ottimali, viene eseguita una regolazione automatica degli iperparametri tramite ottimizzazione con Tree-structured Parzen Estimator (TPE). 
La metodologia proposta viene applicata a una rete NGTP e le sue prestazioni vengono confrontate con strategie di manutenzione convenzionali.
			
	Appare nelle tipologie:
	
				Tesi di laurea Magistrale

File allegati

File	Dimensione	Formato
2026_03_Sampaolesi_Executive_Summary.pdf accessibile in internet per tutti Descrizione: Executive Summary Dimensione 1.33 MB Formato Adobe PDF Visualizza/Apri	1.33 MB	Adobe PDF	Visualizza/Apri
2026_03_Sampaolesi_Tesi.pdf accessibile in internet per tutti Descrizione: Tesi Dimensione 5.56 MB Formato Adobe PDF Visualizza/Apri	5.56 MB	Adobe PDF	Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/253225