Ensuring supply of natural gas is key for the functioning of society and requires balancing operation and maintenance costs. In this thesis, the problem is addressed by framing maintenance of Natural Gas Transmission Pipeline (NGTP) networks as a sequential decision problem and a Deep Reinforcement Learning (DRL) algorithm is developed for its solution based on Proximal Policy Optimization (PPO). The framework integrates graph theory to model network interdependencies and a flow optimization model to maximize network flow in NGTP networks with evolving states, considering dynamic demand rates and uncertain operating conditions. The DRL agent is initialized by Imitation Learning (IL), and specifically by Behavioral Cloning (BC) that uses expert demonstrations as the training set; these are generated by implementing condition-based and preventive maintenance policies, to align expert state-action pairs directly onto the agent’s starting policy. To ensure an optimal model architecture and training configuration, automated hyperparameter tuning is conducted by Tree-structured Parzen Estimator (TPE) optimization. The proposed methodology is applied to an NGTP network, and its performance is compared to conventional maintenance strategies.

Garantire l'approvvigionamento di gas naturale è fondamentale per il funzionamento della società e richiede un equilibrio tra costi operativi e di manutenzione. In questa tesi, il problema viene affrontato inquadrando la manutenzione delle reti di gasdotti per il trasporto di gas naturale (Natural Gas Transmission Pipeline, NGTP) come un problema decisionale sequenziale e viene sviluppato un algoritmo di Deep Reinforcement Learning (DRL) per la sua soluzione basato su Proximal Policy Optimization (PPO). Il framework integra la teoria dei grafi per modellare le interdipendenze di rete e un modello di ottimizzazione del flusso per massimizzare il flusso di rete nei gasdotti per il trasporto di gas naturale con stati in evoluzione, considerando tassi di domanda di gas dinamici e condizioni operative incerte. L'agente DRL viene inizializzato tramite apprendimento per imitazione (Imitation Learning, IL) e, in particolare, tramite Behavioral Cloning (BC) che utilizza dimostrazioni di esperti come set di addestramento; queste vengono generate implementando politiche di manutenzione su condizione e preventiva, per allineare le coppie stato-azione degli esperti direttamente alla politica iniziale dell'agente. Per garantire un'architettura del modello e una configurazione di addestramento ottimali, viene eseguita una regolazione automatica degli iperparametri tramite ottimizzazione con Tree-structured Parzen Estimator (TPE). La metodologia proposta viene applicata a una rete NGTP e le sue prestazioni vengono confrontate con strategie di manutenzione convenzionali.

Deep reinforcement learning-based maintenance optimization of natural gas transmission pipeline networks

SAMPAOLESI, LUCA
2024/2025

Abstract

Ensuring supply of natural gas is key for the functioning of society and requires balancing operation and maintenance costs. In this thesis, the problem is addressed by framing maintenance of Natural Gas Transmission Pipeline (NGTP) networks as a sequential decision problem and a Deep Reinforcement Learning (DRL) algorithm is developed for its solution based on Proximal Policy Optimization (PPO). The framework integrates graph theory to model network interdependencies and a flow optimization model to maximize network flow in NGTP networks with evolving states, considering dynamic demand rates and uncertain operating conditions. The DRL agent is initialized by Imitation Learning (IL), and specifically by Behavioral Cloning (BC) that uses expert demonstrations as the training set; these are generated by implementing condition-based and preventive maintenance policies, to align expert state-action pairs directly onto the agent’s starting policy. To ensure an optimal model architecture and training configuration, automated hyperparameter tuning is conducted by Tree-structured Parzen Estimator (TPE) optimization. The proposed methodology is applied to an NGTP network, and its performance is compared to conventional maintenance strategies.
ING - Scuola di Ingegneria Industriale e dell'Informazione
26-mar-2026
2024/2025
Garantire l'approvvigionamento di gas naturale è fondamentale per il funzionamento della società e richiede un equilibrio tra costi operativi e di manutenzione. In questa tesi, il problema viene affrontato inquadrando la manutenzione delle reti di gasdotti per il trasporto di gas naturale (Natural Gas Transmission Pipeline, NGTP) come un problema decisionale sequenziale e viene sviluppato un algoritmo di Deep Reinforcement Learning (DRL) per la sua soluzione basato su Proximal Policy Optimization (PPO). Il framework integra la teoria dei grafi per modellare le interdipendenze di rete e un modello di ottimizzazione del flusso per massimizzare il flusso di rete nei gasdotti per il trasporto di gas naturale con stati in evoluzione, considerando tassi di domanda di gas dinamici e condizioni operative incerte. L'agente DRL viene inizializzato tramite apprendimento per imitazione (Imitation Learning, IL) e, in particolare, tramite Behavioral Cloning (BC) che utilizza dimostrazioni di esperti come set di addestramento; queste vengono generate implementando politiche di manutenzione su condizione e preventiva, per allineare le coppie stato-azione degli esperti direttamente alla politica iniziale dell'agente. Per garantire un'architettura del modello e una configurazione di addestramento ottimali, viene eseguita una regolazione automatica degli iperparametri tramite ottimizzazione con Tree-structured Parzen Estimator (TPE). La metodologia proposta viene applicata a una rete NGTP e le sue prestazioni vengono confrontate con strategie di manutenzione convenzionali.
File allegati
File Dimensione Formato  
2026_03_Sampaolesi_Executive_Summary.pdf

accessibile in internet per tutti

Descrizione: Executive Summary
Dimensione 1.33 MB
Formato Adobe PDF
1.33 MB Adobe PDF Visualizza/Apri
2026_03_Sampaolesi_Tesi.pdf

accessibile in internet per tutti

Descrizione: Tesi
Dimensione 5.56 MB
Formato Adobe PDF
5.56 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/253225