Development of machine learning algorithms for the estimation of the residual useful life of main wind turbine components

The purpose of this work is to investigate the possibility of creating a general data-driven model capable of predicting the residual useful life of the main internal sub-components of wind turbines, well in advance respect to the failure, based on component condition data. The most critical sub-components, both in terms of repair and downtime costs and in terms of failures frequency, have been identified in the bearings of various components, including the main shaft, the gearbox, and the generator. The work started from the data provided by Edison S.p.A., consisting of three datasets with recorded failures of bearings. In datasets, data from the wind turbine SCADA system were recorded every ten minutes from the start of component monitoring to the time of fault. From the initial SCADA data, which include the sub-component under analysis temperature, environmental conditions and operating conditions, several features have been extracted with the aim of capturing the temporal evolution of SCADA variables in different time windows and the relationships between them. The most relevant features were selected and used to train the models in a supervised manner, providing the values of the features associated with the real residual useful life value for each point of the dataset. The models, once trained over the experience of historical failures, should be able to recognize the phase of the remaining useful life of the new components, based on features values of the new component. Three methodologies for model creation based on different machine learning architectures were presented. The first methodology is based on a long-short-term-memory neural network, the second methodology is based on a boosted gradient decisional tree while the last methodology uses a clustering logic. All models were then tested, using the cross-validation technique, on examples of failures belonging to components never seen, and gave similar and promising results. All models were able to capture the progress of wear and predict a decreasing residual useful life over time, with a prediction curve similar to the real curve. Despite this, the error of model predictions turned out to be high, stabilizing on average at thirty days of error over a predictive horizon ranging from seven months before the fault to the fault itself. This could preclude the industrialization of models and requires an improvement of the same, starting from an increase in the quality and quantity of data used for training.

Lo scopo di questo lavoro è indagare la possibilità di creare un modello data-driven generale capace di predire la vita utile residua dei principali sottocomponenti interni delle turbine eoliche, con un largo anticipo rispetto alla rottura, basandosi sui dati delle condizioni dei componenti. I sottocomponenti più critici, sia in termini di costi di riparazione e fermo produzione che in termini di frequenza rotture, sono stati identificati nei cuscinetti di vari componenti, tra cui l’albero principale, il riduttore e il generatore. Il lavoro è partito dai dati messi a disposizione da Edison S.p.A., consistenti in tre dataset con storie di rotture di cuscinetti registrate. Nei dataset i dati provenienti dal sistema SCADA della turbina eolica sono stati registrati ogni dieci minuti dall’inizio del monitoraggio del componente fino al momento di avaria. Dai dati SCADA di partenza, che comprendono la temperatura del sottocomponente in analisi, le condizioni ambientali e le condizioni operative, sono state estratte diverse features con l’obiettivo di cogliere l’evoluzione temporale delle variabili SCADA in finestre temporali diverse e le relazioni tra le stesse. Le features più rilevanti sono state selezionate e sono state utilizzate per addestrare i modelli in modo supervisionato, fornendo i valori delle features associati al valore di vita utile residua reale per ogni punto del dataset. I modelli, una volta addestrati e basandosi sull’esperienza delle rotture storiche, dovrebbero essere in grado di riconoscere la fase della vita utile residua dei nuovi componenti, basandosi sui valori delle features di quest’ultimi. Tre metodologie di creazione dei modelli, basate su architetture di machine learning differenti sono state presentate. La prima metodologia si basa su una rete neurale long-short-term-memory, la seconda metodologia si basa su un gradient boosted decisional tree mentre l’ultima metodologia utilizza una logica di clustering. Tutti i modelli sono poi stati testati, utilizzando la tecnica della cross-validation, su esempi di rotture di componenti mai visti, e hanno dato risultati simili e promettenti. Tutti modelli sono stati in grado di cogliere l’avanzamento dell’usura e di prevedere una vita utile residua decrescente nel tempo, con una curva di predizione simile alla curva reale. Nonostante ciò, l’errore delle predizioni dei modelli si è rivelato comunque alto, stabilizzandosi in media a trenta giorni di errore su un orizzonte predittivo che va da sette mesi prima della rottura fino alla rottura stessa. Questo potrebbe precludere l’industrializzazione dei modelli e rende necessario un miglioramento degli stessi, partendo da un aumento qualitativo e quantitativo dei dati usati per il training.