Controllo di un gruppo di ascensori tramite apprendimento per rinforzo con selezione delle variabili

People who spent some time in high and populated buildings has surely benefited from the services of elevator groups, probably complaining for poor quality of service, such as long waiting time. As a matter of fact, elevator groups control is a very complex task, due to the high number of control variables and different, contrasting goals to achive. For its purpose the controller must take into account a large number of information, but not all the relevant ones can be obtained, thus introducing a certain amount of randomness. The aim of this thesis is to explore the area of reinforcement learning to design an elevator group control system. Our main goal is to propose a self-tuning controller which guaranties short waiting times and is able to react to changes in the environment. For this purpose we propose a new hierarchical architecture, designed in order to simplify the duty of the controller; on top of this architecture we project learning agents, both with Fitted Q Iteration (FQI) and gradient methods (RLG). In order to face the complexity due to the high dimensionality of the problem we propose also two new feature selection algorithms, one which provide some guarantees for the optimal policy of the reduced model, the other that generates the feature dependency tree. We show that FQI controller can't achieve very good performance due to the huge amount of data that it would need, while RLG controller can achive quite good performance and it is a reliable adaptive controller. Besides this, we show that the guaranteed feature selection algorithm can't be used in real application because of computational time, while the one that builds the feature dependency tree is effective.

Chiunque abbia frequentato un edificio con numerosi piani e popolato da un elevato numero di persone ha certamente usufruito dei servizi di un gruppo di ascensori e, probabilmente, ha avuto occasione di lamentarsi della scarsa qualità del servizio offertogli, ad esempio a causa di tempi di attesa eccessivamente lunghi. Il controllo di un gruppo di ascensori, infatti, è un compito molto complesso, in quanto il controllore deve tener conto di un altissimo numero di variabili e soddisfare allo stesso tempo esigenze differenti, anche contrastanti tra loro. Per raggiungere questo obiettivo il controllore ha a disposizione una quantità di dati che è allo stesso tempo elevata ma non sufficiente a inquadrare lo stato completo del sistema, introducendo così una certa dose di incertezza. Lo scopo di questa tesi è quello di esplorare l'area dell'apprendimento per rinforzo per la progettazione di un controllore di gruppo di ascensori. L'obiettivo principale che ci proponiamo è quello di progettare un controllore che faccia sperimentare attese brevi agli utenti del sistema e che allo stesso tempo sia in grado di adattarsi a possibili cambiamenti del sistema. A tal proposito proponiamo una nuova architettura gerarchica, studiata per semplificare il controllo, e la utilizziamo per l'apprendimento sia tramite metodi di apprendimento offline (FQI), sia tramite metodi gradiente (RLG). Per contrastare le difficoltà dovute all'alta dimensionalità del problema, inoltre, proponiamo due nuovi algoritmi di feature selection: l'algoritmo garantito, che fornisce delle garanzie sulla bontà della politica apprendibile con l'insieme ridotto delle feature, e l'algoritmo euristico, che crea un albero delle dipendenze tra le varie feature. La tesi mostra che FQI necessita di un numero troppo elevato di dati per poter apprendere una politica buona, mentre RLG riesce a ottenere delle prestazioni discrete garantendo allo stesso tempo un controllore adattativo. L'algoritmo di selezione delle feature euristico, inoltre, si dimostra essere efficace, mentre quello garantito non è risultato essere utilizzabile nella pratica a causa di tempi computazionali eccessivamente lunghi.