Dynamic pricing in multi-state environments

The thesis proposes a novel application of online learning algorithms to dynamic pricing problems in travel and e-commerce industry scenarios, specifically within the LastMinute Learning System, where the products are categorized into a primary product (the flight) and ancillaries (baggage, priority boarding, etc.). The main challenge addressed is the system's existing limitation in handling the interdependencies between the prices of the primary and a main ancillary product, leading to suboptimal pricing strategies and potential revenue losses. To overcome the aforementioned problem, the research focuses on the development and application of a robust primal-dual reinforcement learning algorithm to Constrained Markov Decision Processes (CMDPs), enabling a sophisticated approach to multi-state optimization with the incorporation of safety constraints on the proportion of sold products. The study explores the modeling of the dynamic pricing environment as a CMDP characterized by unknown transitions, bandit feedback, and a combination of adversarial and stochastic rewards and constraints. This approach allows for a representation of customer behavior and demand patterns adequate to both stationary and non-stationary market dynamics. The algorithm, tested both on simulated data and with parameters derived from real-world datasets, showcases robust performance in balancing revenue optimization with adherence to constraints. The research concludes with promising directions for future work, including the integration of additional ancillaries into the MDP model and the exploration of methods to incorporate contextual information more efficiently.

Questa tesi presenta una nuova applicazione degli algoritmi di online learning ai problemi di dynamic pricing nell'industria dei viaggi e dell'e-commerce, in particolare all'interno del sistema di apprendimento di LastMinute. I prodotti sono classificati in un prodotto primario (il volo) e prodotti accessori (bagaglio, imbarco prioritario, ecc.). La sfida principale della ricerca è la limitazione esistente del sistema nel gestire le dipendenze tra i prezzi del prodotto primario e un prodotto accessorio, portando a strategie di pricing subottimali e potenziali perdite di entrate. Per superare tale problema, la ricerca si concentra sullo sviluppo e l'applicazione di algoritmi primale-duale di reinforcement learning ai Constrained Markov Decision Processes (CMDPs), permettendo un approccio sofisticato all'ottimizzazione multi-stato con l'incorporazione di safety constraints sulla proporzione di prodotti venduti. Lo studio esplora la modellazione dell'ambiente di dynamic pricing come un CMDP caratterizzato da transizioni sconosciute, feedback di tipo bandit e una combinazione di rewards e constraints sia avversari che stocastici. Questo approccio consente una rappresentazione adeguata della domanda e del comportamento dei clienti, adatto sia a dinamiche di mercato stazionarie che non stazionarie. L'algoritmo, testato sia su dati simulati che con parametri derivati da dataset reali, si dimostra robusto nel bilanciare l'ottimizzazione delle entrate con l'aderenza ai vincoli. La ricerca si conclude con promettenti futuri sviluppi, inclusa l'integrazione di ulteriori prodotti accessori nel modello e l'esplorazione di metodi per incorporare più efficientemente le informazioni contestuali.