In this thesis we want to address the problem of determining the selling price for products or services to maximize the revenue in a context where the demand curve is unknown and stochastic. This kind of problems presents a dilemma: one has to balance between learning accurately the shape of the demand curve and deciding to maximize the revenue basing on the current knowledge of the demand curve shape. In order to deal with this dilemma we made use of Reinforcement Learning techniques, in particular the ones developed in the Multi-Armed Bandit (MAB) scenario. A generic MAB policy is able to balance the exploration and exploitation basing on the sequence of past plays and obtained revenue. Policies presented in the literature are designed for the generic case where the choices are independent among each others. In the pricing scenario, a reasonable assumption is that the demand curve decreases as the price increases, and thus correlation is present among the available choices. We designed and developed a policy that uses these informations to speed up the learning phase, especially in the early stages, when only few samples are available. We applied this policy both to the discrete case, where a finite set of choices are available, and to the continuum case, where a continuous search space is given to the policy. A wide experimental campaign showed an improvement up to 90% both in the discrete and continuous case.

In questa tesi abbiamo affrontato il problema di determinare il prezzo di vendita per un prodotto od un servizio, in maniera tale da massimizzare il guadagno, in un contesto in cui la curva di domanda è sconosciuta e stocastica. Questo tipo di problemi presenta un dilemma: bisogna bilanciare tra imparare accuramente la forma della curva di domanda e decidere di massimizzare il profitto basandosi sulla conoscenza finora accumlata della curva di domanda. Per risolvere il dilemma abbiamo usato tecniche di Reinforcement Learning, in particolare tecniche sviluppate per lo scenario Multi-Armed Bandit (MAB). Una policy generica MAB è in grado di bilanciare esplorazione e sfruttamento dell'informazione basandosi sulla sequenza di giocate passate e sul guadagno accumulato fino ad ora. Le soluzioni proposte in letteratura sono sviluppate per il caso generico in cui le scelte sono indipendenti tra di loro. Nel contesto del pricing, una assunzione ragionevole è che la curva della domanda decresca all'aumentare del prezzo e quindi che esista una correlazione tre le scelte disponibili. Abbiamo ideato e sviluppato una soluzione che usasse queste informazioni per migliorare l'apprendimento, soprattutto nelle prime fasi, quando sono disponibili pochi campioni. Abbiamo applicato la nostra soluzione sia al caso discreto, dove è presente un insieme finito di scelte possibili, sia al caso continuo, dove è presente uno spazio di ricerca continuo. Una ampia campagna sperimentale mostra un miglioramento rispetto alle tecniche esistenti fino al 90% sia nel caso continuo che nel caso discreto.

Exploiting monotonicity in continuum and multi armed bandit : the pricing scenario

SGARRO, ANDREA
2014/2015

Abstract

In this thesis we want to address the problem of determining the selling price for products or services to maximize the revenue in a context where the demand curve is unknown and stochastic. This kind of problems presents a dilemma: one has to balance between learning accurately the shape of the demand curve and deciding to maximize the revenue basing on the current knowledge of the demand curve shape. In order to deal with this dilemma we made use of Reinforcement Learning techniques, in particular the ones developed in the Multi-Armed Bandit (MAB) scenario. A generic MAB policy is able to balance the exploration and exploitation basing on the sequence of past plays and obtained revenue. Policies presented in the literature are designed for the generic case where the choices are independent among each others. In the pricing scenario, a reasonable assumption is that the demand curve decreases as the price increases, and thus correlation is present among the available choices. We designed and developed a policy that uses these informations to speed up the learning phase, especially in the early stages, when only few samples are available. We applied this policy both to the discrete case, where a finite set of choices are available, and to the continuum case, where a continuous search space is given to the policy. A wide experimental campaign showed an improvement up to 90% both in the discrete and continuous case.
TROVO', FRANCESCO
ING - Scuola di Ingegneria Industriale e dell'Informazione
18-dic-2015
2014/2015
In questa tesi abbiamo affrontato il problema di determinare il prezzo di vendita per un prodotto od un servizio, in maniera tale da massimizzare il guadagno, in un contesto in cui la curva di domanda è sconosciuta e stocastica. Questo tipo di problemi presenta un dilemma: bisogna bilanciare tra imparare accuramente la forma della curva di domanda e decidere di massimizzare il profitto basandosi sulla conoscenza finora accumlata della curva di domanda. Per risolvere il dilemma abbiamo usato tecniche di Reinforcement Learning, in particolare tecniche sviluppate per lo scenario Multi-Armed Bandit (MAB). Una policy generica MAB è in grado di bilanciare esplorazione e sfruttamento dell'informazione basandosi sulla sequenza di giocate passate e sul guadagno accumulato fino ad ora. Le soluzioni proposte in letteratura sono sviluppate per il caso generico in cui le scelte sono indipendenti tra di loro. Nel contesto del pricing, una assunzione ragionevole è che la curva della domanda decresca all'aumentare del prezzo e quindi che esista una correlazione tre le scelte disponibili. Abbiamo ideato e sviluppato una soluzione che usasse queste informazioni per migliorare l'apprendimento, soprattutto nelle prime fasi, quando sono disponibili pochi campioni. Abbiamo applicato la nostra soluzione sia al caso discreto, dove è presente un insieme finito di scelte possibili, sia al caso continuo, dove è presente uno spazio di ricerca continuo. Una ampia campagna sperimentale mostra un miglioramento rispetto alle tecniche esistenti fino al 90% sia nel caso continuo che nel caso discreto.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2015_12_Sgarro.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Testo della tesi
Dimensione 3.62 MB
Formato Adobe PDF
3.62 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/115501