Towards Blackwell Optimality: Bellman Optimality Is All You Can Get
Boone, Tuynman
Although average gain optimality is a commonly adopted performance measure in Markov Decision Processes (MDPs), it is often too asymptotic. Further incorporating measures of immediate losses leads to the hierarchy of bias optimalities, all the way up to Blackwell optimality. In this paper, we investigate the problem of identifying policies of such optimality orders. To that end, for each order, we construct a learning algorithm with vanishing probability of error. Furthermore, we characterize the class of MDPs for which identification algorithms can stop in finite time. That class corresponds to the MDPs with a unique Bellman optimal policy, and does not depend on the optimality order considered. Lastly, we provide a tractable stopping rule that when coupled to our learning algorithm triggers in finite time whenever it is possible to do so.
academic
Verso l'Ottimalità di Blackwell: L'Ottimalità di Bellman È Tutto Ciò Che Puoi Ottenere
Sebbene l'ottimalità del guadagno medio sia una misura di prestazione comunemente utilizzata nei processi decisionali markoviani (MDP), essa tende ad essere eccessivamente asintotica. L'incorporazione ulteriore di misure delle perdite istantanee ha portato a una gerarchia di ottimalità distorta, fino all'ottimalità di Blackwell. Questo articolo studia il problema dell'identificazione di politiche di ordine ottimale di questo tipo. A tal fine, per ogni ordine, costruiamo un algoritmo di apprendimento con probabilità di errore evanescente. Inoltre, caratterizziamo la classe di MDP per cui l'algoritmo di identificazione può fermarsi in tempo finito. Questa classe corrisponde agli MDP con una politica ottimale di Bellman unica e non dipende dall'ordine di ottimalità considerato. Infine, forniamo una regola di arresto trattabile che, quando accoppiata al nostro algoritmo di apprendimento, si attiva in tempo finito ogni volta che è possibile.
Il problema centrale affrontato in questo articolo è la questione dell'identificabilità dell'apprendimento di politiche ottimali di ordine superiore nei processi decisionali markoviani. Nello specifico:
Limitazioni dell'ottimalità tradizionale del guadagno medio: Negli MDP, l'ottimalità tradizionale del guadagno medio si concentra solo sulle prestazioni asintotiche a lungo termine, trascurando l'importanza dei premi istantanei a breve termine.
Gerarchia di ottimalità di ordine superiore: Dall'ottimalità del guadagno all'ottimalità distorta, fino all'ottimalità di Blackwell, si forma una gerarchia completa di ottimalità, dove ogni livello considera differenze di prestazione più raffinate.
Difficoltà di apprendimento: L'articolo dimostra attraverso un esempio semplice ma profondo (Figura 1) che anche nel caso più semplice, l'apprendimento di politiche ottimali di ordine superiore affronta difficoltà fondamentali.
La motivazione centrale dell'articolo deriva da un'osservazione importante: anche negli MDP semplici con un singolo parametro sconosciuto, l'apprendimento di politiche ottimali di ordine superiore potrebbe essere impossibile. Questo fenomeno apparentemente contraddittorio rivela le difficoltà intrinseche dell'apprendimento di ottimalità di ordine superiore.
Fallimento dei metodi di apprendimento standard: La selezione empirica della politica ottimale non è più applicabile sotto l'ottimalità di ordine superiore
Limitazioni dei test statistici: Impossibilità di determinare il valore esatto di un parametro attraverso test statistici (ad esempio, θ=0)
Problemi di discontinuità: La discontinuità dell'insieme di politiche ottimali nello spazio dei parametri causa difficoltà di apprendimento
Costruzione dell'algoritmo coerente HOPE: Per ogni ordine di ottimalità n≥-1, proponiamo l'algoritmo Higher Order Policy iteration Epsilonized (HOPE), che presenta probabilità di errore evanescente.
Caratterizzazione completa della classe di MDP non degeneri: Dimostriamo che un MDP è non degenerato (ovvero l'algoritmo di identificazione può fermarsi in tempo finito) se e solo se possiede una politica ottimale di Bellman unica.
Teorema del collasso della degenerazione: Dimostriamo che la classe di MDP non degeneri per tutti gli ordini di ottimalità (dall'ottimalità del guadagno all'ottimalità di Blackwell) è esattamente la stessa, un risultato sorprendente.
Fornitura di una regola di arresto calcolabile: Presentiamo una regola di arresto trattabile che consente all'algoritmo HOPE di fermarsi in tempo finito quando possibile.
Input: MDP comunicativo sconosciuto M = (Z, ν, p), dove Z è lo spazio delle coppie stato-azione, ν è la funzione di premio, p è il nucleo di transizione
Output: Politica ottimale di ordine n π ∈ Π*_n(M)
Obiettivo: Costruire un algoritmo di identificazione tale che la probabilità di errore della politica consigliata tenda a 0
Input: Ordine di ottimalità desiderato n ≥ -1
Inizializzazione: t ← 0
Ciclo:
1. Costruisci MDP empirico M̂_t
2. Imposta ε ← t^(-1/4)
3. Calcola ∏_s A_n(s) ← HOPI_{n,ε}(M̂_t)
4. Consiglia qualsiasi politica in ∏_s A_n(s)
5. Campiona uniformemente azioni, osserva premi e stato successivo
6. t ← t + 1
L'iterazione di politica tradizionale richiede il soddisfacimento esatto dell'equazione di Bellman, ma questo è impossibile in un ambiente di apprendimento. HOPI introduce un parametro di rilassamento ε, consentendo all'algoritmo di funzionare correttamente in ambienti rumorosi.
Proposizione 5: Per qualsiasi politica ottimale di Bellman a catena singola π e precisione ε > 0, esiste M' ∈ M tale che d_∞(M,M') < ε e π è l'unica politica ottimale di guadagno di M'.
Questa tecnica si realizza in due passaggi:
Innanzitutto, attraverso la penalizzazione di azioni non ottimali, π diventa l'unica politica ottimale di Bellman
Successivamente, attraverso trasformazione ergodica, π diventa l'unica politica ottimale di guadagno
Se M è non degenerato, allora esiste una politica π ∈ Π*(M) che rimane ottimale nel vicinato di M. La prova utilizza la continuità della decisione dell'algoritmo.
Attraverso la costruzione di regole di arresto esplicite e intervalli di confidenza, dimostriamo che gli MDP con una politica ottimale di Bellman unica sono effettivamente non degeneri.
L'articolo è principalmente un lavoro teorico, verificando tutti i risultati principali attraverso prove matematiche rigorose. Le verifiche chiave includono:
Correttezza dell'algoritmo: Prova che HOPI in caso senza rumore restituisce il corretto insieme di politiche ottimali
Garanzie di coerenza: Prova che la probabilità di errore dell'algoritmo HOPE effettivamente tende a 0
Validità della regola di arresto: Prova che la regola di arresto proposta effettivamente si attiva in tempo finito
Complessità temporale: La complessità temporale per determinare l'unicità della politica ottimale di Bellman è O(|Z| + |S|^4)
Complessità campionaria: Sebbene l'articolo non fornisca limiti precisi sulla complessità campionaria, dimostra che nel caso non degenerato l'algoritmo deve convergere
Correlato al problema di identificazione del braccio ottimale nei giochi con slot machine multi-braccio, ma la dipendenza dello stato nell'impostazione MDP rende il problema più complesso.
Lavori recenti nell'impostazione (ε,δ)-PAC per l'identificazione di politiche ottimali di guadagno, ma questi lavori si concentrano principalmente sull'ottimalità approssimativa piuttosto che sull'ottimalità esatta.
Grand-Clément e Petrik (2023) e altri hanno studiato la complessità computazionale delle politiche ottimali di Blackwell basate sulla definizione storica del fattore di sconto.
Boone e Gaujal (2023) hanno studiato l'apprendibilità delle politiche ottimali di Blackwell negli MDP con transizioni deterministiche, mentre questo articolo generalizza ai casi stocastici.
L'ottimalità di Bellman è un limite fondamentale: L'apprendibilità di tutte le ottimalità di ordine superiore si riduce all'unicità dell'ottimalità di Bellman
Universalità della degenerazione: La classe di MDP degeneri per diversi ordini di ottimalità è esattamente la stessa
Esistenza dell'algoritmo: Nonostante le difficoltà, algoritmi coerenti effettivamente esistono
Assenza dell'impostazione PAC: L'articolo si concentra principalmente sull'ottimalità esatta, non affrontando l'apprendimento dell'ottimalità approssimativa
Limiti della complessità campionaria: Nessuna analisi precisa della complessità campionaria fornita
Applicazione pratica: I risultati teorici potrebbero limitare l'applicazione in problemi pratici
L'articolo cita letteratura importante nei campi dell'apprendimento per rinforzo e dei processi decisionali markoviani, inclusi:
Puterman (1994): Manuale classico sui processi decisionali markoviani
Blackwell (1962): Definizione originale dell'ottimalità di Blackwell
Kaufmann et al. (2016): Teoria della complessità dell'identificazione del braccio ottimale
Boone and Gaujal (2023): Apprendibilità dell'ottimalità di Blackwell negli MDP deterministici
Questo articolo rivela attraverso un'analisi teorica rigorosa un fenomeno fondamentale e profondo nell'apprendimento per rinforzo: la difficoltà di apprendimento dell'ottimalità di ordine superiore è completamente determinata dalla struttura dell'ottimalità di Bellman. Questo risultato non solo ha un significato teorico importante, ma fornisce anche una guida importante per la progettazione di algoritmi pratici.