2025-11-17T07:58:12.711519

Posterior Sampling for Continuing Environments

Xu, Dong, Van Roy

We develop an extension of posterior sampling for reinforcement learning (PSRL) that is suited for a continuing agent-environment interface and integrates naturally into agent designs that scale to complex environments. The approach, continuing PSRL, maintains a statistically plausible model of the environment and follows a policy that maximizes expected $Î³$-discounted return in that model. At each time, with probability $1-Î³$, the model is replaced by a sample from the posterior distribution over environments. For a choice of discount factor that suitably depends on the horizon $T$, we establish an $\tilde{O}(ÏS \sqrt{A T})$ bound on the Bayesian regret, where $S$ is the number of environment states, $A$ is the number of actions, and $Ï$ denotes the reward averaging time, which is a bound on the duration required to accurately estimate the average reward of any policy. Our work is the first to formalize and rigorously analyze the resampling approach with randomized exploration.

academic

Campionamento Posteriore per Ambienti Continui

Informazioni Fondamentali

ID Articolo: 2211.15931
Titolo: Posterior Sampling for Continuing Environments
Autori: Wanqiao Xu (Stanford University), Shi Dong (Google DeepMind), Benjamin Van Roy (Stanford University)
Classificazione: cs.LG stat.ML
Conferenza di Pubblicazione: RLJ | RLC 2024
Link Articolo: https://arxiv.org/abs/2211.15931

Riassunto

Questo articolo propone un algoritmo di apprendimento per rinforzo con campionamento posteriore (Continuing PSRL) applicabile ad ambienti continui, che si integra naturalmente in progetti di agenti scalabili. L'algoritmo mantiene un modello dell'ambiente statisticamente valido e segue una politica che massimizza il rendimento scontato γ in tale modello. Ad ogni passo temporale, l'algoritmo ricampiona il modello dalla distribuzione posteriore dell'ambiente con probabilità 1-γ. Stabilendo un fattore di sconto appropriato dipendente dall'orizzonte temporale T, si ottiene un limite di rammarico bayesiano di Õ(τS√AT), dove S è il numero di stati dell'ambiente, A è il numero di azioni e τ rappresenta il tempo medio di ricompensa.

Contesto di Ricerca e Motivazione

Problema Centrale

Gli algoritmi di campionamento posteriore per l'apprendimento per rinforzo esistenti sono principalmente progettati per ambienti episodici, dipendendo dal mantenimento di conteggi di visite stato-azione, il che li rende inadatti ad ambienti continui complessi con spazi di stato ad alta dimensionalità.

Importanza del Problema

L'apprendimento in ambienti continui è un problema fondamentale nell'apprendimento per rinforzo, ma i metodi di esplorazione stocastica esistenti sono principalmente limitati agli ambienti episodici
Necessità di scalabilità: I metodi tradizionali dipendono dai conteggi di visite stato-azione, non praticabili in ambienti complessi
Lacuna teorica: Mancanza di analisi teorica rigorosa per ambienti continui

Limitazioni dei Metodi Esistenti

TSDE (Ouyang et al., 2017): Richiede criteri di ricampionamento complessi, incluse condizioni di raddoppio dei conteggi di visite, non praticabile in spazi di stato ampi
DS-PSRL (Theocharous et al., 2018): Sebbene eviti i conteggi di visite, l'analisi dipende da forti ipotesi tecniche; senza queste il limite di rammarico cresce linearmente
PSRL Tradizionale: Applicabile solo ad ambienti episodici, non estendibile direttamente a impostazioni continue

Motivazione della Ricerca

Proporre un algoritmo di campionamento posteriore per ambienti continui semplice, scalabile e teoricamente rigoroso, che possa:

Evitare il mantenimento di conteggi di visite stato-azione
Integrarsi naturalmente nei metodi di approssimazione funzionale esistenti
Fornire garanzie teoriche corrispondenti ai migliori metodi attuali

Contributi Principali

Primo algoritmo PSRL continuo scalabile: Propone Continuing PSRL basato su uno schema di randomizzazione semplice, evitando criteri di ricampionamento complessi
Analisi teorica rigorosa: Stabilisce un limite di rammarico bayesiano di Õ(τS√AT), corrispondente ai migliori risultati esistenti
Avanzamento nella scalabilità: L'algoritmo si estende naturalmente a spazi di stato ad alta dimensionalità e impostazioni di approssimazione funzionale
Nuova prospettiva sul fattore di sconto: Interpreta il fattore di sconto come strumento di progettazione algoritmica piuttosto che proprietà dell'ambiente, fornendo una nuova prospettiva sulla comprensione del ruolo del fattore di sconto

Spiegazione Dettagliata del Metodo

Definizione del Compito

Si consideri un processo decisionale di Markov modellato da un ambiente sconosciuto E = (A,S,ρ), dove:

A è lo spazio di azione finito, |A| = A
S è lo spazio di stato finito, |S| = S
ρ è la funzione di probabilità di transizione di stato
La funzione di ricompensa r : S × A → 0,1 è deterministica e nota

L'obiettivo è minimizzare il rammarico cumulativo: $\text{Regret}(T,π) := \sum_{t=0}^{T-1}(λ_{*,E} - R_{t+1})$

dove λ_{*,E} è la ricompensa media ottimale.

Architettura del Modello

Costruzione di Pseudo-Episodi

L'algoritmo decompone il problema di apprendimento su orizzonte temporale infinito in pseudo-episodi di lunghezza casuale:

Ad ogni passo temporale t, si campiona un indicatore binario X_t
Quando X_t = 0, inizia un nuovo pseudo-episodio e si ricampiona il modello dell'ambiente
Quando X_t = 1, continua lo pseudo-episodio corrente

Funzione di Valore Scontato

Per l'ambiente E e la politica π, la funzione di valore scontato γ è definita come: $V^γ_{π,E} := \mathbb{E}\left[\sum_{h=0}^{H-1} P^h_π r_π | E\right] = \mathbb{E}\left[\sum_{h=0}^{∞} γ^h P^h_π r_π | E\right]$

dove H è la lunghezza dello pseudo-episodio, distribuita geometricamente.

Tempo Medio di Ricompensa

Il concetto chiave è il tempo medio di ricompensa τ_{π,E}, definito come il valore minimo τ tale che: $\left|\mathbb{E}_π\left[\sum_{t=0}^{T-1} R_{t+1} | E, S_0 = s\right] - T \cdot λ_{π,E}(s)\right| \leq τ$

Flusso dell'Algoritmo

Algoritmo 1: Continuing PSRL

Input: distribuzione a priori f, fattore di sconto γ, tempo di apprendimento totale T
1. Inizializza t=1, k=1, X₁=0
2. for t ≤ T:
3.   if Xₜ = 0:
4.     tₖ ← t
5.     Campiona Eₖ ~ f(·|H_tₖ)
6.     Calcola πₖ = π^γ_Eₖ
7.     k ← k+1
8.   Campiona ed esegui Aₜ ~ πₖ(·|Sₜ)
9.   Osserva Rₜ₊₁ e Sₜ₊₁
10.  t ← t+1
11.  Campiona Xₜ₊₁ ~ Bernoulli(γ)

Punti di Innovazione Tecnica

Meccanismo di ricampionamento semplice: Utilizza solo un generatore di numeri casuali di Bernoulli, evitando condizioni di conteggio complesse
Collegamento tra fattore di sconto e probabilità di ricampionamento: Imposta γ = 1-p, dove p è la probabilità di ricampionamento
Ricampionamento indipendente dalla politica: Il criterio di ricampionamento è indipendente dalla politica, semplificando l'analisi
Fattore di sconto variabile nel tempo: Consente al fattore di sconto di crescere nel tempo, realizzando rammarico sublineare

Impostazione Sperimentale

Dataset

Ambiente RiverSwim Tabulare:
- Struttura a catena di 6 stati
- Ricompensa 0.005 nello stato sinistro, 1.0 nello stato destro
- La politica ottimale è nuotare sempre verso destra
Ambiente RiverSwim con Caratteristiche Continue:
- Struttura simile ma con osservazioni di caratteristiche in pixel
- Mappatura delle caratteristiche: φ(s_t) = 1{x ≤ s_t} ∈ 0,1^N
- Test delle prestazioni dell'algoritmo in impostazioni di approssimazione funzionale

Metriche di Valutazione

Rammarico cumulativo (Cumulative Regret)
Variazione del rammarico medio nel tempo

Metodi di Confronto

TSDE (Ouyang et al., 2017): Thompson sampling basato su conteggi di visite
DS-PSRL (Theocharous et al., 2018): Schema di ricampionamento a intervalli di tempo fissi
Agente casuale: Come baseline
DQN con ε-greedy: Confronto in ambienti con caratteristiche continue

Dettagli di Implementazione

Distribuzione a priori: Distribuzione di Dirichlet (transizioni) e distribuzione Normale-Gamma (ricompense)
Iperparametri: pseudo-conteggio n=1, α=1/S, μ=σ²=1
Negli ambienti continui si utilizza Bootstrapped DQN, γ=0.99

Risultati Sperimentali

Risultati Principali

Ambiente Tabulare:
- Continuing PSRL mostra prestazioni comparabili a TSDE, nonostante quest'ultimo ottimizzi direttamente la ricompensa media
- Significativamente superiore a DS-PSRL
- Verifica la crescita del rammarico sublineare prevista dalla teoria
Ambiente con Caratteristiche Continue:
- Bootstrapped DQN + ricampionamento casuale realizza rammarico sublineare
- Chiaramente superiore a vanilla DQN con esplorazione ε-greedy
- Dimostra la scalabilità del metodo in ambienti complessi

Scoperte Sperimentali

Efficacia del ricampionamento semplice: Nonostante il meccanismo di ricampionamento sia semplice, le prestazioni sono comparabili ai metodi complessi
Vantaggi di scalabilità: In spazi di stato ad alta dimensionalità, i metodi tradizionali basati su conteggi di visite falliscono, mentre questo metodo rimane efficace
Coerenza tra teoria e pratica: I risultati sperimentali verificano la correttezza dell'analisi teorica

Lavori Correlati

Thompson Sampling e Campionamento Posteriore

Thompson Sampling Classico: Inizialmente utilizzato per problemi di multi-armed bandit
Estensioni PSRL: Osband et al. lo hanno esteso all'apprendimento per rinforzo, principalmente per ambienti episodici
Bootstrapped DQN: Utilizza metodi di ensemble per approssimare la distribuzione posteriore

Esplorazione in Ambienti Continui

TSDE: Primo metodo di Thompson sampling per ambienti continui, ma dipende da criteri di ricampionamento complessi
DS-PSRL: Semplifica il ricampionamento ma richiede forti ipotesi tecniche
Questo lavoro: Primo a fornire un metodo di ricampionamento casuale semplice e rigoroso

Analisi Teorica

I lavori esistenti considerano principalmente il rammarico scontato γ, questo articolo si concentra sul rammarico non scontato
L'uso del tempo medio di ricompensa τ sostituisce il concetto tradizionale di span
L'ipotesi di MDP debolmente connesso è l'impostazione più generale per limiti di rammarico a tempo finito

Conclusioni e Discussione

Conclusioni Principali

Contributo teorico: Stabilisce un limite di rammarico di Õ(τS√AT), corrispondente ai migliori risultati attuali
Semplicità algoritmica: Richiede solo un generatore di numeri casuali di Bernoulli per realizzare un'esplorazione efficace
Valore pratico: L'algoritmo può essere direttamente integrato nei metodi di apprendimento per rinforzo profondo esistenti
Nuova prospettiva sul fattore di sconto: Interpreta il fattore di sconto come strumento di progettazione algoritmica piuttosto che proprietà dell'ambiente

Limitazioni

Ipotesi teoriche: Richiede ipotesi di MDP debolmente connesso e tempo medio di ricompensa limitato
Dipendenza dal priore: Le prestazioni dipendono dall'impostazione di una distribuzione a priori ragionevole
Sintonizzazione dei parametri: La scelta del fattore di sconto γ richiede conoscenza dell'orizzonte temporale T
Portata sperimentale: Gli esperimenti sono principalmente condotti in ambienti relativamente semplici

Direzioni Future

Impostazioni senza conoscenza a priori: Ricerca di metodi adattivi che non richiedono conoscenza a priori di T
Ambienti più complessi: Verifica del metodo in ambienti su larga scala e più complessi
Miglioramenti teorici: Rilassamento di ipotesi come la connettività debole
Applicazioni pratiche: Test delle prestazioni dell'algoritmo in scenari di applicazione reale

Valutazione Approfondita

Punti di Forza

Rigore teorico: Fornisce analisi teorica completa e prove, colmando il vuoto teorico di PSRL per ambienti continui
Semplicità algoritmica: Rispetto ai metodi esistenti, il meccanismo di ricampionamento è estremamente semplice, facile da implementare e comprendere
Scalabilità: Supporta naturalmente l'approssimazione funzionale e spazi di stato ad alta dimensionalità, con forte valore pratico
Prospettiva innovativa: Reinterpreta il fattore di sconto come strumento di progettazione algoritmica, fornendo nuove intuizioni teoriche

Insufficienze

Profondità sperimentale insufficiente: Gli esperimenti sono principalmente condotti in ambienti semplici, mancano verifiche in ambienti complessi su larga scala
Sensibilità ai parametri: La scelta del fattore di sconto γ dipende dai parametri del problema, potrebbe richiedere sintonizzazione attenta nelle applicazioni pratiche
Confronti incompleti: Mancano confronti con alcuni metodi di esplorazione correlati (come metodi di tipo UCB)
Mancanza di casi di applicazione reale: Principalmente teoria e simulazioni semplici, mancano verifiche in scenari di applicazione reale

Impatto

Contributo teorico: Fornisce un nuovo quadro teorico per il problema dell'esplorazione in ambienti continui
Valore pratico: La semplicità dell'algoritmo lo rende facile da adottare ed estendere
Significato ispiratore: La nuova interpretazione del fattore di sconto potrebbe influenzare la progettazione futura degli algoritmi
Riproducibilità: La descrizione dell'algoritmo è chiara, l'analisi teorica è completa, con buona riproducibilità

Scenari Applicabili

Apprendimento per rinforzo continuo: Ambienti che richiedono interazione a lungo termine senza struttura di episodi naturali
Spazi di stato ad alta dimensionalità: Ambienti complessi dove i metodi tradizionali basati su conteggi non sono applicabili
Apprendimento online: Scenari che richiedono apprendimento e adattamento continui durante l'interazione
Apprendimento per rinforzo profondo: Può essere integrato nei framework di deep RL esistenti

Bibliografia

L'articolo cita importanti lavori nel campo dell'apprendimento per rinforzo, inclusi:

Lavori classici di Thompson sampling (Thompson, 1933)
Lavori fondamentali di PSRL (Osband et al., 2013)
Ricerche correlate su ambienti continui (Ouyang et al., 2017; Theocharous et al., 2018)
Importanti progressi nell'apprendimento per rinforzo profondo (Mnih et al., 2015)

Valutazione Complessiva: Questo è un articolo di alta qualità nel campo dell'apprendimento per rinforzo teorico, che fornisce contributi importanti ai metodi di campionamento posteriore per ambienti continui. La progettazione dell'algoritmo è semplice ed elegante, l'analisi teorica è rigorosa e completa, fornendo nuove prospettive e strumenti a questo campo. Sebbene ci sia spazio per miglioramenti nella verifica sperimentale, il suo valore teorico e il potenziale pratico sono entrambi notevoli.