2025-11-17T07:58:12.711519

Posterior Sampling for Continuing Environments

Xu, Dong, Van Roy

We develop an extension of posterior sampling for reinforcement learning (PSRL) that is suited for a continuing agent-environment interface and integrates naturally into agent designs that scale to complex environments. The approach, continuing PSRL, maintains a statistically plausible model of the environment and follows a policy that maximizes expected $Î³$-discounted return in that model. At each time, with probability $1-Î³$, the model is replaced by a sample from the posterior distribution over environments. For a choice of discount factor that suitably depends on the horizon $T$, we establish an $\tilde{O}(ÏS \sqrt{A T})$ bound on the Bayesian regret, where $S$ is the number of environment states, $A$ is the number of actions, and $Ï$ denotes the reward averaging time, which is a bound on the duration required to accurately estimate the average reward of any policy. Our work is the first to formalize and rigorously analyze the resampling approach with randomized exploration.

academic

Muestreo Posterior para Entornos Continuos

Información Básica

ID del Artículo: 2211.15931
Título: Posterior Sampling for Continuing Environments
Autores: Wanqiao Xu (Stanford University), Shi Dong (Google DeepMind), Benjamin Van Roy (Stanford University)
Clasificación: cs.LG stat.ML
Conferencia de Publicación: RLJ | RLC 2024
Enlace del Artículo: https://arxiv.org/abs/2211.15931

Resumen

Este artículo propone un algoritmo de aprendizaje por refuerzo de muestreo posterior (Continuing PSRL) aplicable a entornos continuos, que se integra naturalmente en diseños de agentes escalables. El algoritmo mantiene un modelo de entorno estadísticamente válido y sigue una política que maximiza la recompensa descontada por γ en ese modelo. En cada paso de tiempo, el algoritmo remuestrea el modelo de la distribución posterior del entorno con probabilidad 1-γ. Al seleccionar apropiadamente el factor de descuento dependiente del horizonte temporal T, se establece un límite de arrepentimiento bayesiano de Õ(τS√AT), donde S es el número de estados del entorno, A es el número de acciones y τ representa el tiempo promedio de recompensa.

Contexto de Investigación y Motivación

Problema Central

Los algoritmos existentes de muestreo posterior para aprendizaje por refuerzo están diseñados principalmente para entornos episódicos, dependiendo del mantenimiento de conteos de visitas estado-acción, lo que los hace inadecuados para entornos continuos complejos con espacios de estado de alta dimensión.

Importancia del Problema

Aprendizaje en entornos continuos es un problema fundamental en aprendizaje por refuerzo, pero los métodos existentes de exploración estocástica se limitan principalmente a entornos episódicos
Requisitos de escalabilidad: Los métodos tradicionales dependen de conteos de visitas estado-acción, lo que es inviable en entornos complejos
Vacío teórico: Falta análisis teórico riguroso para entornos continuos

Limitaciones de Métodos Existentes

TSDE (Ouyang et al., 2017): Requiere criterios de remuestreo complejos, incluyendo condiciones de duplicación de conteos, inviable en espacios de estado grandes
DS-PSRL (Theocharous et al., 2018): Aunque evita conteos de visitas, el análisis depende de suposiciones técnicas fuertes; sin ellas, el límite de arrepentimiento crece linealmente
PSRL Tradicional: Solo aplicable a entornos episódicos, no se extiende directamente a configuraciones continuas

Motivación de la Investigación

Proponer un algoritmo de muestreo posterior para entornos continuos que sea simple, escalable y teóricamente riguroso, capaz de:

Evitar mantener conteos de visitas estado-acción
Integrarse naturalmente en métodos de aproximación de funciones existentes
Proporcionar garantías teóricas que coincidan con los mejores métodos existentes

Contribuciones Principales

Primer algoritmo PSRL continuo escalable: Se propone Continuing PSRL basado en un esquema de aleatorización simple que evita criterios de remuestreo complejos
Análisis teórico riguroso: Se establece un límite de arrepentimiento bayesiano de Õ(τS√AT) que coincide con los mejores resultados existentes
Avance en escalabilidad: El algoritmo se extiende naturalmente a espacios de estado de alta dimensión y configuraciones de aproximación de funciones
Nueva perspectiva del factor de descuento: El factor de descuento se considera una herramienta de diseño de algoritmos en lugar de una propiedad del entorno, proporcionando una nueva perspectiva sobre el papel del factor de descuento

Explicación Detallada del Método

Definición de la Tarea

Se considera un proceso de decisión de Markov modelado por un entorno desconocido E = (A,S,ρ), donde:

A es el espacio de acciones finito, |A| = A
S es el espacio de estados finito, |S| = S
ρ es la función de probabilidad de transición de estado
La función de recompensa r : S × A → 0,1 es determinista y conocida

El objetivo es minimizar el arrepentimiento acumulado: $\text{Regret}(T,π) := \sum_{t=0}^{T-1}(λ_{*,E} - R_{t+1})$

donde λ_{*,E} es la recompensa promedio óptima.

Arquitectura del Modelo

Construcción de Pseudoepisodios

El algoritmo descompone el problema de aprendizaje en horizonte temporal infinito en pseudoepisodios de longitud aleatoria:

En cada paso de tiempo t, se muestrea un indicador binario X_t
Cuando X_t = 0, comienza un nuevo pseudoepisodio y se remuestrea el modelo del entorno
Cuando X_t = 1, continúa el pseudoepisodio actual

Función de Valor Descontado

Para un entorno E y política π, la función de valor descontado por γ se define como: $V^γ_{π,E} := \mathbb{E}\left[\sum_{h=0}^{H-1} P^h_π r_π | E\right] = \mathbb{E}\left[\sum_{h=0}^{∞} γ^h P^h_π r_π | E\right]$

donde H es la longitud del pseudoepisodio, que sigue una distribución geométrica.

Tiempo Promedio de Recompensa

El concepto clave es el tiempo promedio de recompensa τ_{π,E}, definido como el valor mínimo τ tal que: $\left|\mathbb{E}_π\left[\sum_{t=0}^{T-1} R_{t+1} | E, S_0 = s\right] - T \cdot λ_{π,E}(s)\right| \leq τ$

Flujo del Algoritmo

Algoritmo 1: Continuing PSRL

Entrada: Distribución previa f, factor de descuento γ, tiempo de aprendizaje total T
1. Inicializar t=1, k=1, X₁=0
2. para t ≤ T:
3.   si Xₜ = 0:
4.     tₖ ← t
5.     Muestrear Eₖ ~ f(·|H_tₖ)
6.     Calcular πₖ = π^γ_Eₖ
7.     k ← k+1
8.   Muestrear y ejecutar Aₜ ~ πₖ(·|Sₜ)
9.   Observar Rₜ₊₁ y Sₜ₊₁
10.  t ← t+1
11.  Muestrear Xₜ₊₁ ~ Bernoulli(γ)

Puntos de Innovación Técnica

Mecanismo de remuestreo simple: Utiliza solo un generador de números aleatorios de Bernoulli, evitando condiciones de conteo complejas
Conexión entre factor de descuento y probabilidad de remuestreo: Se establece γ = 1-p, donde p es la probabilidad de remuestreo
Remuestreo independiente de la política: El criterio de remuestreo es independiente de la política, simplificando el análisis
Factor de descuento variable en el tiempo: Permite que el factor de descuento crezca con el tiempo, logrando arrepentimiento sublineal

Configuración Experimental

Conjuntos de Datos

Entorno RiverSwim tabular:
- Estructura de cadena con 6 estados
- Recompensa 0.005 en estado del extremo izquierdo, 1.0 en extremo derecho
- La política óptima es nadar siempre hacia la derecha
Entorno RiverSwim con características continuas:
- Estructura similar pero con observaciones de características de píxeles
- Mapeo de características: φ(s_t) = 1{x ≤ s_t} ∈ 0,1^N
- Prueba del rendimiento del algoritmo bajo aproximación de funciones

Métricas de Evaluación

Arrepentimiento acumulado (Cumulative Regret)
Cambio del arrepentimiento promedio a lo largo del tiempo

Métodos de Comparación

TSDE (Ouyang et al., 2017): Thompson sampling basado en conteos de visitas
DS-PSRL (Theocharous et al., 2018): Esquema de remuestreo con intervalos de tiempo fijos
Agente aleatorio: Como línea base
DQN con ε-greedy: Comparación en entorno de características continuas

Detalles de Implementación

Distribución previa: Distribución de Dirichlet (transiciones) y distribución Normal-Gamma (recompensas)
Hiperparámetros: pseudoconteo n=1, α=1/S, μ=σ²=1
En entorno continuo se utiliza Bootstrapped DQN, γ=0.99

Resultados Experimentales

Resultados Principales

Entorno tabular:
- Continuing PSRL muestra rendimiento comparable a TSDE, aunque este último optimiza directamente la recompensa promedio
- Significativamente superior a DS-PSRL
- Verifica el crecimiento de arrepentimiento sublineal predicho por la teoría
Entorno de características continuas:
- Bootstrapped DQN + remuestreo aleatorio logra arrepentimiento sublineal
- Claramente superior a vanilla DQN con exploración ε-greedy
- Demuestra la escalabilidad del método en entornos complejos

Hallazgos Experimentales

Efectividad del remuestreo simple: A pesar del mecanismo de remuestreo simple, el rendimiento es comparable al de métodos complejos
Ventaja de escalabilidad: En espacios de estado de alta dimensión, los métodos tradicionales que dependen de conteos de visitas fallan, mientras que este método sigue siendo efectivo
Consistencia entre teoría y práctica: Los resultados experimentales verifican la corrección del análisis teórico

Trabajo Relacionado

Thompson Sampling y Muestreo Posterior

Thompson Sampling Clásico: Inicialmente utilizado para problemas de bandidos multiarmados
Extensiones PSRL: Osband et al. lo extendieron al aprendizaje por refuerzo, pero principalmente para entornos episódicos
Bootstrapped DQN: Utiliza métodos de conjunto para aproximar la distribución posterior

Exploración en Entornos Continuos

TSDE: Primer método de Thompson sampling para entornos continuos, pero depende de criterios de remuestreo complejos
DS-PSRL: Simplifica el remuestreo pero requiere suposiciones técnicas fuertes
Este trabajo: Proporciona por primera vez un método de remuestreo aleatorio simple y riguroso

Análisis Teórico

Los trabajos existentes consideran principalmente arrepentimiento descontado por γ; este artículo se enfoca en arrepentimiento sin descuento
El uso del tiempo promedio de recompensa τ reemplaza el concepto tradicional de span
La suposición de MDP débilmente conectado es la configuración más general para límites de arrepentimiento en tiempo finito

Conclusiones y Discusión

Conclusiones Principales

Contribución teórica: Se establece un límite de arrepentimiento de Õ(τS√AT) que coincide con los mejores resultados existentes
Simplicidad del algoritmo: Solo requiere un generador de números aleatorios de Bernoulli para lograr exploración efectiva
Valor práctico: El algoritmo puede integrarse directamente en métodos de aprendizaje por refuerzo profundo existentes
Nueva perspectiva del factor de descuento: El factor de descuento se considera una herramienta de diseño de algoritmos en lugar de una propiedad del entorno

Limitaciones

Suposiciones teóricas: Requiere suposiciones de MDP débilmente conectado y tiempo promedio de recompensa acotado
Dependencia de la distribución previa: El rendimiento depende de la configuración de una distribución previa razonable
Ajuste de parámetros: La selección del factor de descuento γ requiere conocimiento del horizonte temporal T
Alcance experimental: Los experimentos se realizan principalmente en entornos relativamente simples

Direcciones Futuras

Configuración sin conocimiento previo: Investigar métodos adaptativos que no requieran conocimiento previo de T
Entornos más complejos: Verificar el método en entornos de mayor escala y complejidad
Mejoras teóricas: Relajar condiciones de suposición como la conectividad débil
Aplicaciones prácticas: Probar el rendimiento del algoritmo en escenarios de aplicación real

Evaluación Profunda

Fortalezas

Rigor teórico: Proporciona análisis teórico completo y pruebas rigurosas, llenando el vacío teórico de PSRL para entornos continuos
Simplicidad del algoritmo: Comparado con métodos existentes, el mecanismo de remuestreo es extremadamente simple, fácil de implementar y comprender
Escalabilidad: Soporta naturalmente aproximación de funciones y espacios de estado de alta dimensión, con fuerte valor práctico
Perspectiva innovadora: Reinterpreta el factor de descuento como herramienta de diseño de algoritmos, proporcionando nuevas perspectivas teóricas

Deficiencias

Profundidad experimental insuficiente: Los experimentos se realizan principalmente en entornos simples, careciendo de verificación en entornos complejos a gran escala
Sensibilidad de parámetros: La selección del factor de descuento γ depende de parámetros del problema, pudiendo requerir ajuste cuidadoso en aplicaciones prácticas
Comparación incompleta: Falta comparación con algunos métodos de exploración relacionados (como métodos basados en UCB)
Falta de casos de aplicación real: Principalmente teoría y simulación simple, careciendo de verificación en escenarios de aplicación real

Impacto

Contribución teórica: Proporciona un nuevo marco teórico para el problema de exploración en entornos continuos
Valor práctico: La simplicidad del algoritmo facilita su adopción y extensión
Significado inspirador: La nueva interpretación del factor de descuento puede influir en el diseño de algoritmos futuros
Reproducibilidad: La descripción del algoritmo es clara y el análisis teórico es completo, con buena reproducibilidad

Escenarios Aplicables

Aprendizaje por refuerzo continuo: Entornos que requieren interacción a largo plazo sin estructura episódica natural
Espacios de estado de alta dimensión: Entornos complejos donde métodos tradicionales basados en conteos son inaplicables
Aprendizaje en línea: Escenarios que requieren aprendizaje y adaptación continua durante la interacción
Aprendizaje por refuerzo profundo: Puede integrarse en marcos de RL profundo existentes

Referencias

El artículo cita trabajos importantes en el campo del aprendizaje por refuerzo, incluyendo:

Trabajos clásicos de Thompson sampling (Thompson, 1933)
Trabajos fundacionales de PSRL (Osband et al., 2013)
Investigaciones relacionadas en entornos continuos (Ouyang et al., 2017; Theocharous et al., 2018)
Avances importantes en aprendizaje por refuerzo profundo (Mnih et al., 2015)

Evaluación General: Este es un artículo de alta calidad en aprendizaje por refuerzo teórico que realiza contribuciones importantes en métodos de muestreo posterior para entornos continuos. El diseño del algoritmo es simple y elegante, el análisis teórico es riguroso y completo, proporcionando nuevas perspectivas y herramientas para el campo. Aunque hay espacio para mejora en la verificación experimental, su valor teórico y potencial práctico son destacados.