2025-11-17T07:58:12.711519

Posterior Sampling for Continuing Environments

Xu, Dong, Van Roy
We develop an extension of posterior sampling for reinforcement learning (PSRL) that is suited for a continuing agent-environment interface and integrates naturally into agent designs that scale to complex environments. The approach, continuing PSRL, maintains a statistically plausible model of the environment and follows a policy that maximizes expected $γ$-discounted return in that model. At each time, with probability $1-γ$, the model is replaced by a sample from the posterior distribution over environments. For a choice of discount factor that suitably depends on the horizon $T$, we establish an $\tilde{O}(τS \sqrt{A T})$ bound on the Bayesian regret, where $S$ is the number of environment states, $A$ is the number of actions, and $τ$ denotes the reward averaging time, which is a bound on the duration required to accurately estimate the average reward of any policy. Our work is the first to formalize and rigorously analyze the resampling approach with randomized exploration.
academic

Muestreo Posterior para Entornos Continuos

Información Básica

  • ID del Artículo: 2211.15931
  • Título: Posterior Sampling for Continuing Environments
  • Autores: Wanqiao Xu (Stanford University), Shi Dong (Google DeepMind), Benjamin Van Roy (Stanford University)
  • Clasificación: cs.LG stat.ML
  • Conferencia de Publicación: RLJ | RLC 2024
  • Enlace del Artículo: https://arxiv.org/abs/2211.15931

Resumen

Este artículo propone un algoritmo de aprendizaje por refuerzo de muestreo posterior (Continuing PSRL) aplicable a entornos continuos, que se integra naturalmente en diseños de agentes escalables. El algoritmo mantiene un modelo de entorno estadísticamente válido y sigue una política que maximiza la recompensa descontada por γ en ese modelo. En cada paso de tiempo, el algoritmo remuestrea el modelo de la distribución posterior del entorno con probabilidad 1-γ. Al seleccionar apropiadamente el factor de descuento dependiente del horizonte temporal T, se establece un límite de arrepentimiento bayesiano de Õ(τS√AT), donde S es el número de estados del entorno, A es el número de acciones y τ representa el tiempo promedio de recompensa.

Contexto de Investigación y Motivación

Problema Central

Los algoritmos existentes de muestreo posterior para aprendizaje por refuerzo están diseñados principalmente para entornos episódicos, dependiendo del mantenimiento de conteos de visitas estado-acción, lo que los hace inadecuados para entornos continuos complejos con espacios de estado de alta dimensión.

Importancia del Problema

  1. Aprendizaje en entornos continuos es un problema fundamental en aprendizaje por refuerzo, pero los métodos existentes de exploración estocástica se limitan principalmente a entornos episódicos
  2. Requisitos de escalabilidad: Los métodos tradicionales dependen de conteos de visitas estado-acción, lo que es inviable en entornos complejos
  3. Vacío teórico: Falta análisis teórico riguroso para entornos continuos

Limitaciones de Métodos Existentes

  1. TSDE (Ouyang et al., 2017): Requiere criterios de remuestreo complejos, incluyendo condiciones de duplicación de conteos, inviable en espacios de estado grandes
  2. DS-PSRL (Theocharous et al., 2018): Aunque evita conteos de visitas, el análisis depende de suposiciones técnicas fuertes; sin ellas, el límite de arrepentimiento crece linealmente
  3. PSRL Tradicional: Solo aplicable a entornos episódicos, no se extiende directamente a configuraciones continuas

Motivación de la Investigación

Proponer un algoritmo de muestreo posterior para entornos continuos que sea simple, escalable y teóricamente riguroso, capaz de:

  • Evitar mantener conteos de visitas estado-acción
  • Integrarse naturalmente en métodos de aproximación de funciones existentes
  • Proporcionar garantías teóricas que coincidan con los mejores métodos existentes

Contribuciones Principales

  1. Primer algoritmo PSRL continuo escalable: Se propone Continuing PSRL basado en un esquema de aleatorización simple que evita criterios de remuestreo complejos
  2. Análisis teórico riguroso: Se establece un límite de arrepentimiento bayesiano de Õ(τS√AT) que coincide con los mejores resultados existentes
  3. Avance en escalabilidad: El algoritmo se extiende naturalmente a espacios de estado de alta dimensión y configuraciones de aproximación de funciones
  4. Nueva perspectiva del factor de descuento: El factor de descuento se considera una herramienta de diseño de algoritmos en lugar de una propiedad del entorno, proporcionando una nueva perspectiva sobre el papel del factor de descuento

Explicación Detallada del Método

Definición de la Tarea

Se considera un proceso de decisión de Markov modelado por un entorno desconocido E = (A,S,ρ), donde:

  • A es el espacio de acciones finito, |A| = A
  • S es el espacio de estados finito, |S| = S
  • ρ es la función de probabilidad de transición de estado
  • La función de recompensa r : S × A → 0,1 es determinista y conocida

El objetivo es minimizar el arrepentimiento acumulado: Regret(T,π):=t=0T1(λ,ERt+1)\text{Regret}(T,π) := \sum_{t=0}^{T-1}(λ_{*,E} - R_{t+1})

donde λ_{*,E} es la recompensa promedio óptima.

Arquitectura del Modelo

Construcción de Pseudoepisodios

El algoritmo descompone el problema de aprendizaje en horizonte temporal infinito en pseudoepisodios de longitud aleatoria:

  • En cada paso de tiempo t, se muestrea un indicador binario X_t
  • Cuando X_t = 0, comienza un nuevo pseudoepisodio y se remuestrea el modelo del entorno
  • Cuando X_t = 1, continúa el pseudoepisodio actual

Función de Valor Descontado

Para un entorno E y política π, la función de valor descontado por γ se define como: Vπ,Eγ:=E[h=0H1PπhrπE]=E[h=0γhPπhrπE]V^γ_{π,E} := \mathbb{E}\left[\sum_{h=0}^{H-1} P^h_π r_π | E\right] = \mathbb{E}\left[\sum_{h=0}^{∞} γ^h P^h_π r_π | E\right]

donde H es la longitud del pseudoepisodio, que sigue una distribución geométrica.

Tiempo Promedio de Recompensa

El concepto clave es el tiempo promedio de recompensa τ_{π,E}, definido como el valor mínimo τ tal que: Eπ[t=0T1Rt+1E,S0=s]Tλπ,E(s)τ\left|\mathbb{E}_π\left[\sum_{t=0}^{T-1} R_{t+1} | E, S_0 = s\right] - T \cdot λ_{π,E}(s)\right| \leq τ

Flujo del Algoritmo

Algoritmo 1: Continuing PSRL

Entrada: Distribución previa f, factor de descuento γ, tiempo de aprendizaje total T
1. Inicializar t=1, k=1, X₁=0
2. para t ≤ T:
3.   si Xₜ = 0:
4.     tₖ ← t
5.     Muestrear Eₖ ~ f(·|H_tₖ)
6.     Calcular πₖ = π^γ_Eₖ
7.     k ← k+1
8.   Muestrear y ejecutar Aₜ ~ πₖ(·|Sₜ)
9.   Observar Rₜ₊₁ y Sₜ₊₁
10.  t ← t+1
11.  Muestrear Xₜ₊₁ ~ Bernoulli(γ)

Puntos de Innovación Técnica

  1. Mecanismo de remuestreo simple: Utiliza solo un generador de números aleatorios de Bernoulli, evitando condiciones de conteo complejas
  2. Conexión entre factor de descuento y probabilidad de remuestreo: Se establece γ = 1-p, donde p es la probabilidad de remuestreo
  3. Remuestreo independiente de la política: El criterio de remuestreo es independiente de la política, simplificando el análisis
  4. Factor de descuento variable en el tiempo: Permite que el factor de descuento crezca con el tiempo, logrando arrepentimiento sublineal

Configuración Experimental

Conjuntos de Datos

  1. Entorno RiverSwim tabular:
    • Estructura de cadena con 6 estados
    • Recompensa 0.005 en estado del extremo izquierdo, 1.0 en extremo derecho
    • La política óptima es nadar siempre hacia la derecha
  2. Entorno RiverSwim con características continuas:
    • Estructura similar pero con observaciones de características de píxeles
    • Mapeo de características: φ(s_t) = 1{x ≤ s_t} ∈ 0,1^N
    • Prueba del rendimiento del algoritmo bajo aproximación de funciones

Métricas de Evaluación

  • Arrepentimiento acumulado (Cumulative Regret)
  • Cambio del arrepentimiento promedio a lo largo del tiempo

Métodos de Comparación

  1. TSDE (Ouyang et al., 2017): Thompson sampling basado en conteos de visitas
  2. DS-PSRL (Theocharous et al., 2018): Esquema de remuestreo con intervalos de tiempo fijos
  3. Agente aleatorio: Como línea base
  4. DQN con ε-greedy: Comparación en entorno de características continuas

Detalles de Implementación

  • Distribución previa: Distribución de Dirichlet (transiciones) y distribución Normal-Gamma (recompensas)
  • Hiperparámetros: pseudoconteo n=1, α=1/S, μ=σ²=1
  • En entorno continuo se utiliza Bootstrapped DQN, γ=0.99

Resultados Experimentales

Resultados Principales

  1. Entorno tabular:
    • Continuing PSRL muestra rendimiento comparable a TSDE, aunque este último optimiza directamente la recompensa promedio
    • Significativamente superior a DS-PSRL
    • Verifica el crecimiento de arrepentimiento sublineal predicho por la teoría
  2. Entorno de características continuas:
    • Bootstrapped DQN + remuestreo aleatorio logra arrepentimiento sublineal
    • Claramente superior a vanilla DQN con exploración ε-greedy
    • Demuestra la escalabilidad del método en entornos complejos

Hallazgos Experimentales

  1. Efectividad del remuestreo simple: A pesar del mecanismo de remuestreo simple, el rendimiento es comparable al de métodos complejos
  2. Ventaja de escalabilidad: En espacios de estado de alta dimensión, los métodos tradicionales que dependen de conteos de visitas fallan, mientras que este método sigue siendo efectivo
  3. Consistencia entre teoría y práctica: Los resultados experimentales verifican la corrección del análisis teórico

Trabajo Relacionado

Thompson Sampling y Muestreo Posterior

  • Thompson Sampling Clásico: Inicialmente utilizado para problemas de bandidos multiarmados
  • Extensiones PSRL: Osband et al. lo extendieron al aprendizaje por refuerzo, pero principalmente para entornos episódicos
  • Bootstrapped DQN: Utiliza métodos de conjunto para aproximar la distribución posterior

Exploración en Entornos Continuos

  • TSDE: Primer método de Thompson sampling para entornos continuos, pero depende de criterios de remuestreo complejos
  • DS-PSRL: Simplifica el remuestreo pero requiere suposiciones técnicas fuertes
  • Este trabajo: Proporciona por primera vez un método de remuestreo aleatorio simple y riguroso

Análisis Teórico

  • Los trabajos existentes consideran principalmente arrepentimiento descontado por γ; este artículo se enfoca en arrepentimiento sin descuento
  • El uso del tiempo promedio de recompensa τ reemplaza el concepto tradicional de span
  • La suposición de MDP débilmente conectado es la configuración más general para límites de arrepentimiento en tiempo finito

Conclusiones y Discusión

Conclusiones Principales

  1. Contribución teórica: Se establece un límite de arrepentimiento de Õ(τS√AT) que coincide con los mejores resultados existentes
  2. Simplicidad del algoritmo: Solo requiere un generador de números aleatorios de Bernoulli para lograr exploración efectiva
  3. Valor práctico: El algoritmo puede integrarse directamente en métodos de aprendizaje por refuerzo profundo existentes
  4. Nueva perspectiva del factor de descuento: El factor de descuento se considera una herramienta de diseño de algoritmos en lugar de una propiedad del entorno

Limitaciones

  1. Suposiciones teóricas: Requiere suposiciones de MDP débilmente conectado y tiempo promedio de recompensa acotado
  2. Dependencia de la distribución previa: El rendimiento depende de la configuración de una distribución previa razonable
  3. Ajuste de parámetros: La selección del factor de descuento γ requiere conocimiento del horizonte temporal T
  4. Alcance experimental: Los experimentos se realizan principalmente en entornos relativamente simples

Direcciones Futuras

  1. Configuración sin conocimiento previo: Investigar métodos adaptativos que no requieran conocimiento previo de T
  2. Entornos más complejos: Verificar el método en entornos de mayor escala y complejidad
  3. Mejoras teóricas: Relajar condiciones de suposición como la conectividad débil
  4. Aplicaciones prácticas: Probar el rendimiento del algoritmo en escenarios de aplicación real

Evaluación Profunda

Fortalezas

  1. Rigor teórico: Proporciona análisis teórico completo y pruebas rigurosas, llenando el vacío teórico de PSRL para entornos continuos
  2. Simplicidad del algoritmo: Comparado con métodos existentes, el mecanismo de remuestreo es extremadamente simple, fácil de implementar y comprender
  3. Escalabilidad: Soporta naturalmente aproximación de funciones y espacios de estado de alta dimensión, con fuerte valor práctico
  4. Perspectiva innovadora: Reinterpreta el factor de descuento como herramienta de diseño de algoritmos, proporcionando nuevas perspectivas teóricas

Deficiencias

  1. Profundidad experimental insuficiente: Los experimentos se realizan principalmente en entornos simples, careciendo de verificación en entornos complejos a gran escala
  2. Sensibilidad de parámetros: La selección del factor de descuento γ depende de parámetros del problema, pudiendo requerir ajuste cuidadoso en aplicaciones prácticas
  3. Comparación incompleta: Falta comparación con algunos métodos de exploración relacionados (como métodos basados en UCB)
  4. Falta de casos de aplicación real: Principalmente teoría y simulación simple, careciendo de verificación en escenarios de aplicación real

Impacto

  1. Contribución teórica: Proporciona un nuevo marco teórico para el problema de exploración en entornos continuos
  2. Valor práctico: La simplicidad del algoritmo facilita su adopción y extensión
  3. Significado inspirador: La nueva interpretación del factor de descuento puede influir en el diseño de algoritmos futuros
  4. Reproducibilidad: La descripción del algoritmo es clara y el análisis teórico es completo, con buena reproducibilidad

Escenarios Aplicables

  1. Aprendizaje por refuerzo continuo: Entornos que requieren interacción a largo plazo sin estructura episódica natural
  2. Espacios de estado de alta dimensión: Entornos complejos donde métodos tradicionales basados en conteos son inaplicables
  3. Aprendizaje en línea: Escenarios que requieren aprendizaje y adaptación continua durante la interacción
  4. Aprendizaje por refuerzo profundo: Puede integrarse en marcos de RL profundo existentes

Referencias

El artículo cita trabajos importantes en el campo del aprendizaje por refuerzo, incluyendo:

  • Trabajos clásicos de Thompson sampling (Thompson, 1933)
  • Trabajos fundacionales de PSRL (Osband et al., 2013)
  • Investigaciones relacionadas en entornos continuos (Ouyang et al., 2017; Theocharous et al., 2018)
  • Avances importantes en aprendizaje por refuerzo profundo (Mnih et al., 2015)

Evaluación General: Este es un artículo de alta calidad en aprendizaje por refuerzo teórico que realiza contribuciones importantes en métodos de muestreo posterior para entornos continuos. El diseño del algoritmo es simple y elegante, el análisis teórico es riguroso y completo, proporcionando nuevas perspectivas y herramientas para el campo. Aunque hay espacio para mejora en la verificación experimental, su valor teórico y potencial práctico son destacados.