We develop an extension of posterior sampling for reinforcement learning (PSRL) that is suited for a continuing agent-environment interface and integrates naturally into agent designs that scale to complex environments. The approach, continuing PSRL, maintains a statistically plausible model of the environment and follows a policy that maximizes expected $γ$-discounted return in that model. At each time, with probability $1-γ$, the model is replaced by a sample from the posterior distribution over environments. For a choice of discount factor that suitably depends on the horizon $T$, we establish an $\tilde{O}(ÏS \sqrt{A T})$ bound on the Bayesian regret, where $S$ is the number of environment states, $A$ is the number of actions, and $Ï$ denotes the reward averaging time, which is a bound on the duration required to accurately estimate the average reward of any policy. Our work is the first to formalize and rigorously analyze the resampling approach with randomized exploration.
Este artículo propone un algoritmo de aprendizaje por refuerzo de muestreo posterior (Continuing PSRL) aplicable a entornos continuos, que se integra naturalmente en diseños de agentes escalables. El algoritmo mantiene un modelo de entorno estadísticamente válido y sigue una política que maximiza la recompensa descontada por γ en ese modelo. En cada paso de tiempo, el algoritmo remuestrea el modelo de la distribución posterior del entorno con probabilidad 1-γ. Al seleccionar apropiadamente el factor de descuento dependiente del horizonte temporal T, se establece un límite de arrepentimiento bayesiano de Õ(τS√AT), donde S es el número de estados del entorno, A es el número de acciones y τ representa el tiempo promedio de recompensa.
Los algoritmos existentes de muestreo posterior para aprendizaje por refuerzo están diseñados principalmente para entornos episódicos, dependiendo del mantenimiento de conteos de visitas estado-acción, lo que los hace inadecuados para entornos continuos complejos con espacios de estado de alta dimensión.
Aprendizaje en entornos continuos es un problema fundamental en aprendizaje por refuerzo, pero los métodos existentes de exploración estocástica se limitan principalmente a entornos episódicos
Requisitos de escalabilidad: Los métodos tradicionales dependen de conteos de visitas estado-acción, lo que es inviable en entornos complejos
Vacío teórico: Falta análisis teórico riguroso para entornos continuos
TSDE (Ouyang et al., 2017): Requiere criterios de remuestreo complejos, incluyendo condiciones de duplicación de conteos, inviable en espacios de estado grandes
DS-PSRL (Theocharous et al., 2018): Aunque evita conteos de visitas, el análisis depende de suposiciones técnicas fuertes; sin ellas, el límite de arrepentimiento crece linealmente
PSRL Tradicional: Solo aplicable a entornos episódicos, no se extiende directamente a configuraciones continuas
Primer algoritmo PSRL continuo escalable: Se propone Continuing PSRL basado en un esquema de aleatorización simple que evita criterios de remuestreo complejos
Análisis teórico riguroso: Se establece un límite de arrepentimiento bayesiano de Õ(τS√AT) que coincide con los mejores resultados existentes
Avance en escalabilidad: El algoritmo se extiende naturalmente a espacios de estado de alta dimensión y configuraciones de aproximación de funciones
Nueva perspectiva del factor de descuento: El factor de descuento se considera una herramienta de diseño de algoritmos en lugar de una propiedad del entorno, proporcionando una nueva perspectiva sobre el papel del factor de descuento
Efectividad del remuestreo simple: A pesar del mecanismo de remuestreo simple, el rendimiento es comparable al de métodos complejos
Ventaja de escalabilidad: En espacios de estado de alta dimensión, los métodos tradicionales que dependen de conteos de visitas fallan, mientras que este método sigue siendo efectivo
Consistencia entre teoría y práctica: Los resultados experimentales verifican la corrección del análisis teórico
Contribución teórica: Se establece un límite de arrepentimiento de Õ(τS√AT) que coincide con los mejores resultados existentes
Simplicidad del algoritmo: Solo requiere un generador de números aleatorios de Bernoulli para lograr exploración efectiva
Valor práctico: El algoritmo puede integrarse directamente en métodos de aprendizaje por refuerzo profundo existentes
Nueva perspectiva del factor de descuento: El factor de descuento se considera una herramienta de diseño de algoritmos en lugar de una propiedad del entorno
Profundidad experimental insuficiente: Los experimentos se realizan principalmente en entornos simples, careciendo de verificación en entornos complejos a gran escala
Sensibilidad de parámetros: La selección del factor de descuento γ depende de parámetros del problema, pudiendo requerir ajuste cuidadoso en aplicaciones prácticas
Comparación incompleta: Falta comparación con algunos métodos de exploración relacionados (como métodos basados en UCB)
Falta de casos de aplicación real: Principalmente teoría y simulación simple, careciendo de verificación en escenarios de aplicación real
El artículo cita trabajos importantes en el campo del aprendizaje por refuerzo, incluyendo:
Trabajos clásicos de Thompson sampling (Thompson, 1933)
Trabajos fundacionales de PSRL (Osband et al., 2013)
Investigaciones relacionadas en entornos continuos (Ouyang et al., 2017; Theocharous et al., 2018)
Avances importantes en aprendizaje por refuerzo profundo (Mnih et al., 2015)
Evaluación General: Este es un artículo de alta calidad en aprendizaje por refuerzo teórico que realiza contribuciones importantes en métodos de muestreo posterior para entornos continuos. El diseño del algoritmo es simple y elegante, el análisis teórico es riguroso y completo, proporcionando nuevas perspectivas y herramientas para el campo. Aunque hay espacio para mejora en la verificación experimental, su valor teórico y potencial práctico son destacados.