2025-11-17T07:58:12.711519

Posterior Sampling for Continuing Environments

Xu, Dong, Van Roy

We develop an extension of posterior sampling for reinforcement learning (PSRL) that is suited for a continuing agent-environment interface and integrates naturally into agent designs that scale to complex environments. The approach, continuing PSRL, maintains a statistically plausible model of the environment and follows a policy that maximizes expected $Î³$-discounted return in that model. At each time, with probability $1-Î³$, the model is replaced by a sample from the posterior distribution over environments. For a choice of discount factor that suitably depends on the horizon $T$, we establish an $\tilde{O}(ÏS \sqrt{A T})$ bound on the Bayesian regret, where $S$ is the number of environment states, $A$ is the number of actions, and $Ï$ denotes the reward averaging time, which is a bound on the duration required to accurately estimate the average reward of any policy. Our work is the first to formalize and rigorously analyze the resampling approach with randomized exploration.

academic

Échantillonnage Postérieur pour Environnements Continus

Informations Fondamentales

ID de l'article : 2211.15931
Titre : Posterior Sampling for Continuing Environments
Auteurs : Wanqiao Xu (Stanford University), Shi Dong (Google DeepMind), Benjamin Van Roy (Stanford University)
Classification : cs.LG stat.ML
Conférence de publication : RLJ | RLC 2024
Lien de l'article : https://arxiv.org/abs/2211.15931

Résumé

Cet article propose un algorithme d'apprentissage par renforcement par échantillonnage postérieur adapté aux environnements continus (Continuing PSRL), qui s'intègre naturellement dans la conception d'agents évolutifs. L'algorithme maintient un modèle d'environnement statistiquement justifié et suit une politique qui maximise le rendement actualisé par γ dans ce modèle. À chaque étape temporelle, l'algorithme rééchantillonne le modèle à partir de la distribution postérieure de l'environnement avec probabilité 1-γ. En choisissant judicieusement le facteur d'actualisation en fonction de l'horizon temporel T, une borne de regret bayésien de Õ(τS√AT) est établie, où S est le nombre d'états de l'environnement, A est le nombre d'actions, et τ représente le temps moyen de récompense.

Contexte et Motivation de la Recherche

Problème Central

Les algorithmes d'apprentissage par renforcement par échantillonnage postérieur existants sont principalement conçus pour les environnements épisodiques et dépendent du maintien de compteurs de visite état-action, ce qui les rend inadaptés aux environnements continus complexes avec des espaces d'états de haute dimension.

Importance du Problème

L'apprentissage dans les environnements continus est un problème fondamental en apprentissage par renforcement, mais les méthodes d'exploration stochastique existantes sont principalement limitées aux environnements épisodiques
Besoins d'évolutivité : Les méthodes traditionnelles dépendent des compteurs de visite état-action, ce qui est infaisable dans les environnements complexes
Lacune théorique : Absence d'analyse théorique rigoureuse pour les environnements continus

Limitations des Méthodes Existantes

TSDE (Ouyang et al., 2017) : Nécessite des critères de rééchantillonnage complexes, incluant des conditions de doublement des compteurs de visite, infaisable dans les grands espaces d'états
DS-PSRL (Theocharous et al., 2018) : Bien qu'évitant les compteurs de visite, l'analyse dépend d'hypothèses techniques fortes ; sans ces hypothèses, la borne de regret croît linéairement
PSRL traditionnel : Applicable uniquement aux environnements épisodiques, ne peut pas être étendu directement aux paramètres continus

Motivation de la Recherche

Proposer un algorithme d'échantillonnage postérieur simple, évolutif et théoriquement rigoureux pour les environnements continus, capable de :

Éviter le maintien des compteurs de visite état-action
S'intégrer naturellement aux méthodes d'approximation de fonction existantes
Fournir des garanties théoriques correspondant aux meilleurs résultats existants

Contributions Principales

Premier algorithme PSRL continu évolutif : Propose Continuing PSRL basé sur un schéma de randomisation simple, évitant les critères de rééchantillonnage complexes
Analyse théorique rigoureuse : Établit une borne de regret bayésien de Õ(τS√AT), correspondant aux meilleurs résultats existants
Percée en évolutivité : L'algorithme s'étend naturellement aux espaces d'états de haute dimension et aux paramètres d'approximation de fonction
Nouvelle perspective sur le facteur d'actualisation : Considère le facteur d'actualisation comme un outil de conception d'algorithme plutôt qu'une propriété d'environnement, offrant une nouvelle perspective sur le rôle du facteur d'actualisation

Détails de la Méthode

Définition de la Tâche

Considérez un processus de décision markovien modélisé par un environnement inconnu E = (A,S,ρ), où :

A est l'espace d'action fini, |A| = A
S est l'espace d'état fini, |S| = S
ρ est la fonction de probabilité de transition d'état
La fonction de récompense r : S × A → 0,1 est déterministe et connue

L'objectif est de minimiser le regret cumulatif : $\text{Regret}(T,π) := \sum_{t=0}^{T-1}(λ_{*,E} - R_{t+1})$

où λ_{*,E} est la récompense moyenne optimale.

Architecture du Modèle

Construction de Pseudo-Épisodes

L'algorithme décompose le problème d'apprentissage sur un horizon infini en pseudo-épisodes de longueur aléatoire :

À chaque étape temporelle t, échantillonner un indicateur binaire X_t
Quand X_t = 0, commencer un nouveau pseudo-épisode et rééchantillonner le modèle d'environnement
Quand X_t = 1, continuer le pseudo-épisode actuel

Fonction de Valeur Actualisée

Pour un environnement E et une politique π, la fonction de valeur actualisée par γ est définie comme : $V^γ_{π,E} := \mathbb{E}\left[\sum_{h=0}^{H-1} P^h_π r_π | E\right] = \mathbb{E}\left[\sum_{h=0}^{∞} γ^h P^h_π r_π | E\right]$

où H est la longueur du pseudo-épisode, suivant une distribution géométrique.

Temps Moyen de Récompense

Le concept clé est le temps moyen de récompense τ_{π,E}, défini comme la valeur minimale τ telle que : $\left|\mathbb{E}_π\left[\sum_{t=0}^{T-1} R_{t+1} | E, S_0 = s\right] - T \cdot λ_{π,E}(s)\right| \leq τ$

Flux de l'Algorithme

Algorithme 1 : Continuing PSRL

Entrée : Distribution a priori f, facteur d'actualisation γ, temps d'apprentissage total T
1. Initialiser t=1, k=1, X₁=0
2. pour t ≤ T :
3.   si Xₜ = 0 :
4.     tₖ ← t
5.     Échantillonner Eₖ ~ f(·|H_tₖ)
6.     Calculer πₖ = π^γ_Eₖ
7.     k ← k+1
8.   Échantillonner et exécuter Aₜ ~ πₖ(·|Sₜ)
9.   Observer Rₜ₊₁ et Sₜ₊₁
10.  t ← t+1
11.  Échantillonner Xₜ₊₁ ~ Bernoulli(γ)

Points d'Innovation Technique

Mécanisme de rééchantillonnage simple : Utilise uniquement un générateur de nombres aléatoires de Bernoulli, évitant les conditions de comptage complexes
Lien entre facteur d'actualisation et probabilité de rééchantillonnage : Définir γ = 1-p, où p est la probabilité de rééchantillonnage
Rééchantillonnage indépendant de la politique : Le critère de rééchantillonnage est indépendant de la politique, simplifiant l'analyse
Facteur d'actualisation variant dans le temps : Permet au facteur d'actualisation de croître avec le temps, réalisant un regret sous-linéaire

Configuration Expérimentale

Ensembles de Données

Environnement RiverSwim tabulaire :
- Structure en chaîne de 6 états
- Récompense 0,005 à l'extrémité gauche, récompense 1,0 à l'extrémité droite
- La politique optimale est de toujours nager vers la droite
Environnement RiverSwim avec caractéristiques continues :
- Structure similaire mais utilisant des observations de caractéristiques en pixels
- Mappage de caractéristiques : φ(s_t) = 1{x ≤ s_t} ∈ 0,1^N
- Tester les performances de l'algorithme dans les paramètres d'approximation de fonction

Métriques d'Évaluation

Regret cumulatif (Cumulative Regret)
Variation du regret moyen au fil du temps

Méthodes de Comparaison

TSDE (Ouyang et al., 2017) : Thompson sampling basé sur les compteurs de visite
DS-PSRL (Theocharous et al., 2018) : Schéma de rééchantillonnage à intervalle de temps fixe
Agent aléatoire : Comme ligne de base
DQN avec ε-greedy : Comparaison dans les environnements avec caractéristiques continues

Détails d'Implémentation

Distribution a priori : Distribution de Dirichlet (transitions) et distribution normale-gamma (récompenses)
Hyperparamètres : pseudo-comptage n=1, α=1/S, μ=σ²=1
Utiliser Bootstrapped DQN dans les environnements continus, γ=0,99

Résultats Expérimentaux

Résultats Principaux

Environnement tabulaire :
- Continuing PSRL fonctionne de manière comparable à TSDE, bien que ce dernier optimise directement la récompense moyenne
- Significativement supérieur à DS-PSRL
- Vérifie la croissance du regret sous-linéaire prédite par la théorie
Environnement avec caractéristiques continues :
- Bootstrapped DQN + rééchantillonnage aléatoire réalise un regret sous-linéaire
- Nettement supérieur à vanilla DQN avec exploration ε-greedy
- Démontre l'évolutivité de la méthode dans les environnements complexes

Découvertes Expérimentales

Efficacité du rééchantillonnage simple : Malgré la simplicité du mécanisme de rééchantillonnage, les performances sont comparables aux méthodes complexes
Avantages d'évolutivité : Dans les espaces d'états de haute dimension, les méthodes traditionnelles dépendant des compteurs de visite échouent, tandis que cette méthode reste efficace
Cohérence entre théorie et pratique : Les résultats expérimentaux valident la justesse de l'analyse théorique

Travaux Connexes

Thompson Sampling et Échantillonnage Postérieur

Thompson sampling classique : Initialement utilisé pour les problèmes de bandit multi-bras
Extensions PSRL : Osband et al. l'ont étendu à l'apprentissage par renforcement, mais principalement pour les environnements épisodiques
Bootstrapped DQN : Utilise des méthodes d'ensemble pour approximer la distribution postérieure

Exploration dans les Environnements Continus

TSDE : Première méthode Thompson sampling pour les environnements continus, mais dépend de critères de rééchantillonnage complexes
DS-PSRL : Simplifie le rééchantillonnage mais nécessite des hypothèses techniques fortes
Ce travail : Fournit pour la première fois une méthode de rééchantillonnage aléatoire simple et rigoureuse

Analyse Théorique

Les travaux existants considèrent principalement le regret actualisé par γ, cet article se concentre sur le regret non actualisé
L'utilisation du temps moyen de récompense τ remplace le concept traditionnel de span
L'hypothèse de MDP faiblement connexe est le paramètre le plus général pour les bornes de regret en temps fini

Conclusion et Discussion

Conclusions Principales

Contribution théorique : Établit une borne de regret de Õ(τS√AT), correspondant aux meilleurs résultats existants
Simplicité de l'algorithme : Nécessite uniquement un générateur de nombres aléatoires de Bernoulli pour réaliser une exploration efficace
Valeur pratique : L'algorithme peut être directement intégré aux méthodes d'apprentissage par renforcement profond existantes
Nouvelle perspective sur le facteur d'actualisation : Considère le facteur d'actualisation comme un outil de conception d'algorithme plutôt qu'une propriété d'environnement

Limitations

Hypothèses théoriques : Nécessite des hypothèses de MDP faiblement connexe et de temps moyen de récompense borné
Dépendance à la distribution a priori : Les performances dépendent de la définition d'une distribution a priori raisonnable
Ajustement des paramètres : Le choix du facteur d'actualisation γ nécessite une connaissance de l'horizon temporel T
Portée des expériences : Les expériences sont principalement menées dans des environnements relativement simples

Directions Futures

Paramètres sans connaissance a priori : Étudier les méthodes adaptatives ne nécessitant pas de connaissance préalable de T
Environnements plus complexes : Valider la méthode dans des environnements à plus grande échelle et plus complexes
Améliorations théoriques : Relâcher les conditions d'hypothèses telles que la connexité faible
Applications pratiques : Tester les performances de l'algorithme dans des scénarios d'application réels

Évaluation Approfondie

Avantages

Rigueur théorique : Fournit une analyse théorique complète et des preuves, comblant le vide théorique du PSRL pour les environnements continus
Simplicité de l'algorithme : Comparé aux méthodes existantes, le mécanisme de rééchantillonnage est extrêmement simple, facile à implémenter et à comprendre
Évolutivité : Supporte naturellement l'approximation de fonction et les espaces d'états de haute dimension, avec une forte valeur pratique
Perspective innovante : Réinterprète le facteur d'actualisation comme un outil de conception d'algorithme, offrant une nouvelle perspicacité théorique

Insuffisances

Profondeur expérimentale insuffisante : Les expériences sont principalement menées dans des environnements simples, manquant de validation dans des environnements complexes à grande échelle
Sensibilité aux paramètres : Le choix du facteur d'actualisation γ dépend des paramètres du problème, nécessitant potentiellement un ajustement minutieux dans les applications pratiques
Comparaisons incomplètes : Manque de comparaisons avec certaines méthodes d'exploration connexes (comme les méthodes de type UCB)
Absence de cas d'application réels : Principalement théorique et simulations simples, manquant de validation dans des scénarios d'application réels

Impact

Contribution théorique : Fournit un nouveau cadre théorique pour les problèmes d'exploration dans les environnements continus
Valeur pratique : La simplicité de l'algorithme le rend facile à adopter et à étendre
Signification inspirante : La nouvelle interprétation du facteur d'actualisation pourrait influencer la conception d'algorithmes futurs
Reproductibilité : La description de l'algorithme est claire, l'analyse théorique est complète, avec une bonne reproductibilité

Scénarios Applicables

Apprentissage par renforcement continu : Environnements nécessitant une interaction à long terme sans structure d'épisode naturelle
Espaces d'états de haute dimension : Environnements complexes où les méthodes traditionnelles basées sur les compteurs ne s'appliquent pas
Apprentissage en ligne : Scénarios nécessitant un apprentissage et une adaptation continus pendant l'interaction
Apprentissage par renforcement profond : Peut être intégré aux cadres de RL profond existants

Références

L'article cite des travaux importants dans le domaine de l'apprentissage par renforcement, notamment :

Travaux classiques sur le Thompson sampling (Thompson, 1933)
Travaux fondateurs sur PSRL (Osband et al., 2013)
Recherches connexes sur les environnements continus (Ouyang et al., 2017 ; Theocharous et al., 2018)
Progrès importants en apprentissage par renforcement profond (Mnih et al., 2015)

Évaluation Globale : Ceci est un article d'apprentissage par renforcement théorique de haute qualité qui apporte des contributions importantes aux méthodes d'échantillonnage postérieur dans les environnements continus. La conception de l'algorithme est simple et élégante, l'analyse théorique est rigoureuse et complète, offrant de nouvelles perspectives et outils au domaine. Bien qu'il y ait de la place pour amélioration dans la validation expérimentale, sa valeur théorique et son potentiel pratique sont tous deux remarquables.