2025-11-17T07:58:12.711519

Posterior Sampling for Continuing Environments

Xu, Dong, Van Roy
We develop an extension of posterior sampling for reinforcement learning (PSRL) that is suited for a continuing agent-environment interface and integrates naturally into agent designs that scale to complex environments. The approach, continuing PSRL, maintains a statistically plausible model of the environment and follows a policy that maximizes expected $γ$-discounted return in that model. At each time, with probability $1-γ$, the model is replaced by a sample from the posterior distribution over environments. For a choice of discount factor that suitably depends on the horizon $T$, we establish an $\tilde{O}(τS \sqrt{A T})$ bound on the Bayesian regret, where $S$ is the number of environment states, $A$ is the number of actions, and $τ$ denotes the reward averaging time, which is a bound on the duration required to accurately estimate the average reward of any policy. Our work is the first to formalize and rigorously analyze the resampling approach with randomized exploration.
academic

Échantillonnage Postérieur pour Environnements Continus

Informations Fondamentales

  • ID de l'article : 2211.15931
  • Titre : Posterior Sampling for Continuing Environments
  • Auteurs : Wanqiao Xu (Stanford University), Shi Dong (Google DeepMind), Benjamin Van Roy (Stanford University)
  • Classification : cs.LG stat.ML
  • Conférence de publication : RLJ | RLC 2024
  • Lien de l'article : https://arxiv.org/abs/2211.15931

Résumé

Cet article propose un algorithme d'apprentissage par renforcement par échantillonnage postérieur adapté aux environnements continus (Continuing PSRL), qui s'intègre naturellement dans la conception d'agents évolutifs. L'algorithme maintient un modèle d'environnement statistiquement justifié et suit une politique qui maximise le rendement actualisé par γ dans ce modèle. À chaque étape temporelle, l'algorithme rééchantillonne le modèle à partir de la distribution postérieure de l'environnement avec probabilité 1-γ. En choisissant judicieusement le facteur d'actualisation en fonction de l'horizon temporel T, une borne de regret bayésien de Õ(τS√AT) est établie, où S est le nombre d'états de l'environnement, A est le nombre d'actions, et τ représente le temps moyen de récompense.

Contexte et Motivation de la Recherche

Problème Central

Les algorithmes d'apprentissage par renforcement par échantillonnage postérieur existants sont principalement conçus pour les environnements épisodiques et dépendent du maintien de compteurs de visite état-action, ce qui les rend inadaptés aux environnements continus complexes avec des espaces d'états de haute dimension.

Importance du Problème

  1. L'apprentissage dans les environnements continus est un problème fondamental en apprentissage par renforcement, mais les méthodes d'exploration stochastique existantes sont principalement limitées aux environnements épisodiques
  2. Besoins d'évolutivité : Les méthodes traditionnelles dépendent des compteurs de visite état-action, ce qui est infaisable dans les environnements complexes
  3. Lacune théorique : Absence d'analyse théorique rigoureuse pour les environnements continus

Limitations des Méthodes Existantes

  1. TSDE (Ouyang et al., 2017) : Nécessite des critères de rééchantillonnage complexes, incluant des conditions de doublement des compteurs de visite, infaisable dans les grands espaces d'états
  2. DS-PSRL (Theocharous et al., 2018) : Bien qu'évitant les compteurs de visite, l'analyse dépend d'hypothèses techniques fortes ; sans ces hypothèses, la borne de regret croît linéairement
  3. PSRL traditionnel : Applicable uniquement aux environnements épisodiques, ne peut pas être étendu directement aux paramètres continus

Motivation de la Recherche

Proposer un algorithme d'échantillonnage postérieur simple, évolutif et théoriquement rigoureux pour les environnements continus, capable de :

  • Éviter le maintien des compteurs de visite état-action
  • S'intégrer naturellement aux méthodes d'approximation de fonction existantes
  • Fournir des garanties théoriques correspondant aux meilleurs résultats existants

Contributions Principales

  1. Premier algorithme PSRL continu évolutif : Propose Continuing PSRL basé sur un schéma de randomisation simple, évitant les critères de rééchantillonnage complexes
  2. Analyse théorique rigoureuse : Établit une borne de regret bayésien de Õ(τS√AT), correspondant aux meilleurs résultats existants
  3. Percée en évolutivité : L'algorithme s'étend naturellement aux espaces d'états de haute dimension et aux paramètres d'approximation de fonction
  4. Nouvelle perspective sur le facteur d'actualisation : Considère le facteur d'actualisation comme un outil de conception d'algorithme plutôt qu'une propriété d'environnement, offrant une nouvelle perspective sur le rôle du facteur d'actualisation

Détails de la Méthode

Définition de la Tâche

Considérez un processus de décision markovien modélisé par un environnement inconnu E = (A,S,ρ), où :

  • A est l'espace d'action fini, |A| = A
  • S est l'espace d'état fini, |S| = S
  • ρ est la fonction de probabilité de transition d'état
  • La fonction de récompense r : S × A → 0,1 est déterministe et connue

L'objectif est de minimiser le regret cumulatif : Regret(T,π):=t=0T1(λ,ERt+1)\text{Regret}(T,π) := \sum_{t=0}^{T-1}(λ_{*,E} - R_{t+1})

où λ_{*,E} est la récompense moyenne optimale.

Architecture du Modèle

Construction de Pseudo-Épisodes

L'algorithme décompose le problème d'apprentissage sur un horizon infini en pseudo-épisodes de longueur aléatoire :

  • À chaque étape temporelle t, échantillonner un indicateur binaire X_t
  • Quand X_t = 0, commencer un nouveau pseudo-épisode et rééchantillonner le modèle d'environnement
  • Quand X_t = 1, continuer le pseudo-épisode actuel

Fonction de Valeur Actualisée

Pour un environnement E et une politique π, la fonction de valeur actualisée par γ est définie comme : Vπ,Eγ:=E[h=0H1PπhrπE]=E[h=0γhPπhrπE]V^γ_{π,E} := \mathbb{E}\left[\sum_{h=0}^{H-1} P^h_π r_π | E\right] = \mathbb{E}\left[\sum_{h=0}^{∞} γ^h P^h_π r_π | E\right]

où H est la longueur du pseudo-épisode, suivant une distribution géométrique.

Temps Moyen de Récompense

Le concept clé est le temps moyen de récompense τ_{π,E}, défini comme la valeur minimale τ telle que : Eπ[t=0T1Rt+1E,S0=s]Tλπ,E(s)τ\left|\mathbb{E}_π\left[\sum_{t=0}^{T-1} R_{t+1} | E, S_0 = s\right] - T \cdot λ_{π,E}(s)\right| \leq τ

Flux de l'Algorithme

Algorithme 1 : Continuing PSRL

Entrée : Distribution a priori f, facteur d'actualisation γ, temps d'apprentissage total T
1. Initialiser t=1, k=1, X₁=0
2. pour t ≤ T :
3.   si Xₜ = 0 :
4.     tₖ ← t
5.     Échantillonner Eₖ ~ f(·|H_tₖ)
6.     Calculer πₖ = π^γ_Eₖ
7.     k ← k+1
8.   Échantillonner et exécuter Aₜ ~ πₖ(·|Sₜ)
9.   Observer Rₜ₊₁ et Sₜ₊₁
10.  t ← t+1
11.  Échantillonner Xₜ₊₁ ~ Bernoulli(γ)

Points d'Innovation Technique

  1. Mécanisme de rééchantillonnage simple : Utilise uniquement un générateur de nombres aléatoires de Bernoulli, évitant les conditions de comptage complexes
  2. Lien entre facteur d'actualisation et probabilité de rééchantillonnage : Définir γ = 1-p, où p est la probabilité de rééchantillonnage
  3. Rééchantillonnage indépendant de la politique : Le critère de rééchantillonnage est indépendant de la politique, simplifiant l'analyse
  4. Facteur d'actualisation variant dans le temps : Permet au facteur d'actualisation de croître avec le temps, réalisant un regret sous-linéaire

Configuration Expérimentale

Ensembles de Données

  1. Environnement RiverSwim tabulaire :
    • Structure en chaîne de 6 états
    • Récompense 0,005 à l'extrémité gauche, récompense 1,0 à l'extrémité droite
    • La politique optimale est de toujours nager vers la droite
  2. Environnement RiverSwim avec caractéristiques continues :
    • Structure similaire mais utilisant des observations de caractéristiques en pixels
    • Mappage de caractéristiques : φ(s_t) = 1{x ≤ s_t} ∈ 0,1^N
    • Tester les performances de l'algorithme dans les paramètres d'approximation de fonction

Métriques d'Évaluation

  • Regret cumulatif (Cumulative Regret)
  • Variation du regret moyen au fil du temps

Méthodes de Comparaison

  1. TSDE (Ouyang et al., 2017) : Thompson sampling basé sur les compteurs de visite
  2. DS-PSRL (Theocharous et al., 2018) : Schéma de rééchantillonnage à intervalle de temps fixe
  3. Agent aléatoire : Comme ligne de base
  4. DQN avec ε-greedy : Comparaison dans les environnements avec caractéristiques continues

Détails d'Implémentation

  • Distribution a priori : Distribution de Dirichlet (transitions) et distribution normale-gamma (récompenses)
  • Hyperparamètres : pseudo-comptage n=1, α=1/S, μ=σ²=1
  • Utiliser Bootstrapped DQN dans les environnements continus, γ=0,99

Résultats Expérimentaux

Résultats Principaux

  1. Environnement tabulaire :
    • Continuing PSRL fonctionne de manière comparable à TSDE, bien que ce dernier optimise directement la récompense moyenne
    • Significativement supérieur à DS-PSRL
    • Vérifie la croissance du regret sous-linéaire prédite par la théorie
  2. Environnement avec caractéristiques continues :
    • Bootstrapped DQN + rééchantillonnage aléatoire réalise un regret sous-linéaire
    • Nettement supérieur à vanilla DQN avec exploration ε-greedy
    • Démontre l'évolutivité de la méthode dans les environnements complexes

Découvertes Expérimentales

  1. Efficacité du rééchantillonnage simple : Malgré la simplicité du mécanisme de rééchantillonnage, les performances sont comparables aux méthodes complexes
  2. Avantages d'évolutivité : Dans les espaces d'états de haute dimension, les méthodes traditionnelles dépendant des compteurs de visite échouent, tandis que cette méthode reste efficace
  3. Cohérence entre théorie et pratique : Les résultats expérimentaux valident la justesse de l'analyse théorique

Travaux Connexes

Thompson Sampling et Échantillonnage Postérieur

  • Thompson sampling classique : Initialement utilisé pour les problèmes de bandit multi-bras
  • Extensions PSRL : Osband et al. l'ont étendu à l'apprentissage par renforcement, mais principalement pour les environnements épisodiques
  • Bootstrapped DQN : Utilise des méthodes d'ensemble pour approximer la distribution postérieure

Exploration dans les Environnements Continus

  • TSDE : Première méthode Thompson sampling pour les environnements continus, mais dépend de critères de rééchantillonnage complexes
  • DS-PSRL : Simplifie le rééchantillonnage mais nécessite des hypothèses techniques fortes
  • Ce travail : Fournit pour la première fois une méthode de rééchantillonnage aléatoire simple et rigoureuse

Analyse Théorique

  • Les travaux existants considèrent principalement le regret actualisé par γ, cet article se concentre sur le regret non actualisé
  • L'utilisation du temps moyen de récompense τ remplace le concept traditionnel de span
  • L'hypothèse de MDP faiblement connexe est le paramètre le plus général pour les bornes de regret en temps fini

Conclusion et Discussion

Conclusions Principales

  1. Contribution théorique : Établit une borne de regret de Õ(τS√AT), correspondant aux meilleurs résultats existants
  2. Simplicité de l'algorithme : Nécessite uniquement un générateur de nombres aléatoires de Bernoulli pour réaliser une exploration efficace
  3. Valeur pratique : L'algorithme peut être directement intégré aux méthodes d'apprentissage par renforcement profond existantes
  4. Nouvelle perspective sur le facteur d'actualisation : Considère le facteur d'actualisation comme un outil de conception d'algorithme plutôt qu'une propriété d'environnement

Limitations

  1. Hypothèses théoriques : Nécessite des hypothèses de MDP faiblement connexe et de temps moyen de récompense borné
  2. Dépendance à la distribution a priori : Les performances dépendent de la définition d'une distribution a priori raisonnable
  3. Ajustement des paramètres : Le choix du facteur d'actualisation γ nécessite une connaissance de l'horizon temporel T
  4. Portée des expériences : Les expériences sont principalement menées dans des environnements relativement simples

Directions Futures

  1. Paramètres sans connaissance a priori : Étudier les méthodes adaptatives ne nécessitant pas de connaissance préalable de T
  2. Environnements plus complexes : Valider la méthode dans des environnements à plus grande échelle et plus complexes
  3. Améliorations théoriques : Relâcher les conditions d'hypothèses telles que la connexité faible
  4. Applications pratiques : Tester les performances de l'algorithme dans des scénarios d'application réels

Évaluation Approfondie

Avantages

  1. Rigueur théorique : Fournit une analyse théorique complète et des preuves, comblant le vide théorique du PSRL pour les environnements continus
  2. Simplicité de l'algorithme : Comparé aux méthodes existantes, le mécanisme de rééchantillonnage est extrêmement simple, facile à implémenter et à comprendre
  3. Évolutivité : Supporte naturellement l'approximation de fonction et les espaces d'états de haute dimension, avec une forte valeur pratique
  4. Perspective innovante : Réinterprète le facteur d'actualisation comme un outil de conception d'algorithme, offrant une nouvelle perspicacité théorique

Insuffisances

  1. Profondeur expérimentale insuffisante : Les expériences sont principalement menées dans des environnements simples, manquant de validation dans des environnements complexes à grande échelle
  2. Sensibilité aux paramètres : Le choix du facteur d'actualisation γ dépend des paramètres du problème, nécessitant potentiellement un ajustement minutieux dans les applications pratiques
  3. Comparaisons incomplètes : Manque de comparaisons avec certaines méthodes d'exploration connexes (comme les méthodes de type UCB)
  4. Absence de cas d'application réels : Principalement théorique et simulations simples, manquant de validation dans des scénarios d'application réels

Impact

  1. Contribution théorique : Fournit un nouveau cadre théorique pour les problèmes d'exploration dans les environnements continus
  2. Valeur pratique : La simplicité de l'algorithme le rend facile à adopter et à étendre
  3. Signification inspirante : La nouvelle interprétation du facteur d'actualisation pourrait influencer la conception d'algorithmes futurs
  4. Reproductibilité : La description de l'algorithme est claire, l'analyse théorique est complète, avec une bonne reproductibilité

Scénarios Applicables

  1. Apprentissage par renforcement continu : Environnements nécessitant une interaction à long terme sans structure d'épisode naturelle
  2. Espaces d'états de haute dimension : Environnements complexes où les méthodes traditionnelles basées sur les compteurs ne s'appliquent pas
  3. Apprentissage en ligne : Scénarios nécessitant un apprentissage et une adaptation continus pendant l'interaction
  4. Apprentissage par renforcement profond : Peut être intégré aux cadres de RL profond existants

Références

L'article cite des travaux importants dans le domaine de l'apprentissage par renforcement, notamment :

  • Travaux classiques sur le Thompson sampling (Thompson, 1933)
  • Travaux fondateurs sur PSRL (Osband et al., 2013)
  • Recherches connexes sur les environnements continus (Ouyang et al., 2017 ; Theocharous et al., 2018)
  • Progrès importants en apprentissage par renforcement profond (Mnih et al., 2015)

Évaluation Globale : Ceci est un article d'apprentissage par renforcement théorique de haute qualité qui apporte des contributions importantes aux méthodes d'échantillonnage postérieur dans les environnements continus. La conception de l'algorithme est simple et élégante, l'analyse théorique est rigoureuse et complète, offrant de nouvelles perspectives et outils au domaine. Bien qu'il y ait de la place pour amélioration dans la validation expérimentale, sa valeur théorique et son potentiel pratique sont tous deux remarquables.