We develop an extension of posterior sampling for reinforcement learning (PSRL) that is suited for a continuing agent-environment interface and integrates naturally into agent designs that scale to complex environments. The approach, continuing PSRL, maintains a statistically plausible model of the environment and follows a policy that maximizes expected $γ$-discounted return in that model. At each time, with probability $1-γ$, the model is replaced by a sample from the posterior distribution over environments. For a choice of discount factor that suitably depends on the horizon $T$, we establish an $\tilde{O}(ÏS \sqrt{A T})$ bound on the Bayesian regret, where $S$ is the number of environment states, $A$ is the number of actions, and $Ï$ denotes the reward averaging time, which is a bound on the duration required to accurately estimate the average reward of any policy. Our work is the first to formalize and rigorously analyze the resampling approach with randomized exploration.
academic
Échantillonnage Postérieur pour Environnements Continus
Cet article propose un algorithme d'apprentissage par renforcement par échantillonnage postérieur adapté aux environnements continus (Continuing PSRL), qui s'intègre naturellement dans la conception d'agents évolutifs. L'algorithme maintient un modèle d'environnement statistiquement justifié et suit une politique qui maximise le rendement actualisé par γ dans ce modèle. À chaque étape temporelle, l'algorithme rééchantillonne le modèle à partir de la distribution postérieure de l'environnement avec probabilité 1-γ. En choisissant judicieusement le facteur d'actualisation en fonction de l'horizon temporel T, une borne de regret bayésien de Õ(τS√AT) est établie, où S est le nombre d'états de l'environnement, A est le nombre d'actions, et τ représente le temps moyen de récompense.
Les algorithmes d'apprentissage par renforcement par échantillonnage postérieur existants sont principalement conçus pour les environnements épisodiques et dépendent du maintien de compteurs de visite état-action, ce qui les rend inadaptés aux environnements continus complexes avec des espaces d'états de haute dimension.
L'apprentissage dans les environnements continus est un problème fondamental en apprentissage par renforcement, mais les méthodes d'exploration stochastique existantes sont principalement limitées aux environnements épisodiques
Besoins d'évolutivité : Les méthodes traditionnelles dépendent des compteurs de visite état-action, ce qui est infaisable dans les environnements complexes
Lacune théorique : Absence d'analyse théorique rigoureuse pour les environnements continus
TSDE (Ouyang et al., 2017) : Nécessite des critères de rééchantillonnage complexes, incluant des conditions de doublement des compteurs de visite, infaisable dans les grands espaces d'états
DS-PSRL (Theocharous et al., 2018) : Bien qu'évitant les compteurs de visite, l'analyse dépend d'hypothèses techniques fortes ; sans ces hypothèses, la borne de regret croît linéairement
PSRL traditionnel : Applicable uniquement aux environnements épisodiques, ne peut pas être étendu directement aux paramètres continus
Premier algorithme PSRL continu évolutif : Propose Continuing PSRL basé sur un schéma de randomisation simple, évitant les critères de rééchantillonnage complexes
Analyse théorique rigoureuse : Établit une borne de regret bayésien de Õ(τS√AT), correspondant aux meilleurs résultats existants
Percée en évolutivité : L'algorithme s'étend naturellement aux espaces d'états de haute dimension et aux paramètres d'approximation de fonction
Nouvelle perspective sur le facteur d'actualisation : Considère le facteur d'actualisation comme un outil de conception d'algorithme plutôt qu'une propriété d'environnement, offrant une nouvelle perspective sur le rôle du facteur d'actualisation
Pour un environnement E et une politique π, la fonction de valeur actualisée par γ est définie comme :
Vπ,Eγ:=E[∑h=0H−1Pπhrπ∣E]=E[∑h=0∞γhPπhrπ∣E]
où H est la longueur du pseudo-épisode, suivant une distribution géométrique.
Entrée : Distribution a priori f, facteur d'actualisation γ, temps d'apprentissage total T
1. Initialiser t=1, k=1, X₁=0
2. pour t ≤ T :
3. si Xₜ = 0 :
4. tₖ ← t
5. Échantillonner Eₖ ~ f(·|H_tₖ)
6. Calculer πₖ = π^γ_Eₖ
7. k ← k+1
8. Échantillonner et exécuter Aₜ ~ πₖ(·|Sₜ)
9. Observer Rₜ₊₁ et Sₜ₊₁
10. t ← t+1
11. Échantillonner Xₜ₊₁ ~ Bernoulli(γ)
Mécanisme de rééchantillonnage simple : Utilise uniquement un générateur de nombres aléatoires de Bernoulli, évitant les conditions de comptage complexes
Lien entre facteur d'actualisation et probabilité de rééchantillonnage : Définir γ = 1-p, où p est la probabilité de rééchantillonnage
Rééchantillonnage indépendant de la politique : Le critère de rééchantillonnage est indépendant de la politique, simplifiant l'analyse
Facteur d'actualisation variant dans le temps : Permet au facteur d'actualisation de croître avec le temps, réalisant un regret sous-linéaire
Efficacité du rééchantillonnage simple : Malgré la simplicité du mécanisme de rééchantillonnage, les performances sont comparables aux méthodes complexes
Avantages d'évolutivité : Dans les espaces d'états de haute dimension, les méthodes traditionnelles dépendant des compteurs de visite échouent, tandis que cette méthode reste efficace
Cohérence entre théorie et pratique : Les résultats expérimentaux valident la justesse de l'analyse théorique
Contribution théorique : Établit une borne de regret de Õ(τS√AT), correspondant aux meilleurs résultats existants
Simplicité de l'algorithme : Nécessite uniquement un générateur de nombres aléatoires de Bernoulli pour réaliser une exploration efficace
Valeur pratique : L'algorithme peut être directement intégré aux méthodes d'apprentissage par renforcement profond existantes
Nouvelle perspective sur le facteur d'actualisation : Considère le facteur d'actualisation comme un outil de conception d'algorithme plutôt qu'une propriété d'environnement
Rigueur théorique : Fournit une analyse théorique complète et des preuves, comblant le vide théorique du PSRL pour les environnements continus
Simplicité de l'algorithme : Comparé aux méthodes existantes, le mécanisme de rééchantillonnage est extrêmement simple, facile à implémenter et à comprendre
Évolutivité : Supporte naturellement l'approximation de fonction et les espaces d'états de haute dimension, avec une forte valeur pratique
Perspective innovante : Réinterprète le facteur d'actualisation comme un outil de conception d'algorithme, offrant une nouvelle perspicacité théorique
Profondeur expérimentale insuffisante : Les expériences sont principalement menées dans des environnements simples, manquant de validation dans des environnements complexes à grande échelle
Sensibilité aux paramètres : Le choix du facteur d'actualisation γ dépend des paramètres du problème, nécessitant potentiellement un ajustement minutieux dans les applications pratiques
Comparaisons incomplètes : Manque de comparaisons avec certaines méthodes d'exploration connexes (comme les méthodes de type UCB)
Absence de cas d'application réels : Principalement théorique et simulations simples, manquant de validation dans des scénarios d'application réels
L'article cite des travaux importants dans le domaine de l'apprentissage par renforcement, notamment :
Travaux classiques sur le Thompson sampling (Thompson, 1933)
Travaux fondateurs sur PSRL (Osband et al., 2013)
Recherches connexes sur les environnements continus (Ouyang et al., 2017 ; Theocharous et al., 2018)
Progrès importants en apprentissage par renforcement profond (Mnih et al., 2015)
Évaluation Globale : Ceci est un article d'apprentissage par renforcement théorique de haute qualité qui apporte des contributions importantes aux méthodes d'échantillonnage postérieur dans les environnements continus. La conception de l'algorithme est simple et élégante, l'analyse théorique est rigoureuse et complète, offrant de nouvelles perspectives et outils au domaine. Bien qu'il y ait de la place pour amélioration dans la validation expérimentale, sa valeur théorique et son potentiel pratique sont tous deux remarquables.