Towards Blackwell Optimality: Bellman Optimality Is All You Can Get
Boone, Tuynman
Although average gain optimality is a commonly adopted performance measure in Markov Decision Processes (MDPs), it is often too asymptotic. Further incorporating measures of immediate losses leads to the hierarchy of bias optimalities, all the way up to Blackwell optimality. In this paper, we investigate the problem of identifying policies of such optimality orders. To that end, for each order, we construct a learning algorithm with vanishing probability of error. Furthermore, we characterize the class of MDPs for which identification algorithms can stop in finite time. That class corresponds to the MDPs with a unique Bellman optimal policy, and does not depend on the optimality order considered. Lastly, we provide a tractable stopping rule that when coupled to our learning algorithm triggers in finite time whenever it is possible to do so.
academic
Vers l'optimalité de Blackwell : L'optimalité de Bellman est tout ce que vous pouvez obtenir
Bien que l'optimalité du gain moyen soit une mesure de performance couramment utilisée dans les processus de décision markoviens (PDM), elle est souvent trop asymptotique. L'incorporation supplémentaire de mesures de perte instantanée a conduit à une hiérarchie d'optimalités biaisées, jusqu'à l'optimalité de Blackwell. Cet article étudie le problème de l'identification des politiques d'ordre d'optimalité de ce type. À cette fin, pour chaque ordre, nous construisons un algorithme d'apprentissage avec une probabilité d'erreur qui s'annule. De plus, nous caractérisons la classe de PDM pour laquelle l'algorithme d'identification peut s'arrêter en temps fini. Cette classe correspond aux PDM ayant une politique Bellman optimale unique et ne dépend pas de l'ordre d'optimalité considéré. Enfin, nous fournissons une règle d'arrêt traitable qui, lorsqu'elle est couplée à notre algorithme d'apprentissage, se déclenche en temps fini chaque fois que c'est possible.
Le problème central étudié dans cet article est celui de l'identifiabilité de l'apprentissage de politiques optimales d'ordre supérieur dans les processus de décision markoviens. Plus précisément :
Limitations de l'optimalité du gain moyen traditionnel : Dans les PDM, l'optimalité du gain moyen traditionnel ne se concentre que sur la performance asymptotique à long terme, en ignorant l'importance des récompenses instantanées à court terme.
Hiérarchie d'optimalités d'ordre supérieur : De l'optimalité du gain à l'optimalité biaisée, puis à l'optimalité de Blackwell, formant une hiérarchie complète d'optimalités, où chaque niveau considère des différences de performance plus nuancées.
Difficultés d'apprentissage : L'article démontre par un exemple simple mais profond (Figure 1) que même dans les cas les plus simples, l'apprentissage de politiques optimales d'ordre supérieur fait face à des difficultés fondamentales.
La motivation centrale de l'article provient d'une observation importante : même dans les PDM simples avec un seul paramètre inconnu, l'apprentissage de politiques optimales d'ordre supérieur peut être impossible. Ce phénomène apparemment paradoxal révèle les difficultés essentielles de l'apprentissage d'optimalités d'ordre supérieur.
Échec des méthodes d'apprentissage standard : La sélection empirique de politique optimale ne s'applique plus sous l'optimalité d'ordre supérieur
Limitations des tests statistiques : Impossibilité de déterminer la valeur exacte des paramètres par des tests statistiques (par exemple, θ=0)
Problèmes de discontinuité : La discontinuité de l'ensemble des politiques optimales dans l'espace des paramètres entraîne des difficultés d'apprentissage
Construction de l'algorithme cohérent HOPE : Pour chaque ordre d'optimalité n≥-1, nous proposons l'algorithme Higher Order Policy iteration Epsilonized (HOPE), qui possède une probabilité d'erreur qui s'annule.
Caractérisation complète de la classe de PDM non dégénérés : Nous prouvons qu'un PDM est non dégénéré (c'est-à-dire que l'algorithme d'identification peut s'arrêter en temps fini) si et seulement s'il possède une politique Bellman optimale unique.
Théorème d'effondrement de la dégénérescence : Nous prouvons que la classe de PDM non dégénérés pour tous les ordres d'optimalité (de l'optimalité du gain à l'optimalité de Blackwell) est exactement la même, ce qui est un résultat surprenant.
Fourniture d'une règle d'arrêt calculable : Nous donnons une règle d'arrêt traitable qui permet à l'algorithme HOPE de s'arrêter en temps fini chaque fois que c'est possible.
Entrée : PDM communicant inconnu M = (Z, ν, p), où Z est l'espace des paires état-action, ν est la fonction de récompense, p est le noyau de transition
Sortie : Politique n-optimale π ∈ Π*_n(M)
Objectif : Construire un algorithme d'identification tel que la probabilité d'erreur de la politique recommandée tende vers 0
L'itération de politique traditionnelle exige de satisfaire exactement l'équation de Bellman, ce qui est impossible dans un environnement d'apprentissage. HOPI permet à l'algorithme de fonctionner correctement sous bruit en introduisant un paramètre de relâchement ε.
Proposition 5 : Pour toute politique Bellman optimale à chaîne unique π et précision ε > 0, il existe M' ∈ M tel que d_∞(M,M') < ε et π est l'unique politique Bellman optimale de M'.
Cette technique est réalisée en deux étapes :
D'abord, rendre π l'unique politique Bellman optimale en pénalisant les actions non optimales
Ensuite, rendre π l'unique politique gain-optimale par transformation ergodique
Si M est non dégénéré, alors il existe une politique π ∈ Π*(M) qui reste optimale dans le voisinage de M. La preuve utilise la continuité des décisions de l'algorithme.
En construisant une règle d'arrêt explicite et des intervalles de confiance, nous prouvons que les PDM ayant une politique Bellman optimale unique sont effectivement non dégénérés.
Cet article est principalement un travail théorique, vérifiant tous les résultats principaux par des preuves mathématiques rigoureuses. Les vérifications clés incluent :
Correction de l'algorithme : Prouver que HOPI retourne l'ensemble correct de politiques optimales en l'absence de bruit
Garanties de cohérence : Prouver que la probabilité d'erreur de l'algorithme HOPE tend effectivement vers 0
Efficacité de la règle d'arrêt : Prouver que la règle d'arrêt proposée se déclenche effectivement en temps fini
Complexité temporelle : La complexité temporelle pour déterminer l'unicité de la politique Bellman optimale est O(|Z| + |S|^4)
Complexité d'échantillonnage : Bien que l'article ne fournisse pas de limite précise de complexité d'échantillonnage, il prouve que l'algorithme converge nécessairement dans le cas non dégénéré
Lié au problème d'identification du bras optimal dans les bandits multi-bras, mais la dépendance d'état dans le cadre des PDM rend le problème plus complexe.
Travaux récents sur l'identification de politiques gain-optimales dans le cadre (ε,δ)-PAC, mais ces travaux se concentrent principalement sur l'optimalité approximative plutôt que sur l'optimalité exacte.
Grand-Clément et Petrik (2023) et autres étudient la complexité de calcul des politiques Blackwell optimales basée sur la définition historique du facteur d'actualisation.
Boone et Gaujal (2023) étudient l'apprentissabilité des politiques Blackwell optimales dans les PDM à transitions déterministes, et cet article généralise ces résultats au cas stochastique.
L'optimalité de Bellman est une limitation fondamentale : L'apprentissabilité de toutes les optimalités d'ordre supérieur se réduit à l'unicité de l'optimalité de Bellman
Universalité de la dégénérescence : La classe de PDM dégénérés pour différents ordres d'optimalité est exactement la même
Existence d'algorithmes : Malgré les difficultés, des algorithmes cohérents existent effectivement
L'article cite des travaux importants dans les domaines des processus de décision markoviens et de l'apprentissage par renforcement, notamment :
Puterman (1994) : Manuel classique sur les processus de décision markoviens
Blackwell (1962) : Définition originale de l'optimalité de Blackwell
Kaufmann et al. (2016) : Théorie de la complexité de l'identification du bras optimal
Boone et Gaujal (2023) : Apprentissabilité de l'optimalité de Blackwell dans les PDM déterministes
Cet article révèle par une analyse théorique rigoureuse un phénomène fondamental et profond de l'apprentissage par renforcement : la difficulté d'apprentissage des optimalités d'ordre supérieur est entièrement déterminée par la structure de l'optimalité de Bellman. Ce résultat non seulement possède une importance théorique significative, mais fournit également des orientations importantes pour la conception d'algorithmes pratiques.