2025-11-20T13:28:14.804433

Towards Blackwell Optimality: Bellman Optimality Is All You Can Get

Boone, Tuynman

Although average gain optimality is a commonly adopted performance measure in Markov Decision Processes (MDPs), it is often too asymptotic. Further incorporating measures of immediate losses leads to the hierarchy of bias optimalities, all the way up to Blackwell optimality. In this paper, we investigate the problem of identifying policies of such optimality orders. To that end, for each order, we construct a learning algorithm with vanishing probability of error. Furthermore, we characterize the class of MDPs for which identification algorithms can stop in finite time. That class corresponds to the MDPs with a unique Bellman optimal policy, and does not depend on the optimality order considered. Lastly, we provide a tractable stopping rule that when coupled to our learning algorithm triggers in finite time whenever it is possible to do so.

academic

Vers l'optimalité de Blackwell : L'optimalité de Bellman est tout ce que vous pouvez obtenir

Informations de base

ID de l'article : 2510.13476
Titre : Towards Blackwell Optimality: Bellman Optimality Is All You Can Get
Auteurs : Victor Boone (Univ. Grenoble Alpes, Inria, CNRS, Grenoble INP, LIG & IRIT, Université de Toulouse), Adrienne Tuynman (Univ. Lille, Inria, CNRS, Centrale Lille, UMR 9189-CRIStAL)
Classification : cs.LG (Apprentissage automatique)
Date de publication : 15 octobre 2025 (prépublication arXiv)
Lien de l'article : https://arxiv.org/abs/2510.13476v1

Résumé

Bien que l'optimalité du gain moyen soit une mesure de performance couramment utilisée dans les processus de décision markoviens (PDM), elle est souvent trop asymptotique. L'incorporation supplémentaire de mesures de perte instantanée a conduit à une hiérarchie d'optimalités biaisées, jusqu'à l'optimalité de Blackwell. Cet article étudie le problème de l'identification des politiques d'ordre d'optimalité de ce type. À cette fin, pour chaque ordre, nous construisons un algorithme d'apprentissage avec une probabilité d'erreur qui s'annule. De plus, nous caractérisons la classe de PDM pour laquelle l'algorithme d'identification peut s'arrêter en temps fini. Cette classe correspond aux PDM ayant une politique Bellman optimale unique et ne dépend pas de l'ordre d'optimalité considéré. Enfin, nous fournissons une règle d'arrêt traitable qui, lorsqu'elle est couplée à notre algorithme d'apprentissage, se déclenche en temps fini chaque fois que c'est possible.

Contexte et motivation de la recherche

Définition du problème

Le problème central étudié dans cet article est celui de l'identifiabilité de l'apprentissage de politiques optimales d'ordre supérieur dans les processus de décision markoviens. Plus précisément :

Limitations de l'optimalité du gain moyen traditionnel : Dans les PDM, l'optimalité du gain moyen traditionnel ne se concentre que sur la performance asymptotique à long terme, en ignorant l'importance des récompenses instantanées à court terme.
Hiérarchie d'optimalités d'ordre supérieur : De l'optimalité du gain à l'optimalité biaisée, puis à l'optimalité de Blackwell, formant une hiérarchie complète d'optimalités, où chaque niveau considère des différences de performance plus nuancées.
Difficultés d'apprentissage : L'article démontre par un exemple simple mais profond (Figure 1) que même dans les cas les plus simples, l'apprentissage de politiques optimales d'ordre supérieur fait face à des difficultés fondamentales.

Motivation de la recherche

La motivation centrale de l'article provient d'une observation importante : même dans les PDM simples avec un seul paramètre inconnu, l'apprentissage de politiques optimales d'ordre supérieur peut être impossible. Ce phénomène apparemment paradoxal révèle les difficultés essentielles de l'apprentissage d'optimalités d'ordre supérieur.

Limitations des approches existantes

Échec des méthodes d'apprentissage standard : La sélection empirique de politique optimale ne s'applique plus sous l'optimalité d'ordre supérieur
Limitations des tests statistiques : Impossibilité de déterminer la valeur exacte des paramètres par des tests statistiques (par exemple, θ=0)
Problèmes de discontinuité : La discontinuité de l'ensemble des politiques optimales dans l'espace des paramètres entraîne des difficultés d'apprentissage

Contributions principales

Construction de l'algorithme cohérent HOPE : Pour chaque ordre d'optimalité n≥-1, nous proposons l'algorithme Higher Order Policy iteration Epsilonized (HOPE), qui possède une probabilité d'erreur qui s'annule.
Caractérisation complète de la classe de PDM non dégénérés : Nous prouvons qu'un PDM est non dégénéré (c'est-à-dire que l'algorithme d'identification peut s'arrêter en temps fini) si et seulement s'il possède une politique Bellman optimale unique.
Théorème d'effondrement de la dégénérescence : Nous prouvons que la classe de PDM non dégénérés pour tous les ordres d'optimalité (de l'optimalité du gain à l'optimalité de Blackwell) est exactement la même, ce qui est un résultat surprenant.
Fourniture d'une règle d'arrêt calculable : Nous donnons une règle d'arrêt traitable qui permet à l'algorithme HOPE de s'arrêter en temps fini chaque fois que c'est possible.

Détails de la méthode

Définition de la tâche

Entrée : PDM communicant inconnu M = (Z, ν, p), où Z est l'espace des paires état-action, ν est la fonction de récompense, p est le noyau de transition Sortie : Politique n-optimale π ∈ Π*_n(M) Objectif : Construire un algorithme d'identification tel que la probabilité d'erreur de la politique recommandée tende vers 0

Architecture de l'algorithme principal

Algorithme HOPE (Algorithme 1)

Entrée : Ordre d'optimalité souhaité n ≥ -1
Initialisation : t ← 0
Boucle :
    1. Construire le PDM empirique M̂_t
    2. Définir ε ← t^(-1/4)
    3. Calculer ∏_s A_n(s) ← HOPI_{n,ε}(M̂_t)
    4. Recommander toute politique dans ∏_s A_n(s)
    5. Échantillonner uniformément une action, observer la récompense et l'état suivant
    6. t ← t + 1

Idée centrale de l'algorithme HOPI

HOPI est une version « épsilonisée » de l'itération de politique d'ordre supérieur, dont l'innovation clé réside dans :

Opération d'argmax souple : Relâcher la contrainte d'équation de Bellman exacte Δ^π_m(s,a) = 0 en Δ^π_m(s,a) ≤ ε
Amélioration de politique en deux étapes :
- Première étape : Chercher une amélioration m+1-optimale parmi les actions m-1-optimales connues
- Deuxième étape : Affiner davantage vers l'optimalité m+2
Contrôle de précision progressif : Choisir ε_t = t^(-1/4) pour assurer la cohérence de l'algorithme

Points d'innovation technique

1. Itération de politique sous bruit

L'itération de politique traditionnelle exige de satisfaire exactement l'équation de Bellman, ce qui est impossible dans un environnement d'apprentissage. HOPI permet à l'algorithme de fonctionner correctement sous bruit en introduisant un paramètre de relâchement ε.

2. Technique de fragmentation (Shattering)

Proposition 5 : Pour toute politique Bellman optimale à chaîne unique π et précision ε > 0, il existe M' ∈ M tel que d_∞(M,M') < ε et π est l'unique politique Bellman optimale de M'.

Cette technique est réalisée en deux étapes :

D'abord, rendre π l'unique politique Bellman optimale en pénalisant les actions non optimales
Ensuite, rendre π l'unique politique gain-optimale par transformation ergodique

3. Conception de la règle d'arrêt

Définir la fonction de seuil :

β(M) := min{d_min(Δ*)/((1+4α)(2+sp(b*))), 1/α}

où α est le pire temps d'atteinte, ce seuil fournit une mesure précise du rayon du voisinage.

Résultats théoriques

Théorèmes principaux

Théorème 1 (Cohérence)

Pour tous n ≥ -1, l'algorithme HOPE(n) est cohérent pour Π*_n.

Théorème 2 (Caractérisation de la non-dégénérescence)

Soit n ≥ -1. Un PDM M est non dégénéré par rapport à Π*_n(M) si et seulement si M possède une politique Bellman optimale unique.

Corollaire 3 (Effondrement de la dégénérescence)

L'ensemble des modèles dégénérés par rapport à Π_{-1}, Π0, Π_1, ..., Π∞ est exactement le même.

Stratégie de preuve

Nécessité de la non-dégénérescence (Théorème 4)

Si M est non dégénéré, alors il existe une politique π ∈ Π*(M) qui reste optimale dans le voisinage de M. La preuve utilise la continuité des décisions de l'algorithme.

Suffisance (Théorèmes 10-11)

En construisant une règle d'arrêt explicite et des intervalles de confiance, nous prouvons que les PDM ayant une politique Bellman optimale unique sont effectivement non dégénérés.

Configuration expérimentale et résultats

Vérification théorique

Cet article est principalement un travail théorique, vérifiant tous les résultats principaux par des preuves mathématiques rigoureuses. Les vérifications clés incluent :

Correction de l'algorithme : Prouver que HOPI retourne l'ensemble correct de politiques optimales en l'absence de bruit
Garanties de cohérence : Prouver que la probabilité d'erreur de l'algorithme HOPE tend effectivement vers 0
Efficacité de la règle d'arrêt : Prouver que la règle d'arrêt proposée se déclenche effectivement en temps fini

Analyse de complexité

Complexité temporelle : La complexité temporelle pour déterminer l'unicité de la politique Bellman optimale est O(|Z| + |S|^4)
Complexité d'échantillonnage : Bien que l'article ne fournisse pas de limite précise de complexité d'échantillonnage, il prouve que l'algorithme converge nécessairement dans le cas non dégénéré

Travaux connexes

Identification du bras optimal

Lié au problème d'identification du bras optimal dans les bandits multi-bras, mais la dépendance d'état dans le cadre des PDM rend le problème plus complexe.

Apprentissage par renforcement à récompense moyenne

Travaux récents sur l'identification de politiques gain-optimales dans le cadre (ε,δ)-PAC, mais ces travaux se concentrent principalement sur l'optimalité approximative plutôt que sur l'optimalité exacte.

Calcul de l'optimalité de Blackwell

Grand-Clément et Petrik (2023) et autres étudient la complexité de calcul des politiques Blackwell optimales basée sur la définition historique du facteur d'actualisation.

Résultats connexes dans les PDM déterministes

Boone et Gaujal (2023) étudient l'apprentissabilité des politiques Blackwell optimales dans les PDM à transitions déterministes, et cet article généralise ces résultats au cas stochastique.

Conclusion et discussion

Conclusions principales

L'optimalité de Bellman est une limitation fondamentale : L'apprentissabilité de toutes les optimalités d'ordre supérieur se réduit à l'unicité de l'optimalité de Bellman
Universalité de la dégénérescence : La classe de PDM dégénérés pour différents ordres d'optimalité est exactement la même
Existence d'algorithmes : Malgré les difficultés, des algorithmes cohérents existent effectivement

Limitations

Absence du cadre PAC : L'article se concentre principalement sur l'optimalité exacte, sans aborder l'apprentissage d'optimalité approximative
Limites de complexité d'échantillonnage : Pas d'analyse précise de la complexité d'échantillonnage fournie
Applications pratiques : Les résultats théoriques peuvent limiter l'application aux problèmes pratiques

Directions futures

Extension du cadre PAC : Étudier l'apprentissage de politiques approximativement optimales
Analyse de complexité d'échantillonnage : Établir des limites précises de complexité d'échantillonnage
Optimisation d'algorithme : Améliorer les performances pratiques de l'algorithme HOPE

Évaluation approfondie

Avantages

Profondeur théorique : Fournit une caractérisation théorique complète du problème d'apprentissage d'optimalités d'ordre supérieur
Résultats surprenants : Le théorème d'effondrement de la dégénérescence est un résultat surprenant et profond
Innovation technique : La technique de fragmentation et l'itération de politique avec argmax souple démontrent l'innovation technique
Clarté de la rédaction : La structure de l'article est claire et les preuves mathématiques sont rigoureuses

Insuffisances

Limitations pratiques : Les résultats théoriques suggèrent que la plupart des PDM pratiques peuvent être dégénérés
Complexité de calcul : Bien qu'un algorithme en temps polynomial soit fourni, les constantes peuvent être grandes
Absence de vérification expérimentale : En tant que travail purement théorique, il manque de vérification expérimentale

Impact

Contribution théorique : Fournit un résultat négatif important pour la théorie de l'apprentissage par renforcement
Inspiration méthodologique : La technique de fragmentation peut avoir des applications dans d'autres problèmes
Direction de recherche : Indique l'importance du cadre PAC pour les recherches ultérieures

Scénarios d'application

Recherche théorique : Fournit une référence importante pour la recherche théorique en apprentissage par renforcement
Conception d'algorithmes : Fournit des orientations théoriques pour la conception d'algorithmes pratiques d'apprentissage de politique
Analyse de problèmes : Aide à comprendre l'impact de la structure des PDM sur la difficulté d'apprentissage

Références

L'article cite des travaux importants dans les domaines des processus de décision markoviens et de l'apprentissage par renforcement, notamment :

Puterman (1994) : Manuel classique sur les processus de décision markoviens
Blackwell (1962) : Définition originale de l'optimalité de Blackwell
Kaufmann et al. (2016) : Théorie de la complexité de l'identification du bras optimal
Boone et Gaujal (2023) : Apprentissabilité de l'optimalité de Blackwell dans les PDM déterministes

Cet article révèle par une analyse théorique rigoureuse un phénomène fondamental et profond de l'apprentissage par renforcement : la difficulté d'apprentissage des optimalités d'ordre supérieur est entièrement déterminée par la structure de l'optimalité de Bellman. Ce résultat non seulement possède une importance théorique significative, mais fournit également des orientations importantes pour la conception d'algorithmes pratiques.