Although average gain optimality is a commonly adopted performance measure in Markov Decision Processes (MDPs), it is often too asymptotic. Further incorporating measures of immediate losses leads to the hierarchy of bias optimalities, all the way up to Blackwell optimality. In this paper, we investigate the problem of identifying policies of such optimality orders. To that end, for each order, we construct a learning algorithm with vanishing probability of error. Furthermore, we characterize the class of MDPs for which identification algorithms can stop in finite time. That class corresponds to the MDPs with a unique Bellman optimal policy, and does not depend on the optimality order considered. Lastly, we provide a tractable stopping rule that when coupled to our learning algorithm triggers in finite time whenever it is possible to do so.
論文ID : 2510.13476タイトル : Towards Blackwell Optimality: Bellman Optimality Is All You Can Get著者 : Victor Boone (グルノーブル・アルプス大学、Inria、CNRS、グルノーブルINP、LIG & IRIT、トゥールーズ大学)、Adrienne Tuynman (リール大学、Inria、CNRS、セントラル・リール、UMR 9189-CRIStAL)分類 : cs.LG (機械学習)発表日 : 2025年10月15日 (arXiv プレプリント)論文リンク : https://arxiv.org/abs/2510.13476v1 平均利得最適性はマルコフ決定過程(MDP)における一般的な性能指標ですが、その性質は本質的に漸近的です。即時損失の測定を組み合わせることで、偏差最適性の階層構造が生じ、ブラックウェル最適性に至ります。本論文は、このような最適性階数の政策を識別する問題を研究しています。この目的のため、各階数に対して、消失する誤り確率を持つ学習アルゴリズムを構築しました。さらに、識別アルゴリズムが有限時間内に停止できるMDPのクラスを特性化しました。このクラスは、唯一のベルマン最適政策を持つMDPに対応し、考慮される最適性階数に依存しません。最後に、我々の学習アルゴリズムと組み合わせた場合、可能な限り有限時間内に発動する扱いやすい停止規則を提供します。
本論文の研究の中核となる問題は、マルコフ決定過程における高階最適政策の学習可識別性の問題です。具体的には:
従来の平均利得最適性の限界 :MDPにおいて、従来の平均利得最適性は長期的な漸近性能のみに焦点を当て、短期的な即時報酬の重要性を無視しています。高階最適性の階層構造 :利得最適性からバイアス最適性を経由してブラックウェル最適性に至るまで、完全な最適性階層構造が形成され、各階層はより細かい性能差異を考慮しています。学習の困難性 :論文は単純な例(図1)を通じて、最も単純な場合でさえ、高階最適政策の学習が根本的な困難に直面していることを示しています。論文の中核的な動機は、重要な観察に由来しています:単一の未知パラメータのみを持つ単純なMDPでさえ、高階最適政策の学習は不可能である可能性があります 。この一見矛盾した現象は、高階最適性学習の本質的な困難性を明らかにしています。
標準学習手法の失効 :従来の経験的最適政策選択は高階最適性では適用不可能になります統計検定の限界 :パラメータの正確な値(例えばθ=0)を統計検定で決定することはできません不連続性の問題 :パラメータ空間における最適政策集合の不連続性が学習の困難性をもたらします一貫性アルゴリズムHOPEの構築 :各最適性階数n≥-1に対して、消失する誤り確率を持つHOPE(Higher Order Policy iteration Epsilonized)アルゴリズムを提案しました。非退化MDPクラスの完全な特性化 :MDPが非退化である(すなわち、識別アルゴリズムが有限時間内に停止できる)ことは、当且つのみ当該MDPが唯一のベルマン最適政策を持つことと同値であることを証明しました。退化性崩壊定理 :すべての最適性階数(利得最適性からブラックウェル最適性まで)における非退化MDPのクラスが完全に同一であることを証明しました。これは驚くべき結果です。計算可能な停止規則の提供 :HOPEアルゴリズムが可能な場合に有限時間内に停止できるようにする扱いやすい停止規則を提供しました。入力 :未知の通信MDP M = (Z, ν, p)。ここでZは状態-行動対空間、νは報酬関数、pは遷移核です
出力 :n階最適政策π ∈ Π*_n(M)
目標 :推奨政策の誤り確率が0に収束するような識別アルゴリズムを構築すること
入力:所望の最適性階数 n ≥ -1
初期化:t ← 0
ループ:
1. 経験的MDP M̂_t を構築
2. ε ← t^(-1/4) を設定
3. ∏_s A_n(s) ← HOPI_{n,ε}(M̂_t) を計算
4. ∏_s A_n(s) 内の任意の政策を推奨
5. 行動を均一にサンプリングし、報酬と次状態を観察
6. t ← t + 1
HOPIは高階政策反復の「イプシロン化」版であり、主要な革新は以下の通りです:
ソフトargmax操作 :正確なベルマン方程式制約 Δ^π_m(s,a) = 0 を Δ^π_m(s,a) ≤ ε に緩和二段階政策改善 :第一段階:既知のm-1階最適行動の中からm+1階改善を探索 第二段階:さらにm+2階最適性に細分化 段階的精度制御 :ε_t = t^(-1/4) を選択してアルゴリズムの一貫性を確保従来の政策反復はベルマン方程式の正確な満足を要求しますが、学習環境ではこれは不可能です。HOPIは緩和パラメータεを導入することで、ノイズ環境下でアルゴリズムが正しく機能することを可能にします。
命題5 :任意の単一鎖ベルマン最適政策πと精度ε > 0に対して、M' ∈ M が存在して d_∞(M,M') < ε かつπはM'の唯一の利得最適政策です。
この技術は二段階で実現されます:
最初に非最適行動にペナルティを課すことでπを唯一のベルマン最適政策にする その後、遍歴変換によってπを唯一の利得最適政策にする 閾値関数を定義します:
β(M) := min{d_min(Δ*)/((1+4α)(2+sp(b*))), 1/α}
ここでαは最悪到達時間であり、この閾値は近傍半径の正確な測定値を提供します。
すべてのn ≥ -1に対して、HOPE(n)アルゴリズムはΠ*_nに対して一貫しています。
n ≥ -1とします。MDPMがΠ*_n(M)に対して非退化であることは、当且つのみ当該MDPが唯一のベルマン最適政策を持つことと同値です。
Π_{-1}, Π 0, Π_1, ..., Π ∞に対する退化モデル集合は完全に同一です。
Mが非退化であれば、政策π ∈ Π*(M)が存在してMの近傍内で最適性を保持します。証明はアルゴリズム決定の連続性を使用しています。
明示的な停止規則と信頼区間を構築することで、唯一のベルマン最適政策を持つMDPが実際に非退化であることを証明します。
本論文は主に理論的研究であり、厳密な数学的証明を通じてすべての主要な結果を検証しています。主要な検証には以下が含まれます:
アルゴリズムの正確性 :HOPIがノイズのない場合に正しい最適政策集合を返すことを証明一貫性保証 :HOPEアルゴリズムの誤り確率が実際に0に収束することを証明停止規則の有効性 :提案された停止規則が実際に有限時間内に発動することを証明時間計算量 :ベルマン最適政策の唯一性を判定する時間計算量はO(|Z| + |S|^4)サンプル計算量 :論文は正確なサンプル計算量界を提供していませんが、非退化の場合にアルゴリズムが必ず収束することを証明しています多腕バンディット問題における最適腕識別問題と関連していますが、MDP設定における状態依存性により問題がより複雑になります。
(ε,δ)-PAC設定における利得最適政策の識別に関する最近の研究ですが、これらの研究は主に近似最適性ではなく正確な最適性に焦点を当てています。
Grand-Clément と Petrik (2023)などによる割引因子の履歴定義に基づくブラックウェル最適政策の計算複雑性の研究。
Boone と Gaujal (2023)は決定論的遷移MDPにおけるブラックウェル最適政策の学習可能性を研究し、本論文はこれを確率的な場合に一般化しています。
ベルマン最適性は根本的な制限 :すべての高階最適性の学習可能性はベルマン最適性の唯一性に帰着します退化性の普遍性 :異なる最適性階数の退化MDPのクラスは完全に同一ですアルゴリズムの存在性 :困難に直面しているにもかかわらず、一貫性アルゴリズムは実際に存在しますPAC設定の欠落 :論文は主に正確な最適性に焦点を当てており、近似最適性の学習には対応していませんサンプル計算量界 :正確なサンプル計算量分析が提供されていません実用的応用 :理論的結果は実際の問題への応用を制限する可能性がありますPAC枠組みの拡張 :近似最適政策の学習を研究することサンプル計算量分析 :正確なサンプル計算量界を確立することアルゴリズムの最適化 :HOPEアルゴリズムの実用的性能を改善すること理論的深さ :高階最適性学習問題の完全な理論的特性化を提供結果の意外性 :退化性崩壊定理は驚くべきかつ深い結果です技術的革新 :破砕技術とソフトargmax政策反復は技術的革新性を示しています明確な記述 :論文の構造は明確で、数学的証明は厳密です実用性の制限 :理論的結果は、ほとんどの実用的MDPが退化している可能性があることを示唆しています計算複雑性 :多項式時間アルゴリズムが提供されていますが、定数が大きい可能性があります実験検証の欠落 :純粋な理論的研究として、実験的検証が欠けています理論的貢献 :強化学習理論に重要な負の結果をもたらします方法的示唆 :破砕技術は他の問題での応用の可能性があります研究方向 :後続研究にPAC設定の重要性を指し示します理論研究 :強化学習理論研究に重要な参考を提供アルゴリズム設計 :実用的な政策学習アルゴリズムの設計に理論的指導を提供問題分析 :MDP構造が学習難度に与える影響の理解を支援論文は強化学習とマルコフ決定過程分野の重要な文献を引用しており、以下を含みます:
Puterman (1994): マルコフ決定過程の古典的教科書 Blackwell (1962): ブラックウェル最適性の原始定義 Kaufmann et al. (2016): 最適腕識別の複雑性理論 Boone and Gaujal (2023): 決定論的MDPにおけるブラックウェル最適性の学習可能性 本論文は厳密な理論分析を通じて、強化学習における基本的かつ深い現象を明らかにしています:高階最適性の学習難度は完全にベルマン最適性の構造によって決定されるということです。この結果は重要な理論的意義を持つだけでなく、実用的なアルゴリズム設計にも重要な指導を提供します。