This paper is concerned with stochastic linear quadratic (LQ, for short) optimal control problems in an infinite horizon with conditional mean-field term in a switching regime environment. The orthogonal decomposition introduced in [21] has been adopted. Desired algebraic Riccati equations (AREs, for short) and a system of backward stochastic differential equations (BSDEs, for short) in infinite time horizon with the coefficients depending on the Markov chain have been derived. The determination of closed-loop optimal strategy follows from the solvability of ARE and BSDE. Moreover, the solvability of BSDEs leads to a characterization of open-loop solvability of the optimal control problem.
論文ID : 2501.00981タイトル : Linear-Quadratic Optimal Control for Mean-Field Stochastic Differential Equations in Infinite-Horizon with Regime Switching著者 : Hongwei Mei (テキサス工科大学)、Qingmeng Wei (東北師範大学)、Jiongmin Yong (セントラルフロリダ大学)分類 : math.OC (最適化と制御)発表日 : 2025年1月3日論文リンク : https://arxiv.org/abs/2501.00981 本論文は、マルコフ切り替え環境下における条件付き平均場項を有する無限時間領域の確率線形二次(LQ)最適制御問題を研究する。論文は文献21 で導入された直交分解法を採用し、期待される代数Riccati方程式(ARE)と、無限時間領域内でマルコフ連鎖に依存する係数を有する後向き確率微分方程式(BSDE)システムを導出した。閉ループ最適戦略の決定はAREとBSDEの可解性に依存する。さらに、BSDEの可解性は最適制御問題の開ループ可解性の特性化も提供する。
本論文が研究する中核的問題は、マルコフ切り替え環境下における平均場項を有する無限時間領域の確率線形二次最適制御問題である。具体的には:
状態方程式 : n次元制御対象平均場確率微分方程式を考察dX(t) = [A(α(t))X(t) + Ā(α(t))E^α_t[X(t)] + B(α(t))u(t) + B̄(α(t))E^α_t[u(t)] + b(t)]dt
+ [C(α(t))X(t) + C̄(α(t))E^α_t[X(t)] + D(α(t))u(t) + D̄(α(t))E^α_t[u(t)] + σ(t)]dW(t)
目的関数 :J_∞(s,ι,ξ;u(·)) = E∫_s^∞ f(t,α(t),X(t),E^α_t[X(t)],u(t),E^α_t[u(t)])dt
理論的意義 : 古典的LQ制御理論を平均場とマルコフ切り替えの複合状況に拡張実際の応用 : 金融、工学、社会科学における広範な応用、例えばポートフォリオ最適化、ネットワーク制御など技術的課題 : 無限時間領域、平均場項、マルコフ切り替えの組み合わせは顕著な技術的困難をもたらす有限時間領域の制限 : ほとんどの既存研究は有限時間領域に限定マルコフ切り替えの欠如 : 平均場項とマルコフ切り替えを同時に扱う研究は稀安定性条件 : 既存の安定性条件はしばしば過度に厳格で、マルコフ切り替え状況には適用不可新しい安定性理論の確立 : マルコフ切り替え環境下でL²-指数安定性、L²-可積性、散逸性を定義し、それらの等価性を証明代数Riccati方程式の導出 : 配方法を通じてマルコフ連鎖状態に依存するAREシステムを得、その安定化解の存在と一意性を証明無限時間領域BSDE理論の確立 : マルコフ切り替え項を含む無限時間領域BSDEシステムの適切性を証明完全な可解性の特性化 : 閉ループ可解性と開ループ可解性の完全な特性化を提供初期条件(s,ι,ξ) ∈ Dが与えられたとき、最適制御ū(·) ∈ U_ad[s,∞)を求める:
J_∞(s,ι,ξ;ū(·)) = inf_{u(·)∈U_ad[s,∞)} J_∞(s,ι,ξ;u(·))
文献21 の直交分解法を採用し、原問題を2つの直交部分空間上の問題に分解:
投影演算子 : Π₂v(·) = E^α_tv(t) 、Π₁ = I - Π₂分解後の状態方程式 :
dX₁(t) = {A₁(α(t))X₁(t) + B₁(α(t))u₁(t) + b₁(t)}dt + {...}dW(t)
dX₂(t) = {A₂(α(t))X₂(t) + B₂(α(t))u₂(t) + b₂(t)}dt
3つの等価な安定性概念を定義:
定義 3.1 : システムA,Ā,C,C̄ がL²-指数安定であるとは、定数K,δ > 0が存在して:
E|X⁰(t;s,ξ,ι)|² ≤ Ke^{-δ(t-s)}E|ξ|², ∀t ≥ s
命題 3.3 : 以下の条件は等価:
L²-指数安定性 L²-可積性 散逸性 Lyapunov不等式システム(3.7)が正定解を有する 配方法を通じてAREシステムを導出:
Λ[Pₖ(·)](ι) + Pₖ(ι)Aₖ(ι) + Aₖ(ι)ᵀPₖ(ι) + Cₖ(ι)ᵀP₁(ι)Cₖ(ι) + Qₖ(ι)
- [Pₖ(ι)Bₖ(ι) + Cₖ(ι)ᵀP₁(ι)Dₖ(ι) + Sₖ(ι)ᵀ][Rₖ(ι) + Dₖ(ι)ᵀP₁(ι)Dₖ(ι)]⁻¹
·[Bₖ(ι)ᵀPₖ(ι) + Dₖ(ι)ᵀP₁(ι)Cₖ(ι) + Sₖ(ι)] = 0
以下のBSDEシステムの適切性理論を確立:
dY₁ = -[(A₁^{Θ₁})ᵀY₁ + (C₁^{Θ₁})ᵀΠ₁[Z] + P₁b₁ + (C₁^{Θ₁})ᵀP₁σ₁ + q₁ + Θ₁ᵀr₁]dt + ZdW + Z₁ᴹdM
dY₂ = -[(A₂^{Θ₂})ᵀY₂ + (C₂^{Θ₂})ᵀΠ₂[Z] + P₂b₂ + (C₂^{Θ₂})ᵀP₁σ₂ + q₂ + Θ₂ᵀr₂]dt + Z₂ᴹdM
マルコフ測度理論 : マルコフ連鎖の鞅測度{Mᵢⱼ(·)|ι,j ∈ M}を導入し、切り替え項処理のツールを提供新しい安定化条件 : システムA,Ā,C,C̄;B,B̄,D,D̄ のL²-可安定性が各固定状態ι ∈ M上のシステムの可安定性と等価でないことを証明無限時間領域BSDEの新方法 : 安定性条件が弱いため既存結果を直接適用できず、新しい証明技術を開発本論文は主に理論的研究であり、以下の方法で理論結果を検証:
構成的証明 : 有限時間領域問題の極限過程を通じてAREの解を構成双対検証 : 双対関係を通じてBSDE解の正確性を検証反例構成 : 例3.4と3.8を通じて理論結果の必要性を説明(A1) : 係数の有界性(A2) : 非斉次項の可積性(A3) : 重み行列の正定性条件(A4) : 可安定性条件仮定(A1)-(A4)の下で:
ARE可解性 : 唯一解P₁,P₂: M → Sⁿ₊₊が存在して(Θ₁(·),Θ₂(·)) ∈ SA,Ā,C,C̄;B,B̄,D,D̄ BSDE適切性 : BSDEシステム(5.2)は唯一の適応解を有する最適制御 : 閉ループ最適戦略は:ūₖ = ΘₖXₖ - (Rₖ + Dₖᵀ P₁Dₖ)⁻¹(Bₖᵀ Yₖ + Dₖᵀ Πₖ[Z] + Dₖᵀ P₁σₖ + rₖ)
有限時間領域問題の極限過程を通じて、AREの安定化解の存在と一意性を証明。
任意の(φ₁(·),φ₂(·)) ∈ L²_{F^α}(0,∞;Rⁿ)⊥ × L²_{F^α}(0,∞;Rⁿ)に対して、BSDEシステムは唯一解を有する。
最適対(X̄(·),ū(·))はFBSDEシステムと静的条件の解と等価。
古典的LQ理論 : Bellman-Glicksberg-Gross (1960)、Kalman (1960)、Letov (1960)確率的LQ理論 : Kushner (1960年代)、Wonham (1960年代)不定LQ理論 : Chen-Li-Zhou (1998)、Sun-Yong (2014-2018)平均場LQ理論 : Yong (2013)、Huang-Li-Yong (2015)21 との比較 : 無限時間領域への拡張古典理論との比較 : 平均場項とマルコフ切り替えの導入有限時間領域平均場理論との比較 : 無限時間領域の技術的課題への対処マルコフ切り替え平均場LQ問題の完全な理論フレームワークを確立 閉ループと開ループ可解性の必要十分条件を提供 無限時間領域切り替えBSDEを処理するための新しい方法を開発 正定性仮定 : 現在、重み行列の正定性が必要であり、著者は後続研究でこの仮定を緩和することを認めている有限状態空間 : マルコフ連鎖は有限状態空間に限定線形構造 : 線形システムのみを考察正定性条件を緩和し、不定情形を研究 無限次元情形への拡張 ジャンプ拡散過程の考察 理論的完全性 : 安定性から最適制御までの完全な理論的連鎖を提供技術的革新 : マルコフ切り替え処理のための新しい技術を開発、特に無限時間領域BSDE理論厳密性 : 証明は詳細で厳密、技術処理は規範的実用的価値 : 実際の応用に対する理論的基礎を提供応用検証の欠如 : 純粋な理論研究として、数値実験と実際の応用検証が不足仮定の制限 : 正定性仮定は応用範囲を制限計算複雑性 : AREとBSDEの数値求解方法について未検討学術的貢献 : マルコフ切り替え平均場LQ理論の空白を埋める後続研究 : 関連分野に重要な理論的ツールを提供応用の可能性 : 金融数学、確率制御などの分野で重要な応用前景金融工学 : ポートフォリオ最適化、リスク管理工学制御 : ネットワーク制御システム、マルチエージェントシステム社会科学 : 人口動態、経済モデル論文は関連文献41篇を引用し、LQ制御理論の主要な発展経路をカバーしており、特に:
30 SunとYongの確率的LQ理論専著21 Mei-Wei-Yongの有限時間領域平均場LQ問題に関する先行研究5 Chen-Li-Zhouの不定LQ問題に関する開拓的研究総合評価 : これは高品質な理論論文であり、マルコフ切り替え平均場確率制御理論において重要な貢献をしている。論文の技術処理は厳密で、理論結果は完全であり、この分野のさらなる発展のための堅固な基礎を提供している。数値検証が不足しているものの、その理論的価値と応用の可能性により、この分野の重要な進展となっている。