2025-11-21T18:34:22.859424

Linear-Quadratic Optimal Control for Mean-Field Stochastic Differential Equations in Infinite-Horizon with Regime Switching

Mei, Wei, Yong
This paper is concerned with stochastic linear quadratic (LQ, for short) optimal control problems in an infinite horizon with conditional mean-field term in a switching regime environment. The orthogonal decomposition introduced in [21] has been adopted. Desired algebraic Riccati equations (AREs, for short) and a system of backward stochastic differential equations (BSDEs, for short) in infinite time horizon with the coefficients depending on the Markov chain have been derived. The determination of closed-loop optimal strategy follows from the solvability of ARE and BSDE. Moreover, the solvability of BSDEs leads to a characterization of open-loop solvability of the optimal control problem.
academic

マルコフ切り替え付き無限時間領域における平均場確率微分方程式の線形二次最適制御

基本情報

  • 論文ID: 2501.00981
  • タイトル: Linear-Quadratic Optimal Control for Mean-Field Stochastic Differential Equations in Infinite-Horizon with Regime Switching
  • 著者: Hongwei Mei (テキサス工科大学)、Qingmeng Wei (東北師範大学)、Jiongmin Yong (セントラルフロリダ大学)
  • 分類: math.OC (最適化と制御)
  • 発表日: 2025年1月3日
  • 論文リンク: https://arxiv.org/abs/2501.00981

要旨

本論文は、マルコフ切り替え環境下における条件付き平均場項を有する無限時間領域の確率線形二次(LQ)最適制御問題を研究する。論文は文献21で導入された直交分解法を採用し、期待される代数Riccati方程式(ARE)と、無限時間領域内でマルコフ連鎖に依存する係数を有する後向き確率微分方程式(BSDE)システムを導出した。閉ループ最適戦略の決定はAREとBSDEの可解性に依存する。さらに、BSDEの可解性は最適制御問題の開ループ可解性の特性化も提供する。

研究背景と動機

問題定義

本論文が研究する中核的問題は、マルコフ切り替え環境下における平均場項を有する無限時間領域の確率線形二次最適制御問題である。具体的には:

  1. 状態方程式: n次元制御対象平均場確率微分方程式を考察
    dX(t) = [A(α(t))X(t) + Ā(α(t))E^α_t[X(t)] + B(α(t))u(t) + B̄(α(t))E^α_t[u(t)] + b(t)]dt
           + [C(α(t))X(t) + C̄(α(t))E^α_t[X(t)] + D(α(t))u(t) + D̄(α(t))E^α_t[u(t)] + σ(t)]dW(t)
    
  2. 目的関数:
    J_∞(s,ι,ξ;u(·)) = E∫_s^∞ f(t,α(t),X(t),E^α_t[X(t)],u(t),E^α_t[u(t)])dt
    

研究の重要性

  1. 理論的意義: 古典的LQ制御理論を平均場とマルコフ切り替えの複合状況に拡張
  2. 実際の応用: 金融、工学、社会科学における広範な応用、例えばポートフォリオ最適化、ネットワーク制御など
  3. 技術的課題: 無限時間領域、平均場項、マルコフ切り替えの組み合わせは顕著な技術的困難をもたらす

既存方法の限界

  1. 有限時間領域の制限: ほとんどの既存研究は有限時間領域に限定
  2. マルコフ切り替えの欠如: 平均場項とマルコフ切り替えを同時に扱う研究は稀
  3. 安定性条件: 既存の安定性条件はしばしば過度に厳格で、マルコフ切り替え状況には適用不可

核心的貢献

  1. 新しい安定性理論の確立: マルコフ切り替え環境下でL²-指数安定性、L²-可積性、散逸性を定義し、それらの等価性を証明
  2. 代数Riccati方程式の導出: 配方法を通じてマルコフ連鎖状態に依存するAREシステムを得、その安定化解の存在と一意性を証明
  3. 無限時間領域BSDE理論の確立: マルコフ切り替え項を含む無限時間領域BSDEシステムの適切性を証明
  4. 完全な可解性の特性化: 閉ループ可解性と開ループ可解性の完全な特性化を提供

方法の詳細

タスク定義

初期条件(s,ι,ξ) ∈ Dが与えられたとき、最適制御ū(·) ∈ U_ad[s,∞)を求める:

J_∞(s,ι,ξ;ū(·)) = inf_{u(·)∈U_ad[s,∞)} J_∞(s,ι,ξ;u(·))

核心的方法アーキテクチャ

1. 直交分解技術

文献21の直交分解法を採用し、原問題を2つの直交部分空間上の問題に分解:

  • 投影演算子: Π₂v(·) = E^α_tv(t)、Π₁ = I - Π₂
  • 分解後の状態方程式:
    dX₁(t) = {A₁(α(t))X₁(t) + B₁(α(t))u₁(t) + b₁(t)}dt + {...}dW(t)
    dX₂(t) = {A₂(α(t))X₂(t) + B₂(α(t))u₂(t) + b₂(t)}dt
    

2. 安定性分析

3つの等価な安定性概念を定義:

定義 3.1: システムA,Ā,C,C̄がL²-指数安定であるとは、定数K,δ > 0が存在して:

E|X⁰(t;s,ξ,ι)|² ≤ Ke^{-δ(t-s)}E|ξ|², ∀t ≥ s

命題 3.3: 以下の条件は等価:

  • L²-指数安定性
  • L²-可積性
  • 散逸性
  • Lyapunov不等式システム(3.7)が正定解を有する

3. 代数Riccati方程式

配方法を通じてAREシステムを導出:

Λ[Pₖ(·)](ι) + Pₖ(ι)Aₖ(ι) + Aₖ(ι)ᵀPₖ(ι) + Cₖ(ι)ᵀP₁(ι)Cₖ(ι) + Qₖ(ι)
- [Pₖ(ι)Bₖ(ι) + Cₖ(ι)ᵀP₁(ι)Dₖ(ι) + Sₖ(ι)ᵀ][Rₖ(ι) + Dₖ(ι)ᵀP₁(ι)Dₖ(ι)]⁻¹
  ·[Bₖ(ι)ᵀPₖ(ι) + Dₖ(ι)ᵀP₁(ι)Cₖ(ι) + Sₖ(ι)] = 0

4. 無限時間領域BSDEシステム

以下のBSDEシステムの適切性理論を確立:

dY₁ = -[(A₁^{Θ₁})ᵀY₁ + (C₁^{Θ₁})ᵀΠ₁[Z] + P₁b₁ + (C₁^{Θ₁})ᵀP₁σ₁ + q₁ + Θ₁ᵀr₁]dt + ZdW + Z₁ᴹdM
dY₂ = -[(A₂^{Θ₂})ᵀY₂ + (C₂^{Θ₂})ᵀΠ₂[Z] + P₂b₂ + (C₂^{Θ₂})ᵀP₁σ₂ + q₂ + Θ₂ᵀr₂]dt + Z₂ᴹdM

技術的革新点

  1. マルコフ測度理論: マルコフ連鎖の鞅測度{Mᵢⱼ(·)|ι,j ∈ M}を導入し、切り替え項処理のツールを提供
  2. 新しい安定化条件: システムA,Ā,C,C̄;B,B̄,D,D̄のL²-可安定性が各固定状態ι ∈ M上のシステムの可安定性と等価でないことを証明
  3. 無限時間領域BSDEの新方法: 安定性条件が弱いため既存結果を直接適用できず、新しい証明技術を開発

実験設定

理論検証

本論文は主に理論的研究であり、以下の方法で理論結果を検証:

  1. 構成的証明: 有限時間領域問題の極限過程を通じてAREの解を構成
  2. 双対検証: 双対関係を通じてBSDE解の正確性を検証
  3. 反例構成: 例3.4と3.8を通じて理論結果の必要性を説明

主要仮定

  • (A1): 係数の有界性
  • (A2): 非斉次項の可積性
  • (A3): 重み行列の正定性条件
  • (A4): 可安定性条件

主要な理論結果

定理 5.1 (主要結果)

仮定(A1)-(A4)の下で:

  1. ARE可解性: 唯一解P₁,P₂: M → Sⁿ₊₊が存在して(Θ₁(·),Θ₂(·)) ∈ SA,Ā,C,C̄;B,B̄,D,D̄
  2. BSDE適切性: BSDEシステム(5.2)は唯一の適応解を有する
  3. 最適制御: 閉ループ最適戦略は:
    ūₖ = ΘₖXₖ - (Rₖ + Dₖᵀ P₁Dₖ)⁻¹(Bₖᵀ Yₖ + Dₖᵀ Πₖ[Z] + Dₖᵀ P₁σₖ + rₖ)
    

定理 5.2 (ARE可解性)

有限時間領域問題の極限過程を通じて、AREの安定化解の存在と一意性を証明。

定理 5.3 (BSDE適切性)

任意の(φ₁(·),φ₂(·)) ∈ L²_{F^α}(0,∞;Rⁿ)⊥ × L²_{F^α}(0,∞;Rⁿ)に対して、BSDEシステムは唯一解を有する。

定理 6.1 (開ループ可解性の特性化)

最適対(X̄(·),ū(·))はFBSDEシステムと静的条件の解と等価。

関連研究

歴史的発展

  1. 古典的LQ理論: Bellman-Glicksberg-Gross (1960)、Kalman (1960)、Letov (1960)
  2. 確率的LQ理論: Kushner (1960年代)、Wonham (1960年代)
  3. 不定LQ理論: Chen-Li-Zhou (1998)、Sun-Yong (2014-2018)
  4. 平均場LQ理論: Yong (2013)、Huang-Li-Yong (2015)

本論文の関連研究に対する貢献

  1. 21との比較: 無限時間領域への拡張
  2. 古典理論との比較: 平均場項とマルコフ切り替えの導入
  3. 有限時間領域平均場理論との比較: 無限時間領域の技術的課題への対処

結論と考察

主要な結論

  1. マルコフ切り替え平均場LQ問題の完全な理論フレームワークを確立
  2. 閉ループと開ループ可解性の必要十分条件を提供
  3. 無限時間領域切り替えBSDEを処理するための新しい方法を開発

限界

  1. 正定性仮定: 現在、重み行列の正定性が必要であり、著者は後続研究でこの仮定を緩和することを認めている
  2. 有限状態空間: マルコフ連鎖は有限状態空間に限定
  3. 線形構造: 線形システムのみを考察

今後の方向

  1. 正定性条件を緩和し、不定情形を研究
  2. 無限次元情形への拡張
  3. ジャンプ拡散過程の考察

深い評価

利点

  1. 理論的完全性: 安定性から最適制御までの完全な理論的連鎖を提供
  2. 技術的革新: マルコフ切り替え処理のための新しい技術を開発、特に無限時間領域BSDE理論
  3. 厳密性: 証明は詳細で厳密、技術処理は規範的
  4. 実用的価値: 実際の応用に対する理論的基礎を提供

不足

  1. 応用検証の欠如: 純粋な理論研究として、数値実験と実際の応用検証が不足
  2. 仮定の制限: 正定性仮定は応用範囲を制限
  3. 計算複雑性: AREとBSDEの数値求解方法について未検討

影響力

  1. 学術的貢献: マルコフ切り替え平均場LQ理論の空白を埋める
  2. 後続研究: 関連分野に重要な理論的ツールを提供
  3. 応用の可能性: 金融数学、確率制御などの分野で重要な応用前景

適用シーン

  1. 金融工学: ポートフォリオ最適化、リスク管理
  2. 工学制御: ネットワーク制御システム、マルチエージェントシステム
  3. 社会科学: 人口動態、経済モデル

参考文献

論文は関連文献41篇を引用し、LQ制御理論の主要な発展経路をカバーしており、特に:

  • 30 SunとYongの確率的LQ理論専著
  • 21 Mei-Wei-Yongの有限時間領域平均場LQ問題に関する先行研究
  • 5 Chen-Li-Zhouの不定LQ問題に関する開拓的研究

総合評価: これは高品質な理論論文であり、マルコフ切り替え平均場確率制御理論において重要な貢献をしている。論文の技術処理は厳密で、理論結果は完全であり、この分野のさらなる発展のための堅固な基礎を提供している。数値検証が不足しているものの、その理論的価値と応用の可能性により、この分野の重要な進展となっている。