2025-11-21T18:34:22.859424

Linear-Quadratic Optimal Control for Mean-Field Stochastic Differential Equations in Infinite-Horizon with Regime Switching

Mei, Wei, Yong
This paper is concerned with stochastic linear quadratic (LQ, for short) optimal control problems in an infinite horizon with conditional mean-field term in a switching regime environment. The orthogonal decomposition introduced in [21] has been adopted. Desired algebraic Riccati equations (AREs, for short) and a system of backward stochastic differential equations (BSDEs, for short) in infinite time horizon with the coefficients depending on the Markov chain have been derived. The determination of closed-loop optimal strategy follows from the solvability of ARE and BSDE. Moreover, the solvability of BSDEs leads to a characterization of open-loop solvability of the optimal control problem.
academic

마르코프 전환을 포함한 무한시간 평균장 확률미분방정식의 선형-이차 최적제어

기본정보

  • 논문ID: 2501.00981
  • 제목: Linear-Quadratic Optimal Control for Mean-Field Stochastic Differential Equations in Infinite-Horizon with Regime Switching
  • 저자: Hongwei Mei (Texas Tech University), Qingmeng Wei (Northeast Normal University), Jiongmin Yong (University of Central Florida)
  • 분류: math.OC (최적화 및 제어)
  • 발표일시: 2025년 1월 3일
  • 논문링크: https://arxiv.org/abs/2501.00981

초록

본 논문은 마르코프 전환 환경에서 조건부 평균장항을 포함하는 무한시간 확률 선형-이차(LQ) 최적제어 문제를 연구한다. 논문은 문헌21에서 도입된 직교분해 방법을 채택하여, 기댓값 대수 리카티 방정식(ARE)과 무한시간 내에서 계수가 마르코프 연쇄에 의존하는 후진 확률미분방정식(BSDE) 시스템을 유도한다. 폐루프 최적 전략의 결정은 ARE와 BSDE의 가해성에 의존한다. 또한 BSDE의 가해성은 최적제어 문제의 개루프 가해성에 대한 특성화를 제공한다.

연구 배경 및 동기

문제 정의

본 논문이 연구하는 핵심 문제는 마르코프 전환 환경에서 평균장항을 포함하는 무한시간 확률 선형-이차 최적제어 문제이다. 구체적으로:

  1. 상태방정식: n차원 제어된 평균장 확률미분방정식을 고려
    dX(t) = [A(α(t))X(t) + Ā(α(t))E^α_t[X(t)] + B(α(t))u(t) + B̄(α(t))E^α_t[u(t)] + b(t)]dt
           + [C(α(t))X(t) + C̄(α(t))E^α_t[X(t)] + D(α(t))u(t) + D̄(α(t))E^α_t[u(t)] + σ(t)]dW(t)
    
  2. 목적함수:
    J_∞(s,ι,ξ;u(·)) = E∫_s^∞ f(t,α(t),X(t),E^α_t[X(t)],u(t),E^α_t[u(t)])dt
    

연구의 중요성

  1. 이론적 의의: 고전 LQ 제어이론을 평균장과 마르코프 전환의 복합 상황으로 확장
  2. 실제 응용: 금융, 공학 및 사회과학에서 광범위한 응용 가능성(예: 포트폴리오 최적화, 네트워크 제어)
  3. 기술적 과제: 무한시간, 평균장항 및 마르코프 전환의 결합으로 인한 상당한 기술적 어려움

기존 방법의 한계

  1. 유한시간 제약: 대부분의 기존 연구는 유한시간 경우에 국한
  2. 마르코프 전환 부재: 평균장항과 마르코프 전환을 동시에 다루는 연구는 드문 편
  3. 안정성 조건: 기존의 안정성 조건은 종종 과도하게 엄격하여 마르코프 전환 경우에 적용 불가능

핵심 기여

  1. 새로운 안정성 이론 수립: 마르코프 전환 환경에서 L²-지수 안정성, L²-적분성 및 산일성을 정의하고 이들의 동치성을 증명
  2. 대수 리카티 방정식 유도: 배방법을 통해 마르코프 연쇄 상태에 의존하는 ARE 시스템을 유도하고 안정화 해의 존재 유일성을 증명
  3. 무한시간 BSDE 이론 수립: 마르코프 전환항을 포함하는 무한시간 BSDE 시스템의 적정성을 증명
  4. 완전한 가해성 특성화: 폐루프 가해성과 개루프 가해성의 완전한 특성화 제공

방법 상세 설명

과제 정의

초기조건 (s,ι,ξ) ∈ D가 주어졌을 때, 최적제어 ū(·) ∈ U_ad[s,∞)를 찾아 다음을 만족하도록 함:

J_∞(s,ι,ξ;ū(·)) = inf_{u(·)∈U_ad[s,∞)} J_∞(s,ι,ξ;u(·))

핵심 방법론 구조

1. 직교분해 기법

문헌21의 직교분해 방법을 채택하여 원래 문제를 두 개의 직교 부분공간 상의 문제로 분해:

  • 사영 연산자: Π₂v(·) = E^α_tv(t), Π₁ = I - Π₂
  • 분해된 상태방정식:
    dX₁(t) = {A₁(α(t))X₁(t) + B₁(α(t))u₁(t) + b₁(t)}dt + {...}dW(t)
    dX₂(t) = {A₂(α(t))X₂(t) + B₂(α(t))u₂(t) + b₂(t)}dt
    

2. 안정성 분석

세 가지 동치 안정성 개념을 정의:

정의 3.1: 시스템 A,Ā,C,C̄는 L²-지수 안정이라 불리며, 상수 K,δ > 0이 존재하여:

E|X⁰(t;s,ξ,ι)|² ≤ Ke^{-δ(t-s)}E|ξ|², ∀t ≥ s

명제 3.3: 다음 조건들은 동치:

  • L²-지수 안정성
  • L²-적분성
  • 산일성
  • 라이아푸노프 부등식 시스템(3.7)이 양정치 해를 가짐

3. 대수 리카티 방정식

배방법을 통해 ARE 시스템을 유도:

Λ[Pₖ(·)](ι) + Pₖ(ι)Aₖ(ι) + Aₖ(ι)ᵀPₖ(ι) + Cₖ(ι)ᵀP₁(ι)Cₖ(ι) + Qₖ(ι)
- [Pₖ(ι)Bₖ(ι) + Cₖ(ι)ᵀP₁(ι)Dₖ(ι) + Sₖ(ι)ᵀ][Rₖ(ι) + Dₖ(ι)ᵀP₁(ι)Dₖ(ι)]⁻¹
  ·[Bₖ(ι)ᵀPₖ(ι) + Dₖ(ι)ᵀP₁(ι)Cₖ(ι) + Sₖ(ι)] = 0

4. 무한시간 BSDE 시스템

다음 BSDE 시스템의 적정성 이론을 수립:

dY₁ = -[(A₁^{Θ₁})ᵀY₁ + (C₁^{Θ₁})ᵀΠ₁[Z] + P₁b₁ + (C₁^{Θ₁})ᵀP₁σ₁ + q₁ + Θ₁ᵀr₁]dt + ZdW + Z₁ᴹdM
dY₂ = -[(A₂^{Θ₂})ᵀY₂ + (C₂^{Θ₂})ᵀΠ₂[Z] + P₂b₂ + (C₂^{Θ₂})ᵀP₁σ₂ + q₂ + Θ₂ᵀr₂]dt + Z₂ᴹdM

기술적 혁신점

  1. 마르코프 측도 이론: 마르코프 연쇄의 마팅게일 측도 {Mᵢⱼ(·)|ι,j ∈ M}을 도입하여 전환항 처리를 위한 도구 제공
  2. 새로운 안정화 조건: 시스템 A,Ā,C,C̄;B,B̄,D,D̄의 L²-안정화 가능성이 각 고정 상태 ι ∈ M 상의 시스템 안정화 가능성과 동치가 아님을 증명
  3. 무한시간 BSDE 신규 방법: 안정성 조건이 약하므로 기존 결과를 직접 적용할 수 없어 새로운 증명 기법 개발

실험 설정

이론적 검증

본 논문은 주로 이론 연구로, 다음 방식으로 이론 결과를 검증:

  1. 구성적 증명: 유한시간 문제의 극한 과정을 통해 ARE의 해 구성
  2. 쌍대 검증: 쌍대 관계를 통해 BSDE 해의 정확성 검증
  3. 반례 구성: 예제 3.4와 3.8을 통해 이론 결과의 필요성 설명

주요 가정

  • (A1): 계수 유계성
  • (A2): 비제차항의 적분성
  • (A3): 가중치 행렬의 양정치 조건
  • (A4): 안정화 가능성 조건

주요 이론 결과

정리 5.1 (주요 결과)

가정 (A1)-(A4) 하에서:

  1. ARE 가해성: 유일한 해 P₁,P₂: M → Sⁿ₊₊가 존재하여 (Θ₁(·),Θ₂(·)) ∈ SA,Ā,C,C̄;B,B̄,D,D̄
  2. BSDE 적정성: BSDE 시스템(5.2)은 유일한 적응 해를 가짐
  3. 최적제어: 폐루프 최적 전략은:
    ūₖ = ΘₖXₖ - (Rₖ + Dₖᵀ P₁Dₖ)⁻¹(Bₖᵀ Yₖ + Dₖᵀ Πₖ[Z] + Dₖᵀ P₁σₖ + rₖ)
    

정리 5.2 (ARE 가해성)

유한시간 문제의 극한 과정을 통해 ARE의 안정화 해의 존재 유일성을 증명.

정리 5.3 (BSDE 적정성)

임의의 (φ₁(·),φ₂(·)) ∈ L²_{F^α}(0,∞;Rⁿ)⊥ × L²_{F^α}(0,∞;Rⁿ)에 대해 BSDE 시스템은 유일한 해를 가짐.

정리 6.1 (개루프 가해성 특성화)

최적 쌍 (X̄(·),ū(·))는 정적 조건을 포함한 FBSDE 시스템의 해와 동치.

관련 연구

역사적 발전

  1. 고전 LQ 이론: Bellman-Glicksberg-Gross (1960), Kalman (1960), Letov (1960)
  2. 확률 LQ 이론: Kushner (1960년대), Wonham (1960년대)
  3. 부정치 LQ 이론: Chen-Li-Zhou (1998), Sun-Yong (2014-2018)
  4. 평균장 LQ 이론: Yong (2013), Huang-Li-Yong (2015)

본 논문의 관련 연구 대비 기여

  1. 21 대비: 무한시간 경우로 확장
  2. 고전 이론 대비: 평균장항과 마르코프 전환 도입
  3. 유한시간 평균장 이론 대비: 무한시간 전환 BSDE의 기술적 과제 해결

결론 및 논의

주요 결론

  1. 마르코프 전환 평균장 LQ 문제의 완전한 이론 체계 수립
  2. 폐루프 및 개루프 가해성의 필요충분조건 제시
  3. 무한시간 전환 BSDE 처리를 위한 새로운 방법 개발

한계

  1. 양정치 가정: 현재 가중치 행렬의 양정치성 필요, 저자는 후속 연구에서 이 가정을 완화할 계획
  2. 유한 상태공간: 마르코프 연쇄는 유한 상태공간으로 제한
  3. 선형 구조: 선형 시스템만 고려

향후 방향

  1. 양정치 조건 완화 및 부정치 경우 연구
  2. 무한차원 경우로 확장
  3. 점프 확산 과정 고려

심층 평가

장점

  1. 이론적 완전성: 안정성에서 최적제어까지의 완전한 이론 체계 제공
  2. 기술적 혁신: 마르코프 전환 처리를 위한 새로운 기법 개발, 특히 무한시간 BSDE 이론
  3. 엄밀성: 증명이 상세하고 엄밀하며 기술 처리가 규범적
  4. 실용적 가치: 실제 응용을 위한 이론적 기초 제공

부족한 점

  1. 응용 검증 부족: 순수 이론 연구로서 수치 실험 및 실제 응용 검증 부재
  2. 가정의 제약: 양정치 가정이 응용 범위를 제한
  3. 계산 복잡성: ARE와 BSDE의 수치 해법 미논의

영향력

  1. 학술적 기여: 마르코프 전환 평균장 LQ 이론의 공백 해소
  2. 후속 연구: 관련 분야에 중요한 이론적 도구 제공
  3. 응용 잠재력: 금융수학, 확률제어 등 분야에서 중요한 응용 전망

적용 분야

  1. 금융공학: 포트폴리오 최적화, 위험관리
  2. 공학 제어: 네트워크 제어 시스템, 다중 에이전트 시스템
  3. 사회과학: 인구 동역학, 경제 모델

참고문헌

논문은 41편의 관련 문헌을 인용하며, LQ 제어 이론의 주요 발전 과정을 포괄하고 있으며, 특히:

  • 30 Sun & Yong의 확률 LQ 이론 전문서
  • 21 Mei-Wei-Yong의 유한시간 평균장 LQ 문제 선행 연구
  • 5 Chen-Li-Zhou의 부정치 LQ 문제 개척 연구

종합 평가: 이는 마르코프 전환 평균장 확률제어 이론 분야에서 중요한 기여를 한 고품질의 이론 논문이다. 논문의 기술 처리는 엄밀하고 이론 결과는 완전하며, 해당 분야의 추가 발전을 위한 견고한 기초를 마련한다. 수치 검증이 부족하지만, 이론적 가치와 응용 잠재력으로 인해 해당 분야의 중요한 진전이 된다.