2025-11-20T19:43:15.563163

Homomorphic Mappings for Value-Preserving State Aggregation in Markov Decision Processes

Zhao, Li, Feng et al.
State aggregation aims to reduce the computational complexity of solving Markov Decision Processes (MDPs) while preserving the performance of the original system. A fundamental challenge lies in optimizing policies within the aggregated, or abstract, space such that the performance remains optimal in the ground MDP-a property referred to as {"}optimal policy equivalence {"}. This paper presents an abstraction framework based on the notion of homomorphism, in which two Markov chains are deemed homomorphic if their value functions exhibit a linear relationship. Within this theoretical framework, we establish a sufficient condition for the equivalence of optimal policy. We further examine scenarios where the sufficient condition is not met and derive an upper bound on the approximation error and a performance lower bound for the objective function under the ground MDP. We propose Homomorphic Policy Gradient (HPG), which guarantees optimal policy equivalence under sufficient conditions, and its extension, Error-Bounded HPG (EBHPG), which balances computational efficiency and the performance loss induced by aggregation. In the experiments, we validated the theoretical results and conducted comparative evaluations against seven algorithms.
academic

마르코프 결정 과정에서 가치 보존 상태 집계를 위한 동형 사상

기본 정보

  • 논문 ID: 2510.09965
  • 제목: Homomorphic Mappings for Value-Preserving State Aggregation in Markov Decision Processes
  • 저자: Shuo Zhao, Yongqiang Li, Yu Feng, Zhongsheng Hou, Yuanjing Feng
  • 분류: cs.LG cs.AI stat.ML
  • 발표 시간: 2025년 10월 14일 (arXiv 사전인쇄본)
  • 논문 링크: https://arxiv.org/abs/2510.09965

초록

본 논문은 마르코프 결정 과정(MDP)의 상태 집계 문제를 다루기 위해 동형 사상 기반의 추상화 프레임워크를 제시한다. 이 프레임워크는 두 마르코프 연쇄 간의 가치 함수 선형 관계를 통해 동형성을 정의함으로써, 계산 복잡도를 감소시키면서 최적 정책의 동등성을 보존한다. 논문은 HPG와 EBHPG 두 가지 알고리즘을 제안하며, 각각 충분 조건을 만족하거나 만족하지 않을 때 이론적 보장을 제공하고, 실험을 통해 이론적 결과의 유효성을 검증한다.

연구 배경 및 동기

문제 정의

MDP가 복잡한 실제 문제에 광범위하게 적용됨에 따라, 대규모 상태 공간으로 인한 계산 복잡도 문제가 점점 심각해지고 있다. 상태 집계는 상태 공간을 압축하여 계산 비용을 감소시키기 위한 핵심 전략이지만, 핵심 과제는 추상 공간에서 최적화된 정책이 원본 MDP에서도 최적성을 유지하도록 하는 것이다.

연구의 중요성

  1. 계산 효율성: 대규모 MDP의 해결 복잡도는 상태 공간에 따라 지수적으로 증가
  2. 실제 응용: 다중 에이전트 조정, 시각적 표현 학습, 운영 시스템 등 분야의 긴급한 필요성
  3. 이론적 의의: 최적 정책 동등성에 대한 체계적인 이론적 분석 도구 부족

기존 방법의 한계

  1. 특징 기반 방법: 특히 고차원 설정에서 많은 계산 자원 필요
  2. 가치 기반 집계: 가치 함수 오류 최소화에 초점을 맞추지만, 최적 정책 동등성에 대한 이론적 도구 부족
  3. 동형 MDP 이론: 추상 MDP가 원본 MDP의 보상과 전이 동역학을 완전히 보존하도록 요구하여 조건이 지나치게 엄격함

핵심 기여

  1. 동형 마르코프 연쇄 프레임워크 제시: 기존 동형 MDP보다 더 완화된 이론적 프레임워크 구축, 가치 함수 간의 선형 관계만 필요
  2. 최적 정책 동등성 충분 조건 수립: 인코딩 행렬의 행 공간이 기본 전이 벡터 생성 공간을 포함할 때 최적 정책 동등성이 성립함을 증명
  3. HPG 알고리즘 개발: 충분 조건을 만족할 때 최적 정책 동등성을 보장하는 정책 경사 알고리즘
  4. EBHPG 알고리즘 설계: 충분 조건을 만족하지 않는 경우를 처리하는 확장 알고리즘, 성능 하한 보장 제공
  5. 오류 한계 분석 제공: 근사 오류 상한 및 목적 함수 성능 하한 도출

방법론 상세 설명

작업 정의

무한 시간 지평선 MDP MS=(S,A,PSA,γ,r)M_S = (S,A,P_{SA},\gamma,r)이 주어졌을 때, 인코딩 행렬 PνP_\nu와 추상 상태 공간 UU를 찾아 추상 공간에서 최적화된 정책이 원본 MDP에서 최적성을 유지하도록 하는 것이 목표이다.

핵심 이론 프레임워크

동형 마르코프 연쇄 정의

정의 1: 정책 π\pi에 의해 유도된 기본 마르코프 연쇄 MSπM^\pi_S와 추상 마르코프 연쇄 MUμM^\mu_U가 주어졌을 때, 다음 조건을 만족하면 MUμM^\mu_UMSπM^\pi_S의 동형 마르코프 연쇄라고 한다:

PUμPν=PνPSπP^\mu_U P_\nu = P_\nu P^\pi_SRUπ,ν=PνRSπR^{\pi,\nu}_U = P_\nu R^\pi_S

여기서 PνRU×SP_\nu \in \mathbb{R}^{|U| \times |S|}는 인코딩 행렬이다.

가치 함수 선형 관계

정리 1: MUμM^\mu_UMSπM^\pi_S의 동형 마르코프 연쇄이면, 이들의 가치 함수는 선형 관계를 만족한다: VUμ=PνVSπV^\mu_U = P_\nu V^\pi_S

동형 사상 존재 조건

정리 3: 기본 MDP MSM_S와 인코딩 행렬 PνP_\nu이 주어졌을 때, 동형 사상 fν:ΠSΠUf_\nu: \Pi_S \to \Pi_U가 존재할 필요충분조건은 PνP_\nu의 행 공간이 span(F)\text{span}(F)를 포함하는 것이다. 여기서 FF는 모든 기본 전이 벡터의 극대 선형 독립 부분집합이다.

알고리즘 설계

HPG 알고리즘(알고리즘 1)

충분 조건을 만족할 때:

  1. PνP_\nu의 무어-펜로즈 의사역행렬 PνP_\nu^\dagger 계산
  2. Cπθt=PSπθtPνC^{\pi_{\theta_t}} = P^{\pi_{\theta_t}}_S P_\nu^\dagger를 통해 추상 전이 행렬 계산
  3. 추상 가치 함수 VUfν(πθt)V^{f_\nu(\pi_{\theta_t})}_U 평가
  4. 정책 매개변수 θt+1\theta_{t+1} 업데이트

계산 복잡도: O(SA+US2+U3)O(|S||A| + |U||S|^2 + |U|^3), US|U| \ll |S|일 때 표준 정책 평가의 O(SA+S3)O(|S||A| + |S|^3)보다 현저히 우수

EBHPG 알고리즘(알고리즘 2)

충분 조건을 만족하지 않을 때, 성능 하한 최적화: JS(π~)JU(fν(π~))g(π~,ν)1γJ_S(\tilde{\pi}) \geq J_U(f_\nu(\tilde{\pi})) - \frac{\|g(\tilde{\pi},\nu)\|}{1-\gamma}

여기서 g(π,ν)1γ\frac{\|g(\pi,\nu)\|}{1-\gamma}는 성능 차이의 상한이다.

기술적 혁신점

  1. 조건 완화: 기존 동형 MDP가 완전히 동일한 전이 확률을 요구하는 것과 달리, 본 논문은 선형 의존 관계만 필요
  2. 행렬 연산 최적화: 반복 루프가 아닌 행렬 연산을 통해 집계 구현, 계산 효율성 향상
  3. 오류 한계: 이상적 조건을 만족하지 않을 때 이론적 보장 및 최적화 방향 제공

실험 설정

데이터셋

  1. 무작위 모델: S=100,A=10|S|=100, |A|=10, 전이 행렬 밀도 10%-100%
  2. 약한 결합 MDP: S=3600,A=10|S|=3600, |A|=10, 계층적 의사결정 모의
  3. 4개 방 격자 세계: S=6400,A=4|S|=6400, |A|=4, 고전적 네비게이션 작업
  4. 직렬 큐 관리: S=6084,A=3|S|=6084, |A|=3, 실제 서버 시스템 영감

평가 지표

  • 정책 성능: JS(π)=Es0ξS[VSπ(s0)]J_S(\pi) = \mathbb{E}_{s_0 \sim \xi_S}[V^\pi_S(s_0)]
  • 계산 시간: 벽시계 시간 측정으로 실제 효율성 평가
  • 수렴성: 정책 반복이 최적해로 수렴

비교 방법

7가지 기준선 방법 포함:

  • 표준 정책 반복(PolicyIter)
  • 고전적 집계 기법(Bertsekas)
  • 최근 방법: Ayoub et al., Chen, Forghieri et al., Ishfaq et al., Lee et al.

구현 세부사항

  • 학습률: 1×1031 \times 10^{-3}
  • 추상 상태 수: U=int(0.5×r)|U| = \text{int}(0.5 \times r)
  • 하드웨어: AMD Ryzen 7 5800X CPU + NVIDIA GeForce RTX 3090 GPU

실험 결과

이론 검증 실험

그림 2는 S=100|S|=100의 소규모 작업에 대한 검증 결과를 보여준다:

  1. 충분 조건 만족 시: "100%"로 표시된 곡선(U=r|U|=r에 해당)은 모든 작업에서 최적값으로 수렴하여 정리 2와 3의 정확성을 검증
  2. 충분 조건 불만족 시: "80%", "50%", "20%"로 표시된 곡선은 명백한 진동을 보이며 최적해로의 수렴을 보장할 수 없음
  3. EBHPG 성능: 실선(실제 성능)이 점선(성능 하한)의 개선에 따라 향상되어 정리 5와 6을 검증

대규모 성능 비교

그림 3은 대규모 작업에서의 성능 비교를 보여준다:

  1. 계산 효율성: 본 논문의 방법은 4개 방 환경을 제외한 모든 작업에서 기준선 방법보다 현저히 우수
  2. 모델 기반 vs 무모델: 모델 기반 방법이 샘플링이 아닌 정확한 계획을 사용하므로 무모델 방법보다 일반적으로 우수
  3. 행렬 연산 우위: 기준선 방법의 중첩 루프 구현과 비교하여 행렬 연산이 현저한 효율성 향상 제공

특수 경우 분석

4개 방 환경에서 모든 방법이 기준선을 초과하기 어려운 이유:

  • 보상 구조가 극도로 희소함
  • 큰 상태 공간과 희소 보상의 조합으로 탐색 어려움
  • 보상 함수의 희소성이 정책 반복 효율성을 저하시킬 수 있음

관련 연구

상태 추상화 방법 분류

  1. 특징 기반 방법: 수작업으로 설계되거나 학습된 특징 함수 활용, 예: 동적 베이지안 네트워크, 스펙트럼 분석
  2. 가치 기반 집계: 가치 함수 근사 오류 최소화에 초점, 예: 적응형 반복 집계 알고리즘

이론적 프레임워크 발전

  1. 동형 MDP 이론: Ravindran이 제시한 구조 보존 사상 프레임워크
  2. 양방향 모의 이론: 고전적 행동 동등성 개념의 MDP 확장
  3. 연속 공간 확장: Ferns 등이 양방향 모의 메트릭을 연속 상태 공간으로 확장

본 논문의 상대적 우위

기존 방법과 비교하여 본 논문은 더 완화된 충분 조건과 더 효율적인 계산 구현을 제공한다.

결론 및 논의

주요 결론

  1. 동형 사상 기반의 상태 집계 이론 프레임워크 구축
  2. 기존 동형 MDP 조건보다 더 완화된 최적 정책 동등성의 충분 조건 제공
  3. 이론과 실험 모두에서 검증된 HPG와 EBHPG 두 가지 실용적 알고리즘 개발

한계

  1. 충분 조건 제약: 경우에 따라 충분 조건을 만족하는 계산 비용이 여전히 높을 수 있음
  2. 수렴 보장: 근사 오류가 존재할 때 최적 정책으로의 수렴을 보장할 수 없음
  3. 연속 공간: 분석이 연속 상태 공간으로 확장되지 않음

향후 방향

  1. 최적 정책 동등성의 충분 조건 완화
  2. 연속 상태 공간으로의 확장
  3. 근사 경우의 수렴성 보장 개선

심층 평가

장점

  1. 이론적 기여: 기존 방법보다 더 일반적인 이론 프레임워크 제시
  2. 실용성: 알고리즘 설계가 계산 효율성을 고려하여 대규모 응용에 적합
  3. 완전성: 이론 분석에서 알고리즘 설계를 거쳐 실험 검증까지 완전한 연구 체인 형성
  4. 엄밀성: 수학적 유도가 엄밀하고 실험 설계가 합리적

부족한 점

  1. 적용 범위: 충분 조건이 경우에 따라 여전히 지나치게 엄격할 수 있음
  2. 실험 범위: 4개 방 환경의 이상 결과에 대한 더 깊은 분석 필요
  3. 비교 기준선: 일부 비교 방법이 최신 SOTA 방법이 아닐 수 있음

영향력

  1. 이론적 가치: MDP 상태 집계에 새로운 이론적 도구 제공
  2. 실용적 가치: 알고리즘이 여러 실제 작업에서 우위 입증
  3. 확장성: 프레임워크가 다른 문제로의 확장 가능성 보유

적용 시나리오

  1. 대규모 MDP 해결
  2. 계층적 강화학습
  3. 다중 에이전트 시스템
  4. 구조화된 상태 공간을 가진 의사결정 문제

참고문헌

논문은 MDP 이론, 상태 추상화, 강화학습 등 여러 분야의 중요한 작업을 포함하는 50개의 관련 문헌을 인용하여 연구에 견고한 이론적 기초를 제공한다.


종합 평가: 이는 이론과 실무를 모두 중시하는 고품질 논문으로, MDP 상태 집계 분야에 중요한 기여를 한다. 이론 프레임워크는 새롭고 실용적이며, 알고리즘 설계는 합리적이고, 실험 검증은 충분하다. 일부 한계가 있지만, 전체적으로 해당 분야의 발전에 가치 있는 이론적 도구와 실용적 방법을 제공한다.