Towards Blackwell Optimality: Bellman Optimality Is All You Can Get
Boone, Tuynman
Although average gain optimality is a commonly adopted performance measure in Markov Decision Processes (MDPs), it is often too asymptotic. Further incorporating measures of immediate losses leads to the hierarchy of bias optimalities, all the way up to Blackwell optimality. In this paper, we investigate the problem of identifying policies of such optimality orders. To that end, for each order, we construct a learning algorithm with vanishing probability of error. Furthermore, we characterize the class of MDPs for which identification algorithms can stop in finite time. That class corresponds to the MDPs with a unique Bellman optimal policy, and does not depend on the optimality order considered. Lastly, we provide a tractable stopping rule that when coupled to our learning algorithm triggers in finite time whenever it is possible to do so.
평균 이득 최적성이 마르코프 결정 과정(MDP)에서 일반적으로 사용되는 성능 측도이지만, 이는 종종 지나치게 점근적입니다. 즉각적인 손실 측도를 추가로 결합하면 편향 최적성의 계층 구조가 생기며, 이는 Blackwell 최적성까지 이어집니다. 본 논문은 이러한 최적성 차수 정책을 식별하는 문제를 연구합니다. 이를 위해 각 차수에 대해 소실하는 오류 확률을 가진 학습 알고리즘을 구성합니다. 더욱이, 식별 알고리즘이 유한 시간 내에 중지할 수 있는 MDP 클래스를 특성화합니다. 이 클래스는 유일한 Bellman 최적 정책을 가진 MDP에 해당하며, 고려되는 최적성 차수에 무관합니다. 마지막으로, 우리의 학습 알고리즘과 결합할 때 가능한 한 유한 시간 내에 작동하는 다루기 쉬운 중지 규칙을 제공합니다.
입력: 원하는 최적성 차수 n ≥ -1
초기화: t ← 0
반복:
1. 경험적 MDP M̂_t 구성
2. ε ← t^(-1/4) 설정
3. ∏_s A_n(s) ← HOPI_{n,ε}(M̂_t) 계산
4. ∏_s A_n(s)에서 임의의 정책 권장
5. 행동을 균등하게 샘플링하고 보상 및 다음 상태 관찰
6. t ← t + 1
논문은 강화학습 및 마르코프 결정 과정 분야의 중요한 문헌을 인용하며, 다음을 포함합니다:
Puterman (1994): 마르코프 결정 과정의 고전 교과서
Blackwell (1962): Blackwell 최적성의 원래 정의
Kaufmann et al. (2016): 최적 팔 식별의 복잡성 이론
Boone and Gaujal (2023): 결정론적 MDP에서 Blackwell 최적성의 학습 가능성
본 논문은 엄격한 이론적 분석을 통해 강화학습에서 기본적이면서도 심오한 현상을 드러냅니다: 고차 최적성의 학습 난이도는 완전히 Bellman 최적성의 구조에 의해 결정됩니다. 이 결과는 중요한 이론적 의의를 가질 뿐만 아니라 실제 알고리즘 설계에도 중요한 지침을 제공합니다.