2025-11-15T23:58:12.055440

An Improved Model-Free Decision-Estimation Coefficient with Applications in Adversarial MDPs

Liu, Wei, Zimmert
We study decision making with structured observation (DMSO). Previous work (Foster et al., 2021b, 2023a) has characterized the complexity of DMSO via the decision-estimation coefficient (DEC), but left a gap between the regret upper and lower bounds that scales with the size of the model class. To tighten this gap, Foster et al. (2023b) introduced optimistic DEC, achieving a bound that scales only with the size of the value-function class. However, their optimism-based exploration is only known to handle the stochastic setting, and it remains unclear whether it extends to the adversarial setting. We introduce Dig-DEC, a model-free DEC that removes optimism and drives exploration purely by information gain. Dig-DEC is always no larger than optimistic DEC and can be much smaller in special cases. Importantly, the removal of optimism allows it to handle adversarial environments without explicit reward estimators. By applying Dig-DEC to hybrid MDPs with stochastic transitions and adversarial rewards, we obtain the first model-free regret bounds for hybrid MDPs with bandit feedback under several general transition structures, resolving the main open problem left by Liu et al. (2025). We also improve the online function-estimation procedure in model-free learning: For average estimation error minimization, we refine the estimator in Foster et al. (2023b) to achieve sharper concentration, improving their regret bounds from $T^{3/4}$ to $T^{2/3}$ (on-policy) and from $T^{5/6}$ to $T^{7/9}$ (off-policy). For squared error minimization in Bellman-complete MDPs, we redesign their two-timescale procedure, improving the regret bound from $T^{2/3}$ to $\sqrt{T}$. This is the first time a DEC-based method achieves performance matching that of optimism-based approaches (Jin et al., 2021; Xie et al., 2023) in Bellman-complete MDPs.
academic

적대적 MDP에서의 응용을 포함한 개선된 모델-무관 결정-추정 계수

기본 정보

  • 논문 ID: 2510.08882
  • 제목: An Improved Model-Free Decision-Estimation Coefficient with Applications in Adversarial MDPs
  • 저자: Haolin Liu (버지니아 대학교), Chen-Yu Wei (버지니아 대학교), Julian Zimmert (Google Research)
  • 분류: cs.LG (기계학습)
  • 발표 시간: 2025년 10월
  • 논문 링크: https://arxiv.org/abs/2510.08882v1

초록

본 논문은 구조화된 관측 결정 제작 문제(DMSO)를 연구한다. 선행 연구는 결정-추정 계수(DEC)를 통해 DMSO의 복잡도를 특성화했으나, 후회 상한과 하한 사이에 모델 클래스 크기와 관련된 간격을 남겼다. Foster 등(2023b)은 낙관적 DEC를 도입하여 이 간격을 좁혔으며, 값 함수 클래스 크기와만 관련된 경계를 달성했다. 그러나 낙관성 기반 탐색은 확률적 환경만 처리할 수 있으며, 적대적 환경으로의 확장 가능성은 불명확하다.

본 논문은 Dig-DEC를 제안하는데, 이는 모델-무관 DEC 방법으로 낙관성을 제거하고 순수하게 정보 이득으로 탐색을 주도한다. Dig-DEC는 항상 낙관적 DEC 이하이며, 특수한 경우에는 현저히 더 작을 수 있다. 중요하게도, 낙관성 제거는 명시적 보상 추정기 없이 적대적 환경을 처리할 수 있게 한다. Dig-DEC를 확률적 전이와 적대적 보상을 가진 혼합 MDP에 적용하여, 다양한 일반 전이 구조 하에서 밴딧 피드백을 가진 혼합 MDP에 대한 첫 번째 모델-무관 후회 경계를 얻었다.

연구 배경 및 동기

  1. 해결할 문제: 기존 결정-추정 계수(DEC) 프레임워크는 모델 클래스 크기와 값 함수 클래스 크기 사이에 간격이 존재하며, 낙관성 기반 방법은 적대적 환경을 효과적으로 처리할 수 없다.
  2. 문제의 중요성:
    • 온라인 결정 제작은 강화학습의 핵심 문제
    • 실제 응용에서는 부분적으로 확률적이고 부분적으로 적대적인 혼합 환경에 직면
    • 기존 방법은 이론적 보장과 실제 성능 사이에 격차 존재
  3. 기존 방법의 한계:
    • Foster 등의 모델은 DEC/E2D 기반으로 log|M|의 모델 추정 비용 부담
    • 낙관적 DEC는 복잡도를 개선했으나 낙관성 원리에 의존하여 적대적 설정 처리 불가
    • Liu 등(2025)의 혼합 MDP 방법은 전체 정보 피드백만 처리 가능하며, 밴딧 경우는 미해결 문제
  4. 연구 동기: 확률적 환경에서 기존 결과를 개선하면서 동시에 혼합 MDP의 밴딧 피드백 경우를 처음으로 처리할 수 있는 통합 프레임워크 개발.

핵심 기여

  1. Dig-DEC 복잡도 측도 제안: 이중 정보 이득 결정-추정 계수를 도입하여 낙관성을 제거하고 순수하게 정보 이득으로 탐색 주도
  2. 통합 이론 프레임워크: 확률적 및 혼합 환경을 동시에 처리할 수 있는 범용 알고리즘 프레임워크 구축
  3. 개선된 온라인 함수 추정:
    • 평균 추정 오류: T^{3/4}/T^{5/6}에서 T^{2/3}/T^{7/9}로 개선
    • 제곱 오류: T^{2/3}에서 √T로 개선, Bellman 완전 MDP에서 처음으로 낙관적 방법과 동일한 성능 달성
  4. 미해결 문제 해결: 밴딧 피드백 하에서 혼합 MDP에 대한 첫 번째 모델-무관 후회 경계 제시

방법론 상세 설명

작업 정의

DMSO 프레임워크: 모델 공간 M, 정책 공간 Π, 관측 공간 O 및 값 함수 V가 주어질 때. 각 라운드 t에서:

  • 환경이 모델 Mt ∈ M 선택
  • 학습자가 정책 πt ∈ Π 선택
  • 관측 ot ~ Mt(·|πt)
  • 목표: 후회 Reg(π*) = Σt(VMt(π*) - VMt(πt)) 최소화

Φ-제한 환경: 정보 집합 Φ를 통해 M×Π를 분할하며, 각 정보 집합 ϕ는 단일 정책 πϕ 포함.

모델 아키텍처

1. 범용 프레임워크(알고리즘 1)

핵심 아이디어는 다음 새들포인트 문제 해결:

min_{p∈Δ(Π)} max_{ν∈Δ(Ψ)} AIR^{Φ,D}_η(p,ν;ρt)

여기서 발산 측도는:

D^π(ν||ρ) = E_{M~ν}E_{o~M(·|π)}[KL(ν_{ϕ}(·|π,o), ρ) + E_{ϕ~ρ}[D^π(ϕ||M)]]

2. Dig-DEC 정의

dig-dec^{Φ,D}_η = max_{ρ∈Δ(Φ)} min_{p∈Δ(Π)} max_{ν∈Δ(Ψ)} 
E_{π~p}E_{(M,π*)~ν}[V_M(π*) - V_M(π) - (1/η)E_{o~M(·|π)}[KL(ν_{ϕ}(·|π,o), ρ)] - (1/η)E_{ϕ~ρ}[D^π(ϕ||M)]]

3. 사후 업데이트 메커니즘

D의 선택에 따라:

  • 평균 추정 오류: 배치 처리 알고리즘 사용(알고리즘 2)
  • 제곱 추정 오류: 이중층 학습 알고리즘 사용(알고리즘 3)

기술 혁신 포인트

  1. 이중 정보 이득 설계:
    • KL 항은 정규화에 사용되어 낙관적 메커니즘 회피
    • D^π 항은 분포 차이를 포착하여 엄격한 개선 실현
  2. 낙관성 제거: 낙관적 DEC의 V_ϕ(π_ϕ) 항을 정규화 항 KL(ν_{ϕ}, ρ)로 대체
  3. 개선된 추정 절차:
    • 평균 오류: 편향 추정기를 무편향 추정기로 대체
    • 제곱 오류: 이중 시간 척도 절차 재설계, Est 경계를 T^{1/3}에서 상수로 개선

실험 설정

이론 검증 환경

  1. 확률적 설정:
    • 이중선형 클래스 MDP
    • Bellman-eluder 차원 유계 MDP
    • 커버가능성 유계 MDP
  2. 혼합 설정:
    • 혼합 이중선형 클래스
    • 혼합 커버가능 MDP
    • 알려진 선형 보상 특성

평가 지표

  • 후회 경계: EReg(π*)의 상한
  • 복잡도 비교: dig-dec vs o-dec vs 고전 DEC
  • 수렴 속도: T의 거듭제곱 의존성

비교 방법

  • Foster 등(2023b)의 낙관적 DEC
  • Liu 등(2025)의 AIR 프레임워크
  • 고전 낙관적 방법(Jin 등 2021, Xie 등 2023)

실험 결과

주요 결과

확률적 환경 개선(표 1):

설정 범주Foster 등(2023b)본 방법
이중선형/BE (평균 오류)T^{3/4}/T^{5/6}T^{2/3}/T^{7/9}
Bellman 완전 (제곱 오류)T^{2/3}√T

혼합 환경 돌파(표 2):

설정 범주Liu 등(2025)본 방법
이중선형 (평균 오류)전체 정보만T^{5/6}/T^{13/15}
Bellman 완전 (제곱 오류)해당 없음T^{3/4}

이론적 우수성 검증

정리 13: 확률적 설정에서, dig-dec^{Φ,D}_η ≤ o-dec^{Φ,D}_η + η

정리 14: 삼팔 밴딧 인스턴스 구성, 다음을 증명:

  • Foster 등 방법: EReg(a) ≥ Ω(√T)
  • 본 방법: EReg(a) ≤ 1

실험 발견

  1. 정보 이득의 중요성: KL 항은 낙관적 DEC가 무시하는 분포 정보 포착
  2. 추정 절차 개선: 무편향 추정기는 농도 부등식 효과 현저히 향상
  3. 낙관성 제거의 장점: 알고리즘이 적대적 환경으로 자연스럽게 확장 가능

관련 연구

주요 연구 방향

  1. DEC 프레임워크 발전:
    • Foster 등(2021b, 2023a): 기본 DEC 이론 수립
    • Foster 등(2023b): 낙관적 DEC 도입
    • Chen 등(2025): 다른 설정으로 확장
  2. 적대적 MDP 연구:
    • Neu 등(2013): 표 형식 적대적 MDP
    • Luo 등(2021): 선형 적대적 MDP
    • Liu 등(2025): 혼합 MDP 이론
  3. 모델-무관 강화학습:
    • Jin 등(2021): Bellman-eluder 차원
    • Xie 등(2023): 커버가능성 이론

본 논문의 장점

  1. 이론 통합: 확률적 및 혼합 환경을 동시에 처리하는 첫 번째 DEC 프레임워크
  2. 기술 혁신: 이중 정보 이득 설계, 낙관성 의존성 제거
  3. 문제 해결: Liu 등(2025)이 남긴 미해결 문제 해결

결론 및 논의

주요 결론

  1. Dig-DEC는 더 정확한 복잡도 특성화를 제공하며, 특수한 경우 임의로 큰 개선 획득 가능
  2. 낙관성 제거는 알고리즘이 적대적 환경을 자연스럽게 처리하도록 함
  3. 개선된 추정 절차는 이론과 실제 모두에서 중요한 의미

한계

  1. 가정 제한: 혼합 설정은 알려진 선형 보상 특성 필요(가정 4)
  2. 기술적 제약: 일부 저랭크 MDP 경우는 여전히 처리 불가
  3. 계산 복잡도: 새들포인트 최적화의 실제 계산 효율성은 상세히 논의되지 않음

향후 방향

  1. 가정 3과 4의 제약 완화
  2. 모델-무관 학습의 기본 한계 연구
  3. 더 효율적인 계산 알고리즘 개발

심층 평가

장점

  1. 이론적 기여 현저:
    • 새로운 복잡도 측도 dig-dec 제안
    • 확률적 및 적대적 환경 통합 처리
    • 중요한 미해결 문제 해결
  2. 기술 혁신성 강함:
    • 이중 정보 이득 설계 정교함
    • 추정 절차 개선 효과적
    • 분석 기술 선진적
  3. 결과 설득력 강함:
    • 이론적 경계 타이트하고 실용적
    • 구성 인스턴스로 엄격한 개선 증명
    • 다양한 고전 MDP 클래스 포함

부족한 점

  1. 실험 검증 제한적: 주로 이론 분석이며 실제 알고리즘 구현 및 경험적 검증 부족
  2. 적용 범위 제한: 혼합 MDP에 대한 가정이 강하여 방법의 일반성 제한
  3. 계산 복잡도: 새들포인트 최적화의 실제 해결 가능성 및 효율성 추가 연구 필요

영향력

  1. 이론적 가치: DEC 이론 발전에 새로운 방향 제시, 후속 연구 영감 가능
  2. 실용적 잠재력: 실제 강화학습 알고리즘 설계에 이론적 지침 제공
  3. 분야 진전: 모델-무관 학습과 적대적 MDP 교차 분야에서 돌파

적용 시나리오

  1. 이론 연구: DEC 프레임워크 확장, 복잡도 분석
  2. 알고리즘 설계: 혼합 환경 처리가 필요한 강화학습 알고리즘
  3. 응용 분야: 금융 거래, 추천 시스템 등 부분적 적대적 환경

참고문헌

주요 참고문헌 포함:

  • Foster et al. (2021b, 2023a, 2023b): DEC 이론 기초
  • Liu et al. (2025): 혼합 MDP 연구
  • Jin et al. (2021): Bellman-eluder 차원
  • Xie et al. (2023): 커버가능성 이론
  • Xu and Zeevi (2023): AIR 프레임워크

본 논문은 결정-추정 계수 이론에서 중요한 진전을 이루었으며, 정교한 기술 혁신을 통해 해당 분야의 핵심 문제를 해결하여 강화학습 이론 발전에 가치 있는 기여를 했다. 실제 응용 검증 측면에서 개선 여지가 있지만, 이론적 가치와 혁신성으로 인해 해당 분야의 중요한 연구가 되었다.