2025-11-10T02:43:59.651588

Degeneracy is OK: Logarithmic Regret for Network Revenue Management with Indiscrete Distributions

Jiang, Ma, Zhang
We study the classical Network Revenue Management (NRM) problem with accept/reject decisions and $T$ IID arrivals. We consider a distributional form where each arrival must fall under a finite number of possible categories, each with a deterministic resource consumption vector, but a random value distributed continuously over an interval. We develop an online algorithm that achieves $O(\log^2 T)$ regret under this model, with the only (necessary) assumption being that the probability densities are bounded away from 0. We derive a second result that achieves $O(\log T)$ regret under an additional assumption of second-order growth. To our knowledge, these are the first results achieving logarithmic-level regret in an NRM model with continuous values that do not require any kind of "non-degeneracy" assumptions. Our results are achieved via new techniques including a new method of bounding myopic regret, a "semi-fluid" relaxation of the offline allocation, and an improved bound on the "dual convergence".
academic

퇴화는 괜찮습니다: 비이산 분포를 가진 네트워크 수익 관리의 로그 후회

기본 정보

  • 논문 ID: 2210.07996
  • 제목: Degeneracy is OK: Logarithmic Regret for Network Revenue Management with Indiscrete Distributions
  • 저자: Jiashuo Jiang (HKUST), Will Ma (Columbia University), Jiawei Zhang (NYU Stern)
  • 분류: cs.LG math.PR
  • 발표 시간: 2025년 1월 2일 (arXiv v5)
  • 논문 링크: https://arxiv.org/abs/2210.07996

초록

본 논문은 수락/거절 결정과 T개의 독립동일분포 도착을 포함하는 고전적인 네트워크 수익 관리(NRM) 문제를 연구합니다. 각 도착이 유한 개의 가능한 범주 중 하나에 속해야 하고, 각 범주는 결정론적 자원 소비 벡터를 가지지만 가치는 구간에서 연속 분포를 따르는 분포 형태를 고려합니다. 본 논문은 이 모델에서 O(log2T)O(\log^2 T) 후회를 달성하는 온라인 알고리즘을 개발했으며, 유일한 (필요한) 가정은 확률 밀도가 0에서 멀어야 한다는 것입니다. 이차 성장의 추가 가정 하에서 O(logT)O(\log T) 후회를 달성하는 두 번째 결과를 도출했습니다. 우리가 아는 한, 이는 연속 가치를 가진 NRM 모델에서 어떤 "비퇴화" 가정도 필요 없이 로그 수준의 후회를 달성하는 첫 번째 결과입니다.

연구 배경 및 동기

문제 정의

네트워크 수익 관리(NRM)는 길이 T의 유한 시간 범위 내에서 유한 자원을 할당해야 하는 용량 제어 문제입니다. 각 시간 단계 t에서 자원 벡터 a~t\tilde{a}_t를 필요로 하고 보상 r~t\tilde{r}_t를 제공하는 쿼리가 도착합니다. 의사결정자는 해당 쿼리를 서비스할지 여부에 대해 즉시 취소 불가능한 결정을 내려야 합니다.

연구 동기

  1. 실제 중요성: NRM은 항공사, 호텔 등 산업에서 중요한 응용 가치를 가집니다
  2. 이론적 도전: 기존 문헌은 연속 분포를 처리할 때 강한 "비퇴화" 가정이 필요합니다
  3. 방법론적 한계: 전통적 방법은 이산 분포(작은 N 가정)로 제한되거나 비퇴화 조건이 필요합니다

기존 방법의 한계

  • 작은 N 가정: 유한 이산 분포로 제한되어 연속 보상을 처리할 수 없습니다
  • 비퇴화 가정: 유체 완화의 최적 해가 유일하고 엄격한 상보 슬랙 조건을 만족해야 합니다
  • 섭동 방법: 전통적 선형계획법 퇴화 처리 방법은 Ω(T)\Omega(\sqrt{T}) 후회를 초래합니다

핵심 기여

  1. 로그 후회 최초 달성: 연속 분포 NRM에서 비퇴화 가정 없이 로그 수준의 후회를 최초로 달성
  2. 새로운 반유체 완화: 오프라인 최적과 유체 완화 사이의 새로운 완화 방법 제안
  3. 개선된 근시 후회 경계: 새로운 근시 후회 분석 기법 개발
  4. 이중 결과:
    • O(log2T)O(\log^2 T) 후회(밀도 하한만 필요)
    • O(logT)O(\log T) 후회(추가 이차 성장 조건)

방법론 상세 설명

작업 정의

  • 입력: T개의 독립동일분포 쿼리, 각 쿼리 (rt,at)(r_t, a_t)는 보상과 자원 수요 포함
  • 제약: 초기 용량 CR0mC \in \mathbb{R}^m_{\geq 0}, 용량 제약 t=1Tat,ixtCi\sum_{t=1}^T a_{t,i} \cdot x_t \leq C_i
  • 목표: 수집된 총 보상 최대화, 오프라인 최적과의 후회 최소화

모델 아키텍처

분포 가정(가정 1)

각 유형 j[n]j \in [n]에 대해:

  • 수요 벡터 ata_t는 이산 분포 {a1,,an}\{a_1, \ldots, a_n\}에서 추출됨
  • 조건부 보상 rtr_t는 구간 [lj,uj][l_j, u_j]에서 연속 분포
  • 밀도 함수는 f(raj)α>0f(r|a_j) \geq \alpha > 0을 만족

반유체 완화

주어진 유형 계수 d=(d1,,dn)d = (d_1, \ldots, d_n)에 대해:

VcSemi(d)=maxxj=1ndjErFj[rxj(r)]V^{\text{Semi}}_c(d) = \max_x \sum_{j=1}^n d_j \cdot \mathbb{E}_{r \sim F_j}[r \cdot x_j(r)]

제약 조건: j=1ndjaj,iErFj[xj(r)]ci,i[m]\sum_{j=1}^n d_j \cdot a_{j,i} \cdot \mathbb{E}_{r \sim F_j}[x_j(r)] \leq c_i, \quad \forall i \in [m]

알고리즘 설계

알고리즘 1: M^\hat{M}-추정기 전략

  1. 쿼리 (rt,at)(r_t, a_t) 관찰
  2. 추정기 M^ct,at\hat{M}_{c_t, a_t} 계산
  3. rtM^ct,atr_t \geq \hat{M}_{c_t, a_t}이고 ctatc_t \geq a_t이면 수락
  4. 그렇지 않으면 거절

알고리즘 2: O(log2T)O(\log^2 T) 후회 알고리즘

  • 최적화 문제(13)를 풀어 {q^j,t}\{\hat{q}^*_{j,t}\} 획득
  • q^jt,t\hat{q}^*_{j_t,t}의 값에 따라 경계 흡인 전략 설정:
    • q^jt,t12κ1log(Tt+1)Tt+1\hat{q}^*_{j_t,t} \geq 1 - 2\kappa_1 \sqrt{\frac{\log(T-t+1)}{T-t+1}}이면 M^=ljt\hat{M} = l_{j_t} 설정(항상 수락)
    • q^jt,t2κ1log(Tt+1)Tt+1\hat{q}^*_{j_t,t} \leq 2\kappa_1 \sqrt{\frac{\log(T-t+1)}{T-t+1}}이면 M^=ujt+1\hat{M} = u_{j_t} + 1 설정(항상 거절)
    • 그 외의 경우 M^=Fjt1(1q^jt,t)\hat{M} = F^{-1}_{j_t}(1 - \hat{q}^*_{j_t,t}) 설정

기술 혁신 포인트

1. 근시 후회 분해

총 후회를 다음과 같이 분해: Regret(π)t=1TEctπ[Myopict(π,ctπ)]\text{Regret}(\pi) \leq \sum_{t=1}^T \mathbb{E}_{c^{\pi}_t}[\text{Myopic}_t(\pi, c^{\pi}_t)]

여기서 근시 후회는 다음과 같이 정의됨: Myopict(π,c)=Eπ,It[Vˉc(It)Vˉcatxtπ(It+1)rtxtπ]\text{Myopic}_t(\pi, c) = \mathbb{E}_{\pi, I_t}[\bar{V}_c(I_t) - \bar{V}_{c - a_t \cdot x^{\pi}_t}(I_{t+1}) - r_t \cdot x^{\pi}_t]

2. 립시츠 연속성 분석

반유체 문제 최적 해의 립시츠 성질 증명(보조정리 4): q^q~κ1maxj[n]{dj/spj}\|\hat{q}^* - \tilde{q}^*\|_{\infty} \leq \kappa_1 \cdot \max_{j \in [n]} \{|d_j/s - p_j|\}

3. 경계 흡인 전략

유체 해가 경계에 가까울 때 보수적 전략 채택, 실행 가능성 문제 회피:

  • 1에 가까울 때 항상 수락
  • 0에 가까울 때 항상 거절
  • 중간 영역에서 임계값 전략 사용

실험 설정

수치 실험 구성

  • 자원 수: mm개 자원
  • 고객 유형: nn가지 유형
  • 용량 설정: Ci=αiTC_i = \alpha_i \cdot T
  • 보상 분포: 각 유형은 [lj,uj][l_j, u_j]에서 균등 분포
  • 비교 알고리즘:
    • 고정 입찰 가격 전략(FBP)
    • 이중 업데이트 전략
    • 알고리즘 2 및 알고리즘 3

평가 지표

  • 기대 총 수익: 각 전략이 수집한 평균 보상
  • 상대 성능: 고정 입찰 가격 전략과의 비율
  • 후회 증가율: 후회가 시간 T에 따라 증가하는 방식

실험 결과

주요 결과

이론적 결과

정리 1: 알고리즘 2는 O(log2T)O(\log^2 T) 후회를 달성합니다: Regret(π)(2κ1+2α+4αj=1n1pj)log2T+s0rmax\text{Regret}(\pi) \leq \left(2\kappa_1 + \frac{2}{\alpha} + \frac{4}{\alpha} \sum_{j=1}^n \frac{1}{p_j}\right) \log^2 T + s_0 \cdot r_{\max}

정리 2: 추가 가정 하에서 알고리즘 3은 O(logT)O(\log T) 후회를 달성합니다: Regret(π)C1logT+C2\text{Regret}(\pi) \leq C_1 \cdot \log T + C_2

수치 실험 결과

  1. 시간 의존성: 알고리즘 2와 3은 T가 증가할 때 기준 방법보다 우수한 성능
  2. 자원 수 의존성: 세 가지 고급 알고리즘은 다양한 자원 수에서 유사한 성능
  3. 유형 수 의존성: 고객 유형 수가 증가할 때 알고리즘 2와 3이 이중 업데이트 전략보다 우수

핵심 기술 분석

이중 수렴 경계

두 번째 결과에서 이중 변수의 분산 경계를 증명: E[(atμ~1atμ^1)2]8dˉ2α2β2(s1)+19αˉdˉ2(s1)+2s1\mathbb{E}[(a^{\top}_t \tilde{\mu}_1 - a^{\top}_t \hat{\mu}_1)^2] \leq \frac{8\bar{d}^2}{\alpha^2\beta^2(s-1)} + \frac{1}{9\bar{\alpha}\bar{d}^2(s-1)} + \frac{2}{s-1}

관련 연구

NRM 문헌 발전

  1. O(T)O(\sqrt{T}) 후회: Talluri와 Van Ryzin (1998)의 정적 입찰 전략
  2. O(1)O(1) 후회: Jasin과 Kumar (2012)의 비퇴화 조건 하 결과
  3. 비퇴화 없음: Bumpensanti와 Wang (2020), Vera와 Banerjee (2021)의 이산 경우

연속 분포 연구

  • 다중 비서 문제: Bray (2019)의 단일 자원 경우 Θ(logT)\Theta(\log T) 결과
  • 비퇴화 가정: Li와 Ye (2021), Balseiro 등(2021), Bray (2022)의 연구

결론 및 논의

주요 결론

  1. 비퇴화 가정 없이 연속 보상 NRM에서 로그 후회를 최초로 달성
  2. 반유체 완화는 새로운 분석 프레임워크 제공
  3. 경계 흡인 전략은 퇴화 경우를 효과적으로 처리

한계

  1. 밀도 하한: 여전히 밀도 함수가 0에서 멀어야 한다는 가정 필요
  2. 상수항: O(log2T)O(\log^2 T) 결과의 상수항은 지수 수준의 nn에 의존
  3. 이차 성장: 더 나은 O(logT)O(\log T) 결과는 추가 강볼록성 가정 필요

향후 방향

  1. 상수항 의존성 개선
  2. 더 일반적인 분포 클래스로 확장
  3. 하한 일치성 연구

심층 평가

장점

  1. 이론적 돌파: 오랫동안 존재해온 퇴화 문제 해결
  2. 기술 혁신: 반유체 완화와 경계 흡인 전략의 참신성
  3. 실용적 가치: 실제 연속 가격 책정 시나리오에 적용 가능
  4. 분석 엄밀성: 수학적 증명이 상세하고 완전함

부족한 점

  1. 가정 제한: 여전히 유한 유형과 밀도 하한 가정 필요
  2. 상수항: 첫 번째 결과의 상수항이 상대적으로 큼
  3. 제한된 실험: 수치 실험이 상대적으로 단순하고 실제 데이터 검증 부족

영향력

  1. 이론적 기여: NRM 이론에 새로운 분석 도구 제공
  2. 방법론: 반유체 완화는 다른 온라인 최적화 문제에 적용 가능
  3. 실무 지침: 실제 수익 관리 시스템에 이론적 기초 제공

적용 시나리오

  • 항공 수익 관리의 좌석 할당
  • 호텔 객실 가격 책정 및 할당
  • 온라인 광고 입찰 시스템
  • 클라우드 자원 동적 가격 책정

참고 문헌

주요 관련 연구:

  • Jasin과 Kumar (2012): NRM의 재해석 휴리스틱
  • Bumpensanti와 Wang (2020): 비퇴화 가정 없는 이산 경우
  • Li와 Ye (2021): 온라인 선형계획법의 이중 수렴
  • Bray (2022): 연속 값 다중 비서 문제

본 논문은 네트워크 수익 관리 이론에서 중요한 돌파를 이루었으며, 전통적인 비퇴화 가정 없이 연속 분포 설정에서 로그 수준의 후회를 최초로 달성했습니다. 기술 혁신에는 반유체 완화, 경계 흡인 전략, 개선된 이중 수렴 분석이 포함되며, 이는 해당 분야의 이론적 발전에 중요한 기여를 합니다.