We study the classical Network Revenue Management (NRM) problem with accept/reject decisions and $T$ IID arrivals. We consider a distributional form where each arrival must fall under a finite number of possible categories, each with a deterministic resource consumption vector, but a random value distributed continuously over an interval. We develop an online algorithm that achieves $O(\log^2 T)$ regret under this model, with the only (necessary) assumption being that the probability densities are bounded away from 0. We derive a second result that achieves $O(\log T)$ regret under an additional assumption of second-order growth. To our knowledge, these are the first results achieving logarithmic-level regret in an NRM model with continuous values that do not require any kind of "non-degeneracy" assumptions. Our results are achieved via new techniques including a new method of bounding myopic regret, a "semi-fluid" relaxation of the offline allocation, and an improved bound on the "dual convergence".
論文ID : 2210.07996タイトル : Degeneracy is OK: Logarithmic Regret for Network Revenue Management with Indiscrete Distributions著者 : Jiashuo Jiang (HKUST)、Will Ma (Columbia University)、Jiawei Zhang (NYU Stern)分類 : cs.LG math.PR発表日時 : 2025年1月2日 (arXiv v5)論文リンク : https://arxiv.org/abs/2210.07996 本論文は古典的なネットワーク収益管理(NRM)問題を研究し、受け入れ/拒否決定とT個の独立同分布到着を扱っています。各到着が有限数の可能なカテゴリーに属する必要があり、各カテゴリーが確定的なリソース消費ベクトルを持つが、価値が区間上で連続分布する分布形式を考察します。本論文は、このモデルにおいてO ( log 2 T ) O(\log^2 T) O ( log 2 T ) 後悔を達成するオンラインアルゴリズムを開発し、唯一の(必要な)仮定は確率密度が0から遠く離れていることです。第二の結果として、二次増長の追加仮定の下でO ( log T ) O(\log T) O ( log T ) 後悔を達成します。我々の知る限り、これらは連続値を持つNRMモデルで対数的後悔を達成する初めての結果であり、いかなる「非退化」仮定も必要としません。
ネットワーク収益管理(NRM)は容量制御問題であり、長さTの有限時間範囲内で有限リソースを配分する必要があります。各時間ステップtで、クエリが到着し、リソースベクトルa ~ t \tilde{a}_t a ~ t を必要とし、報酬r ~ t \tilde{r}_t r ~ t を提供します。意思決定者は、そのクエリにサービスを提供するかどうかについて、直ちに取り消し不可能な決定を下さなければなりません。
実践的重要性 : NRMは航空、ホテル等の業界で重要な応用価値を持つ理論的課題 : 既存文献は連続分布を扱う際に強い「非退化」仮定が必要方法論的限界 : 従来の方法は有限離散分布に限定するか、非退化条件を必要とする小N仮定 : 有限離散分布に限定され、連続報酬を処理できない非退化仮定 : 流体緩和の最適解が唯一であり、厳密な相補スラック条件を満たすことを要求摂動方法 : 従来のLP退化処理方法はΩ ( T ) \Omega(\sqrt{T}) Ω ( T ) 後悔をもたらす対数後悔の初実現 : 連続分布NRMで非退化仮定なしに対数的後悔を初めて実現新しい半流体緩和 : オフライン最適と流体緩和の間の新しい緩和方法を提案改善された近視的後悔界 : 新しい近視的後悔分析技術を開発二重結果 :
O ( log 2 T ) O(\log^2 T) O ( log 2 T ) 後悔(密度下界のみ必要)O ( log T ) O(\log T) O ( log T ) 後悔(追加の二次増長条件)入力 : T個の独立同分布クエリ、各クエリ( r t , a t ) (r_t, a_t) ( r t , a t ) は報酬とリソース需要を含む制約 : 初期容量C ∈ R ≥ 0 m C \in \mathbb{R}^m_{\geq 0} C ∈ R ≥ 0 m 、容量制約∑ t = 1 T a t , i ⋅ x t ≤ C i \sum_{t=1}^T a_{t,i} \cdot x_t \leq C_i ∑ t = 1 T a t , i ⋅ x t ≤ C i 目標 : 収集された総報酬を最大化し、オフライン最適との後悔を最小化各タイプj ∈ [ n ] j \in [n] j ∈ [ n ] について:
需要ベクトルa t a_t a t は離散分布{ a 1 , … , a n } \{a_1, \ldots, a_n\} { a 1 , … , a n } から抽出 条件付き報酬r t r_t r t は区間[ l j , u j ] [l_j, u_j] [ l j , u j ] 上で連続分布 密度関数はf ( r ∣ a j ) ≥ α > 0 f(r|a_j) \geq \alpha > 0 f ( r ∣ a j ) ≥ α > 0 を満たす 与えられたタイプ計数d = ( d 1 , … , d n ) d = (d_1, \ldots, d_n) d = ( d 1 , … , d n ) に対して:
V c Semi ( d ) = max x ∑ j = 1 n d j ⋅ E r ∼ F j [ r ⋅ x j ( r ) ] V^{\text{Semi}}_c(d) = \max_x \sum_{j=1}^n d_j \cdot \mathbb{E}_{r \sim F_j}[r \cdot x_j(r)] V c Semi ( d ) = max x ∑ j = 1 n d j ⋅ E r ∼ F j [ r ⋅ x j ( r )]
制約条件:
∑ j = 1 n d j ⋅ a j , i ⋅ E r ∼ F j [ x j ( r ) ] ≤ c i , ∀ i ∈ [ m ] \sum_{j=1}^n d_j \cdot a_{j,i} \cdot \mathbb{E}_{r \sim F_j}[x_j(r)] \leq c_i, \quad \forall i \in [m] ∑ j = 1 n d j ⋅ a j , i ⋅ E r ∼ F j [ x j ( r )] ≤ c i , ∀ i ∈ [ m ]
アルゴリズム1: M ^ \hat{M} M ^ -推定器戦略
クエリ( r t , a t ) (r_t, a_t) ( r t , a t ) を観察 推定器M ^ c t , a t \hat{M}_{c_t, a_t} M ^ c t , a t を計算 r t ≥ M ^ c t , a t r_t \geq \hat{M}_{c_t, a_t} r t ≥ M ^ c t , a t かつc t ≥ a t c_t \geq a_t c t ≥ a t の場合、受け入れそれ以外の場合、拒否 アルゴリズム2: O ( log 2 T ) O(\log^2 T) O ( log 2 T ) 後悔アルゴリズム
最適化問題(13)を解いて{ q ^ j , t ∗ } \{\hat{q}^*_{j,t}\} { q ^ j , t ∗ } を得る q ^ j t , t ∗ \hat{q}^*_{j_t,t} q ^ j t , t ∗ の値に基づいて境界吸引戦略を設定:
q ^ j t , t ∗ ≥ 1 − 2 κ 1 log ( T − t + 1 ) T − t + 1 \hat{q}^*_{j_t,t} \geq 1 - 2\kappa_1 \sqrt{\frac{\log(T-t+1)}{T-t+1}} q ^ j t , t ∗ ≥ 1 − 2 κ 1 T − t + 1 l o g ( T − t + 1 ) の場合、M ^ = l j t \hat{M} = l_{j_t} M ^ = l j t (常に受け入れ)を設定q ^ j t , t ∗ ≤ 2 κ 1 log ( T − t + 1 ) T − t + 1 \hat{q}^*_{j_t,t} \leq 2\kappa_1 \sqrt{\frac{\log(T-t+1)}{T-t+1}} q ^ j t , t ∗ ≤ 2 κ 1 T − t + 1 l o g ( T − t + 1 ) の場合、M ^ = u j t + 1 \hat{M} = u_{j_t} + 1 M ^ = u j t + 1 (常に拒否)を設定それ以外の場合、M ^ = F j t − 1 ( 1 − q ^ j t , t ∗ ) \hat{M} = F^{-1}_{j_t}(1 - \hat{q}^*_{j_t,t}) M ^ = F j t − 1 ( 1 − q ^ j t , t ∗ ) を設定 総後悔を以下のように分解:
Regret ( π ) ≤ ∑ t = 1 T E c t π [ Myopic t ( π , c t π ) ] \text{Regret}(\pi) \leq \sum_{t=1}^T \mathbb{E}_{c^{\pi}_t}[\text{Myopic}_t(\pi, c^{\pi}_t)] Regret ( π ) ≤ ∑ t = 1 T E c t π [ Myopic t ( π , c t π )]
ここで近視的後悔は以下のように定義:
Myopic t ( π , c ) = E π , I t [ V ˉ c ( I t ) − V ˉ c − a t ⋅ x t π ( I t + 1 ) − r t ⋅ x t π ] \text{Myopic}_t(\pi, c) = \mathbb{E}_{\pi, I_t}[\bar{V}_c(I_t) - \bar{V}_{c - a_t \cdot x^{\pi}_t}(I_{t+1}) - r_t \cdot x^{\pi}_t] Myopic t ( π , c ) = E π , I t [ V ˉ c ( I t ) − V ˉ c − a t ⋅ x t π ( I t + 1 ) − r t ⋅ x t π ]
半流体問題の最適解のリプシッツ性質を証明(補題4):
∥ q ^ ∗ − q ~ ∗ ∥ ∞ ≤ κ 1 ⋅ max j ∈ [ n ] { ∣ d j / s − p j ∣ } \|\hat{q}^* - \tilde{q}^*\|_{\infty} \leq \kappa_1 \cdot \max_{j \in [n]} \{|d_j/s - p_j|\} ∥ q ^ ∗ − q ~ ∗ ∥ ∞ ≤ κ 1 ⋅ max j ∈ [ n ] { ∣ d j / s − p j ∣ }
流体解が境界に近い場合に保守的な戦略を採用し、実行可能性の問題を回避:
1に近い場合は常に受け入れ 0に近い場合は常に拒否 中間領域では閾値戦略を使用 リソース数 : m m m 個のリソース顧客タイプ : n n n 種類容量設定 : C i = α i ⋅ T C_i = \alpha_i \cdot T C i = α i ⋅ T 報酬分布 : 各タイプは[ l j , u j ] [l_j, u_j] [ l j , u j ] 上で均一分布比較アルゴリズム :
固定競価戦略(FBP) 双対更新戦略 アルゴリズム2と3 期待総収益 : 各戦略が収集した平均報酬相対性能 : 固定競価戦略との比率後悔増加率 : 後悔の時間Tに対する増加挙動定理1 : アルゴリズム2はO ( log 2 T ) O(\log^2 T) O ( log 2 T ) 後悔を達成:
Regret ( π ) ≤ ( 2 κ 1 + 2 α + 4 α ∑ j = 1 n 1 p j ) log 2 T + s 0 ⋅ r max \text{Regret}(\pi) \leq \left(2\kappa_1 + \frac{2}{\alpha} + \frac{4}{\alpha} \sum_{j=1}^n \frac{1}{p_j}\right) \log^2 T + s_0 \cdot r_{\max} Regret ( π ) ≤ ( 2 κ 1 + α 2 + α 4 ∑ j = 1 n p j 1 ) log 2 T + s 0 ⋅ r m a x
定理2 : 追加仮定の下で、アルゴリズム3はO ( log T ) O(\log T) O ( log T ) 後悔を達成:
Regret ( π ) ≤ C 1 ⋅ log T + C 2 \text{Regret}(\pi) \leq C_1 \cdot \log T + C_2 Regret ( π ) ≤ C 1 ⋅ log T + C 2
時間依存性 : アルゴリズム2と3はTが増大するにつれてベースライン方法を上回るリソース数依存性 : 3つの先進アルゴリズムは異なるリソース数で同様の性能を示すタイプ数依存性 : 顧客タイプ数が増加するとき、アルゴリズム2と3は双対更新戦略を上回る第二の結果において、双対変数の分散界を証明:
E [ ( a t ⊤ μ ~ 1 − a t ⊤ μ ^ 1 ) 2 ] ≤ 8 d ˉ 2 α 2 β 2 ( s − 1 ) + 1 9 α ˉ d ˉ 2 ( s − 1 ) + 2 s − 1 \mathbb{E}[(a^{\top}_t \tilde{\mu}_1 - a^{\top}_t \hat{\mu}_1)^2] \leq \frac{8\bar{d}^2}{\alpha^2\beta^2(s-1)} + \frac{1}{9\bar{\alpha}\bar{d}^2(s-1)} + \frac{2}{s-1} E [( a t ⊤ μ ~ 1 − a t ⊤ μ ^ 1 ) 2 ] ≤ α 2 β 2 ( s − 1 ) 8 d ˉ 2 + 9 α ˉ d ˉ 2 ( s − 1 ) 1 + s − 1 2
O ( T ) O(\sqrt{T}) O ( T ) 後悔 : Talluri と Van Ryzin (1998)の静的競価戦略O ( 1 ) O(1) O ( 1 ) 後悔 : Jasin と Kumar (2012)の非退化条件下での結果非退化なし : Bumpensanti と Wang (2020)、Vera と Banerjee (2021)の離散ケース複数秘書問題 : Bray (2019)の単一リソース場合のΘ ( log T ) \Theta(\log T) Θ ( log T ) 結果非退化仮定 : Li と Ye (2021)、Balseiro等(2021)、Bray (2022)の研究非退化仮定なしに連続報酬NRMで対数後悔を初めて実現 半流体緩和は新しい分析フレームワークを提供 境界吸引戦略は退化ケースを効果的に処理 密度下界 : 密度関数が0から遠く離れているという仮定が依然必要定数項 : O ( log 2 T ) O(\log^2 T) O ( log 2 T ) 結果の定数項はnに対して指数的に依存二次増長 : より良いO ( log T ) O(\log T) O ( log T ) 結果は追加の強凸性仮定が必要定数項の依存関係を改善 より一般的な分布クラスへの拡張 下界の一致性を研究 理論的突破 : 長年存在する退化問題を解決技術的革新 : 半流体緩和と境界吸引戦略は新規性を持つ実用的価値 : 方法は実際の連続価格設定シナリオに適用可能分析の厳密性 : 数学的証明は詳細で完全仮定の制限 : 有限タイプと密度下界仮定が依然必要定数項 : 第一の結果の定数項は比較的大きい実験の限定 : 数値実験は比較的単純で、実データ検証が不足理論的貢献 : NRM理論に新しい分析ツールを提供方法論 : 半流体緩和は他のオンライン最適化問題に適用可能実践的指導 : 実際の収益管理システムに理論的基礎を提供航空収益管理における座席配分 ホテルの客室価格設定と配分 オンライン広告入札システム クラウドリソースの動的価格設定 主要な関連研究には以下が含まれます:
Jasin と Kumar (2012): NRMにおける再最適化ヒューリスティック Bumpensanti と Wang (2020): 非退化仮定なしの離散ケース Li と Ye (2021): オンライン線形計画の双対収束 Bray (2022): 連続値複数秘書問題 本論文はネットワーク収益管理理論において重要な突破を達成し、従来の非退化仮定を必要とせずに連続分布設定で対数的後悔を初めて実現しました。技術的革新には半流体緩和、境界吸引戦略、改善された双対収束分析が含まれ、この分野の理論的発展に重要な貢献をしています。