We study the classical Network Revenue Management (NRM) problem with accept/reject decisions and $T$ IID arrivals. We consider a distributional form where each arrival must fall under a finite number of possible categories, each with a deterministic resource consumption vector, but a random value distributed continuously over an interval. We develop an online algorithm that achieves $O(\log^2 T)$ regret under this model, with the only (necessary) assumption being that the probability densities are bounded away from 0. We derive a second result that achieves $O(\log T)$ regret under an additional assumption of second-order growth. To our knowledge, these are the first results achieving logarithmic-level regret in an NRM model with continuous values that do not require any kind of "non-degeneracy" assumptions. Our results are achieved via new techniques including a new method of bounding myopic regret, a "semi-fluid" relaxation of the offline allocation, and an improved bound on the "dual convergence".
论文ID : 2210.07996标题 : Degeneracy is OK: Logarithmic Regret for Network Revenue Management with Indiscrete Distributions作者 : Jiashuo Jiang (HKUST), Will Ma (Columbia University), Jiawei Zhang (NYU Stern)分类 : cs.LG math.PR发表时间 : 2025年1月2日 (arXiv v5)论文链接 : https://arxiv.org/abs/2210.07996 本文研究经典的网络收益管理(NRM)问题,涉及接受/拒绝决策和T个独立同分布到达。我们考虑一种分布形式,其中每个到达必须属于有限数量的可能类别,每个类别具有确定性的资源消耗向量,但价值在区间上连续分布。我们开发了一个在线算法,在此模型下实现O ( log 2 T ) O(\log^2 T) O ( log 2 T ) 后悔,唯一(必要)假设是概率密度远离0。我们得出第二个结果,在二阶增长的额外假设下实现O ( log T ) O(\log T) O ( log T ) 后悔。据我们所知,这些是在具有连续值的NRM模型中实现对数级后悔的首批结果,不需要任何"非退化"假设。
网络收益管理(NRM)是一个容量控制问题,需要在长度为T的有限时间范围内分配有限资源。在每个时间步t,一个查询到达,需要资源向量a ~ t \tilde{a}_t a ~ t 并提供奖励r ~ t \tilde{r}_t r ~ t 。决策者必须立即做出不可撤销的决定是否服务该查询。
实际重要性 : NRM在航空、酒店等行业具有重要应用价值理论挑战 : 现有文献在处理连续分布时需要强"非退化"假设方法局限 : 传统方法要么假设离散分布(小N假设),要么需要非退化条件小N假设 : 限制为有限离散分布,无法处理连续奖励非退化假设 : 要求流体松弛的最优解唯一且满足严格互补松弛条件扰动方法 : 传统LP退化处理方法会导致Ω ( T ) \Omega(\sqrt{T}) Ω ( T ) 后悔首次实现对数后悔 : 在连续分布NRM中首次实现对数级后悔,无需非退化假设新的半流体松弛 : 提出介于离线最优和流体松弛之间的新松弛方法改进的近视后悔界 : 开发新的近视后悔分析技术双重结果 :
O ( log 2 T ) O(\log^2 T) O ( log 2 T ) 后悔(仅需密度下界)O ( log T ) O(\log T) O ( log T ) 后悔(额外二阶增长条件)输入 : T个独立同分布查询,每个查询( r t , a t ) (r_t, a_t) ( r t , a t ) 包含奖励和资源需求约束 : 初始容量C ∈ R ≥ 0 m C \in \mathbb{R}^m_{\geq 0} C ∈ R ≥ 0 m ,容量约束∑ t = 1 T a t , i ⋅ x t ≤ C i \sum_{t=1}^T a_{t,i} \cdot x_t \leq C_i ∑ t = 1 T a t , i ⋅ x t ≤ C i 目标 : 最大化总收集奖励,最小化与离线最优的后悔对于每个类型j ∈ [ n ] j \in [n] j ∈ [ n ] :
需求向量a t a_t a t 从离散分布{ a 1 , … , a n } \{a_1, \ldots, a_n\} { a 1 , … , a n } 中抽取 条件奖励r t r_t r t 在区间[ l j , u j ] [l_j, u_j] [ l j , u j ] 上连续分布 密度函数满足f ( r ∣ a j ) ≥ α > 0 f(r|a_j) \geq \alpha > 0 f ( r ∣ a j ) ≥ α > 0 对于给定的类型计数d = ( d 1 , … , d n ) d = (d_1, \ldots, d_n) d = ( d 1 , … , d n ) :
V c Semi ( d ) = max x ∑ j = 1 n d j ⋅ E r ∼ F j [ r ⋅ x j ( r ) ] V^{\text{Semi}}_c(d) = \max_x \sum_{j=1}^n d_j \cdot \mathbb{E}_{r \sim F_j}[r \cdot x_j(r)] V c Semi ( d ) = max x ∑ j = 1 n d j ⋅ E r ∼ F j [ r ⋅ x j ( r )]
受约束:
∑ j = 1 n d j ⋅ a j , i ⋅ E r ∼ F j [ x j ( r ) ] ≤ c i , ∀ i ∈ [ m ] \sum_{j=1}^n d_j \cdot a_{j,i} \cdot \mathbb{E}_{r \sim F_j}[x_j(r)] \leq c_i, \quad \forall i \in [m] ∑ j = 1 n d j ⋅ a j , i ⋅ E r ∼ F j [ x j ( r )] ≤ c i , ∀ i ∈ [ m ]
算法1: M ^ \hat{M} M ^ -估计器策略
观察查询( r t , a t ) (r_t, a_t) ( r t , a t ) 计算估计器M ^ c t , a t \hat{M}_{c_t, a_t} M ^ c t , a t 如果r t ≥ M ^ c t , a t r_t \geq \hat{M}_{c_t, a_t} r t ≥ M ^ c t , a t 且c t ≥ a t c_t \geq a_t c t ≥ a t ,则接受 否则拒绝 算法2: O ( log 2 T ) O(\log^2 T) O ( log 2 T ) 后悔算法
求解优化问题(13)得到{ q ^ j , t ∗ } \{\hat{q}^*_{j,t}\} { q ^ j , t ∗ } 根据q ^ j t , t ∗ \hat{q}^*_{j_t,t} q ^ j t , t ∗ 的值设置边界吸引策略:
如果q ^ j t , t ∗ ≥ 1 − 2 κ 1 log ( T − t + 1 ) T − t + 1 \hat{q}^*_{j_t,t} \geq 1 - 2\kappa_1 \sqrt{\frac{\log(T-t+1)}{T-t+1}} q ^ j t , t ∗ ≥ 1 − 2 κ 1 T − t + 1 l o g ( T − t + 1 ) ,设置M ^ = l j t \hat{M} = l_{j_t} M ^ = l j t (总是接受) 如果q ^ j t , t ∗ ≤ 2 κ 1 log ( T − t + 1 ) T − t + 1 \hat{q}^*_{j_t,t} \leq 2\kappa_1 \sqrt{\frac{\log(T-t+1)}{T-t+1}} q ^ j t , t ∗ ≤ 2 κ 1 T − t + 1 l o g ( T − t + 1 ) ,设置M ^ = u j t + 1 \hat{M} = u_{j_t} + 1 M ^ = u j t + 1 (总是拒绝) 否则设置M ^ = F j t − 1 ( 1 − q ^ j t , t ∗ ) \hat{M} = F^{-1}_{j_t}(1 - \hat{q}^*_{j_t,t}) M ^ = F j t − 1 ( 1 − q ^ j t , t ∗ ) 将总后悔分解为:
Regret ( π ) ≤ ∑ t = 1 T E c t π [ Myopic t ( π , c t π ) ] \text{Regret}(\pi) \leq \sum_{t=1}^T \mathbb{E}_{c^{\pi}_t}[\text{Myopic}_t(\pi, c^{\pi}_t)] Regret ( π ) ≤ ∑ t = 1 T E c t π [ Myopic t ( π , c t π )]
其中近视后悔定义为:
Myopic t ( π , c ) = E π , I t [ V ˉ c ( I t ) − V ˉ c − a t ⋅ x t π ( I t + 1 ) − r t ⋅ x t π ] \text{Myopic}_t(\pi, c) = \mathbb{E}_{\pi, I_t}[\bar{V}_c(I_t) - \bar{V}_{c - a_t \cdot x^{\pi}_t}(I_{t+1}) - r_t \cdot x^{\pi}_t] Myopic t ( π , c ) = E π , I t [ V ˉ c ( I t ) − V ˉ c − a t ⋅ x t π ( I t + 1 ) − r t ⋅ x t π ]
证明了半流体问题最优解的Lipschitz性质(引理4):
∥ q ^ ∗ − q ~ ∗ ∥ ∞ ≤ κ 1 ⋅ max j ∈ [ n ] { ∣ d j / s − p j ∣ } \|\hat{q}^* - \tilde{q}^*\|_{\infty} \leq \kappa_1 \cdot \max_{j \in [n]} \{|d_j/s - p_j|\} ∥ q ^ ∗ − q ~ ∗ ∥ ∞ ≤ κ 1 ⋅ max j ∈ [ n ] { ∣ d j / s − p j ∣ }
当流体解接近边界时采用保守策略,避免可行性问题:
接近1时总是接受 接近0时总是拒绝 中间区域使用阈值策略 资源数 : m m m 个资源客户类型 : n n n 种类型容量设置 : C i = α i ⋅ T C_i = \alpha_i \cdot T C i = α i ⋅ T 奖励分布 : 各类型在[ l j , u j ] [l_j, u_j] [ l j , u j ] 上均匀分布比较算法 :
期望总收益 : 各策略收集的平均奖励相对性能 : 与固定竞价策略的比值后悔增长率 : 后悔随时间T的增长情况定理1 : 算法2实现O ( log 2 T ) O(\log^2 T) O ( log 2 T ) 后悔:
Regret ( π ) ≤ ( 2 κ 1 + 2 α + 4 α ∑ j = 1 n 1 p j ) log 2 T + s 0 ⋅ r max \text{Regret}(\pi) \leq \left(2\kappa_1 + \frac{2}{\alpha} + \frac{4}{\alpha} \sum_{j=1}^n \frac{1}{p_j}\right) \log^2 T + s_0 \cdot r_{\max} Regret ( π ) ≤ ( 2 κ 1 + α 2 + α 4 ∑ j = 1 n p j 1 ) log 2 T + s 0 ⋅ r m a x
定理2 : 在额外假设下,算法3实现O ( log T ) O(\log T) O ( log T ) 后悔:
Regret ( π ) ≤ C 1 ⋅ log T + C 2 \text{Regret}(\pi) \leq C_1 \cdot \log T + C_2 Regret ( π ) ≤ C 1 ⋅ log T + C 2
时间依赖性 : 算法2和3在T增大时表现优于基准方法资源数依赖性 : 三种先进算法在不同资源数下表现相似类型数依赖性 : 当客户类型数增加时,算法2和3优于对偶更新策略在第二个结果中,证明了对偶变量的方差界:
E [ ( a t ⊤ μ ~ 1 − a t ⊤ μ ^ 1 ) 2 ] ≤ 8 d ˉ 2 α 2 β 2 ( s − 1 ) + 1 9 α ˉ d ˉ 2 ( s − 1 ) + 2 s − 1 \mathbb{E}[(a^{\top}_t \tilde{\mu}_1 - a^{\top}_t \hat{\mu}_1)^2] \leq \frac{8\bar{d}^2}{\alpha^2\beta^2(s-1)} + \frac{1}{9\bar{\alpha}\bar{d}^2(s-1)} + \frac{2}{s-1} E [( a t ⊤ μ ~ 1 − a t ⊤ μ ^ 1 ) 2 ] ≤ α 2 β 2 ( s − 1 ) 8 d ˉ 2 + 9 α ˉ d ˉ 2 ( s − 1 ) 1 + s − 1 2
O ( T ) O(\sqrt{T}) O ( T ) 后悔 : Talluri和Van Ryzin (1998)的静态竞价策略O ( 1 ) O(1) O ( 1 ) 后悔 : Jasin和Kumar (2012)在非退化条件下的结果无非退化 : Bumpensanti和Wang (2020), Vera和Banerjee (2021)的离散情况多秘书问题 : Bray (2019)在单资源情况下的Θ ( log T ) \Theta(\log T) Θ ( log T ) 结果非退化假设 : Li和Ye (2021), Balseiro等(2021), Bray (2022)的工作首次在连续奖励NRM中实现对数后悔而无需非退化假设 半流体松弛提供了新的分析框架 边界吸引策略有效处理了退化情况 密度下界 : 仍需要密度函数远离0的假设常数项 : O ( log 2 T ) O(\log^2 T) O ( log 2 T ) 结果的常数项依赖于指数级的n n n 二阶增长 : 更好的O ( log T ) O(\log T) O ( log T ) 结果需要额外的强凸性假设改进常数项的依赖关系 扩展到更一般的分布类 研究下界匹配性 理论突破 : 解决了长期存在的退化问题技术创新 : 半流体松弛和边界吸引策略具有新颖性实用价值 : 方法适用于实际的连续定价场景分析严谨 : 数学证明详细完整假设限制 : 仍需要有限类型和密度下界假设常数项 : 第一个结果的常数项较大实验有限 : 数值实验相对简单,缺乏真实数据验证理论贡献 : 为NRM理论提供了新的分析工具方法论 : 半流体松弛可能适用于其他在线优化问题实践指导 : 为实际收益管理系统提供了理论基础航空收益管理中的座位分配 酒店房间定价和分配 在线广告竞价系统 云资源动态定价 主要相关工作包括:
Jasin和Kumar (2012): NRM中的重解启发式 Bumpensanti和Wang (2020): 无非退化假设的离散情况 Li和Ye (2021): 在线线性规划的对偶收敛 Bray (2022): 连续值多秘书问题 本文在网络收益管理理论中取得了重要突破,首次在连续分布设置下实现了对数级后悔而无需传统的非退化假设。技术创新包括半流体松弛、边界吸引策略和改进的对偶收敛分析,为该领域的理论发展做出了重要贡献。