2025-11-10T02:43:59.651588

Degeneracy is OK: Logarithmic Regret for Network Revenue Management with Indiscrete Distributions

Jiang, Ma, Zhang

We study the classical Network Revenue Management (NRM) problem with accept/reject decisions and $T$ IID arrivals. We consider a distributional form where each arrival must fall under a finite number of possible categories, each with a deterministic resource consumption vector, but a random value distributed continuously over an interval. We develop an online algorithm that achieves $O(\log^2 T)$ regret under this model, with the only (necessary) assumption being that the probability densities are bounded away from 0. We derive a second result that achieves $O(\log T)$ regret under an additional assumption of second-order growth. To our knowledge, these are the first results achieving logarithmic-level regret in an NRM model with continuous values that do not require any kind of "non-degeneracy" assumptions. Our results are achieved via new techniques including a new method of bounding myopic regret, a "semi-fluid" relaxation of the offline allocation, and an improved bound on the "dual convergence".

academic

Degeneracy is OK: Logarithmic Regret for Network Revenue Management with Indiscrete Distributions

基本信息

论文ID: 2210.07996
标题: Degeneracy is OK: Logarithmic Regret for Network Revenue Management with Indiscrete Distributions
作者: Jiashuo Jiang (HKUST), Will Ma (Columbia University), Jiawei Zhang (NYU Stern)
分类: cs.LG math.PR
发表时间: 2025年1月2日 (arXiv v5)
论文链接: https://arxiv.org/abs/2210.07996

摘要

本文研究经典的网络收益管理(NRM)问题，涉及接受/拒绝决策和T个独立同分布到达。我们考虑一种分布形式，其中每个到达必须属于有限数量的可能类别，每个类别具有确定性的资源消耗向量，但价值在区间上连续分布。我们开发了一个在线算法，在此模型下实现 $O(\log^2 T)$ 后悔，唯一(必要)假设是概率密度远离0。我们得出第二个结果，在二阶增长的额外假设下实现 $O(\log T)$ 后悔。据我们所知，这些是在具有连续值的NRM模型中实现对数级后悔的首批结果，不需要任何"非退化"假设。

研究背景与动机

问题定义

网络收益管理(NRM)是一个容量控制问题，需要在长度为T的有限时间范围内分配有限资源。在每个时间步t，一个查询到达，需要资源向量 $\tilde{a}_t$ 并提供奖励 $\tilde{r}_t$ 。决策者必须立即做出不可撤销的决定是否服务该查询。

研究动机

实际重要性: NRM在航空、酒店等行业具有重要应用价值
理论挑战: 现有文献在处理连续分布时需要强"非退化"假设
方法局限: 传统方法要么假设离散分布(小N假设)，要么需要非退化条件

现有方法的局限性

小N假设: 限制为有限离散分布，无法处理连续奖励
非退化假设: 要求流体松弛的最优解唯一且满足严格互补松弛条件
扰动方法: 传统LP退化处理方法会导致 $\Omega(\sqrt{T})$ 后悔

核心贡献

首次实现对数后悔: 在连续分布NRM中首次实现对数级后悔，无需非退化假设
新的半流体松弛: 提出介于离线最优和流体松弛之间的新松弛方法
改进的近视后悔界: 开发新的近视后悔分析技术
双重结果:
- $O(\log^2 T)$ 后悔(仅需密度下界)
- $O(\log T)$ 后悔(额外二阶增长条件)

方法详解

任务定义

输入: T个独立同分布查询，每个查询 $(r_t, a_t)$ 包含奖励和资源需求
约束: 初始容量 $C \in \mathbb{R}^m_{\geq 0}$ ，容量约束 $\sum_{t=1}^T a_{t,i} \cdot x_t \leq C_i$
目标: 最大化总收集奖励，最小化与离线最优的后悔

模型架构

分布假设(Assumption 1)

对于每个类型 $j \in [n]$ :

需求向量 $a_t$ 从离散分布 $\{a_1, \ldots, a_n\}$ 中抽取
条件奖励 $r_t$ 在区间 $[l_j, u_j]$ 上连续分布
密度函数满足 $f(r|a_j) \geq \alpha > 0$

半流体松弛

对于给定的类型计数 $d = (d_1, \ldots, d_n)$ :

$V^{\text{Semi}}_c(d) = \max_x \sum_{j=1}^n d_j \cdot \mathbb{E}_{r \sim F_j}[r \cdot x_j(r)]$

受约束: $\sum_{j=1}^n d_j \cdot a_{j,i} \cdot \mathbb{E}_{r \sim F_j}[x_j(r)] \leq c_i, \quad \forall i \in [m]$

算法设计

算法1: $\hat{M}$ -估计器策略

观察查询 $(r_t, a_t)$
计算估计器 $\hat{M}_{c_t, a_t}$
如果 $r_t \geq \hat{M}_{c_t, a_t}$ 且 $c_t \geq a_t$ ，则接受
否则拒绝

算法2: $O(\log^2 T)$ 后悔算法

求解优化问题(13)得到 $\{\hat{q}^*_{j,t}\}$
根据 $\hat{q}^*_{j_t,t}$ $\overset{q}{^}_{j_{t}, t}^{*}$ 的值设置边界吸引策略:
- 如果 $\hat{q}^*_{j_t,t} \geq 1 - 2\kappa_1 \sqrt{\frac{\log(T-t+1)}{T-t+1}}$ ，设置 $\hat{M} = l_{j_t}$ (总是接受)
- 如果 $\hat{q}^*_{j_t,t} \leq 2\kappa_1 \sqrt{\frac{\log(T-t+1)}{T-t+1}}$ ，设置 $\hat{M} = u_{j_t} + 1$ (总是拒绝)
- 否则设置 $\hat{M} = F^{-1}_{j_t}(1 - \hat{q}^*_{j_t,t})$

技术创新点

1. 近视后悔分解

将总后悔分解为: $\text{Regret}(\pi) \leq \sum_{t=1}^T \mathbb{E}_{c^{\pi}_t}[\text{Myopic}_t(\pi, c^{\pi}_t)]$

其中近视后悔定义为: $\text{Myopic}_t(\pi, c) = \mathbb{E}_{\pi, I_t}[\bar{V}_c(I_t) - \bar{V}_{c - a_t \cdot x^{\pi}_t}(I_{t+1}) - r_t \cdot x^{\pi}_t]$

2. Lipschitz连续性分析

证明了半流体问题最优解的Lipschitz性质(引理4): $\|\hat{q}^* - \tilde{q}^*\|_{\infty} \leq \kappa_1 \cdot \max_{j \in [n]} \{|d_j/s - p_j|\}$

3. 边界吸引策略

当流体解接近边界时采用保守策略，避免可行性问题:

接近1时总是接受
接近0时总是拒绝
中间区域使用阈值策略

实验设置

数值实验配置

资源数: $m$ 个资源
客户类型: $n$ 种类型
容量设置: $C_i = \alpha_i \cdot T$
奖励分布: 各类型在 $[l_j, u_j]$ 上均匀分布
比较算法:
- 固定竞价策略(FBP)
- 对偶更新策略
- 算法2和算法3

评价指标

期望总收益: 各策略收集的平均奖励
相对性能: 与固定竞价策略的比值
后悔增长率: 后悔随时间T的增长情况

实验结果

主要结果

理论结果

定理1: 算法2实现 $O(\log^2 T)$ 后悔: $\text{Regret}(\pi) \leq \left(2\kappa_1 + \frac{2}{\alpha} + \frac{4}{\alpha} \sum_{j=1}^n \frac{1}{p_j}\right) \log^2 T + s_0 \cdot r_{\max}$