Degeneracy is OK: Logarithmic Regret for Network Revenue Management with Indiscrete Distributions
Jiang, Ma, Zhang
We study the classical Network Revenue Management (NRM) problem with accept/reject decisions and $T$ IID arrivals. We consider a distributional form where each arrival must fall under a finite number of possible categories, each with a deterministic resource consumption vector, but a random value distributed continuously over an interval. We develop an online algorithm that achieves $O(\log^2 T)$ regret under this model, with the only (necessary) assumption being that the probability densities are bounded away from 0. We derive a second result that achieves $O(\log T)$ regret under an additional assumption of second-order growth. To our knowledge, these are the first results achieving logarithmic-level regret in an NRM model with continuous values that do not require any kind of "non-degeneracy" assumptions. Our results are achieved via new techniques including a new method of bounding myopic regret, a "semi-fluid" relaxation of the offline allocation, and an improved bound on the "dual convergence".
academic
Вырождение допустимо: логарифмический регрет для управления доходом сети с недискретными распределениями
В данной работе исследуется классическая задача управления доходом сети (NRM), включающая решения о принятии/отклонении и T независимых одинаково распределённых поступлений. Рассматривается форма распределения, в которой каждое поступление должно принадлежать конечному числу возможных категорий с детерминированными векторами потребления ресурсов, но стоимость непрерывно распределена на интервале. Разработан онлайн-алгоритм, достигающий регрета O(log2T) в данной модели при единственном (необходимом) предположении, что плотность вероятности отделена от нуля. Получен второй результат, достигающий регрета O(logT) при дополнительном предположении о росте второго порядка. Насколько нам известно, это первые результаты, достигающие логарифмического регрета в модели NRM с непрерывными стоимостями без каких-либо предположений о «невырождении».
Управление доходом сети (NRM) — это задача контроля пропускной способности, требующая распределения ограниченных ресурсов в течение конечного временного горизонта длины T. На каждом временном шаге t поступает запрос, требующий вектор ресурсов a~t и предлагающий вознаграждение r~t. Лицо, принимающее решение, должно немедленно принять необратимое решение о том, обслуживать ли данный запрос.
Первое достижение логарифмического регрета: Впервые достигнут логарифмический регрет в NRM с непрерывными распределениями без предположения о невырождении
Новая полужидкостная релаксация: Предложен новый метод релаксации, находящийся между офлайн-оптимумом и релаксацией жидкости
Улучшенный анализ близорукого регрета: Разработана новая техника анализа близорукого регрета
Двойной результат:
Регрет O(log2T) (требуется только нижняя граница плотности)
Регрет O(logT) (при дополнительном условии роста второго порядка)
Jasin и Kumar (2012): Эвристика переформулирования в NRM
Bumpensanti и Wang (2020): Дискретный случай без предположения о невырождении
Li и Ye (2021): Двойственная сходимость в онлайн-линейном программировании
Bray (2022): Задача множественного секретаря с непрерывными значениями
Данная работа достигает важного прорыва в теории управления доходом сети, впервые достигая логарифмического регрета в условиях непрерывного распределения без традиционного предположения о невырождении. Технические инновации включают полужидкостную релаксацию, стратегию граничного притяжения и улучшенный анализ двойственной сходимости, что представляет значительный вклад в теоретическое развитие данной области.