2025-11-10T02:43:59.651588

Degeneracy is OK: Logarithmic Regret for Network Revenue Management with Indiscrete Distributions

Jiang, Ma, Zhang

We study the classical Network Revenue Management (NRM) problem with accept/reject decisions and $T$ IID arrivals. We consider a distributional form where each arrival must fall under a finite number of possible categories, each with a deterministic resource consumption vector, but a random value distributed continuously over an interval. We develop an online algorithm that achieves $O(\log^2 T)$ regret under this model, with the only (necessary) assumption being that the probability densities are bounded away from 0. We derive a second result that achieves $O(\log T)$ regret under an additional assumption of second-order growth. To our knowledge, these are the first results achieving logarithmic-level regret in an NRM model with continuous values that do not require any kind of "non-degeneracy" assumptions. Our results are achieved via new techniques including a new method of bounding myopic regret, a "semi-fluid" relaxation of the offline allocation, and an improved bound on the "dual convergence".

academic

La Dégénérescence est Acceptable : Regret Logarithmique pour la Gestion des Revenus Réseau avec Distributions Non-Discrètes

Informations Fondamentales

ID de l'article: 2210.07996
Titre: Degeneracy is OK: Logarithmic Regret for Network Revenue Management with Indiscrete Distributions
Auteurs: Jiashuo Jiang (HKUST), Will Ma (Columbia University), Jiawei Zhang (NYU Stern)
Classification: cs.LG math.PR
Date de publication: 2 janvier 2025 (arXiv v5)
Lien de l'article: https://arxiv.org/abs/2210.07996

Résumé

Cet article étudie le problème classique de la gestion des revenus réseau (GRR), impliquant des décisions d'acceptation/rejet et T arrivées indépendantes et identiquement distribuées. Nous considérons une forme de distribution où chaque arrivée doit appartenir à un nombre fini de catégories possibles, chaque catégorie possédant un vecteur de consommation de ressources déterministe, mais avec une valeur distribuée continûment sur un intervalle. Nous développons un algorithme en ligne qui réalise un regret $O(\log^2 T)$ dans ce modèle, avec comme seule hypothèse (nécessaire) que la densité de probabilité s'éloigne de 0. Nous dérivons un deuxième résultat réalisant un regret $O(\log T)$ sous une hypothèse supplémentaire de croissance du second ordre. À notre connaissance, ce sont les premiers résultats réalisant un regret logarithmique dans les modèles de GRR avec valeurs continues, sans nécessiter aucune hypothèse de « non-dégénérescence ».

Contexte et Motivation de la Recherche

Définition du Problème

La gestion des revenus réseau (GRR) est un problème de contrôle de capacité nécessitant l'allocation de ressources limitées sur un horizon temporel fini de longueur T. À chaque étape temporelle t, une requête arrive, demandant un vecteur de ressources $\tilde{a}_t$ et offrant une récompense $\tilde{r}_t$ . Le décideur doit prendre immédiatement une décision irrévocable quant à l'acceptation ou le rejet de cette requête.

Motivation de la Recherche

Importance pratique: La GRR possède une valeur applicative significative dans les secteurs aérien, hôtelier, etc.
Défis théoriques: La littérature existante nécessite des hypothèses fortes de « non-dégénérescence » lors du traitement de distributions continues
Limitations méthodologiques: Les approches traditionnelles supposent soit des distributions discrètes finies (hypothèse de petit N), soit des conditions de non-dégénérescence

Limitations des Approches Existantes

Hypothèse de petit N: Limitée aux distributions discrètes finies, incapable de traiter les récompenses continues
Hypothèse de non-dégénérescence: Exige que la solution optimale de la relaxation fluide soit unique et satisfasse les conditions strictes de complémentarité
Méthodes de perturbation: Les approches traditionnelles de traitement de la dégénérescence en programmation linéaire conduisent à un regret $\Omega(\sqrt{T})$

Contributions Principales

Première réalisation d'un regret logarithmique: Premier résultat de regret logarithmique en GRR avec distributions continues, sans hypothèse de non-dégénérescence
Nouvelle relaxation semi-fluide: Proposition d'une nouvelle méthode de relaxation intermédiaire entre l'optimum hors ligne et la relaxation fluide
Analyse améliorée du regret myope: Développement de nouvelles techniques d'analyse du regret myope
Résultats doubles:
- Regret $O(\log^2 T)$ (nécessitant uniquement une borne inférieure de densité)
- Regret $O(\log T)$ (avec condition supplémentaire de croissance du second ordre)

Explication Détaillée de la Méthode

Définition de la Tâche

Entrée: T requêtes indépendantes et identiquement distribuées, chaque requête $(r_t, a_t)$ contenant une récompense et une demande de ressources
Contraintes: Capacité initiale $C \in \mathbb{R}^m_{\geq 0}$ , contrainte de capacité $\sum_{t=1}^T a_{t,i} \cdot x_t \leq C_i$
Objectif: Maximiser la récompense totale collectée, minimiser le regret par rapport à l'optimum hors ligne

Architecture du Modèle

Hypothèse de Distribution (Hypothèse 1)

Pour chaque type $j \in [n]$ :

Le vecteur de demande $a_t$ est tiré d'une distribution discrète $\{a_1, \ldots, a_n\}$
La récompense conditionnelle $r_t$ suit une distribution continue sur l'intervalle $[l_j, u_j]$
La fonction de densité satisfait $f(r|a_j) \geq \alpha > 0$

Relaxation Semi-Fluide

Pour un compte de types donné $d = (d_1, \ldots, d_n)$ :

$V^{\text{Semi}}_c(d) = \max_x \sum_{j=1}^n d_j \cdot \mathbb{E}_{r \sim F_j}[r \cdot x_j(r)]$

Sous les contraintes: $\sum_{j=1}^n d_j \cdot a_{j,i} \cdot \mathbb{E}_{r \sim F_j}[x_j(r)] \leq c_i, \quad \forall i \in [m]$

Conception de l'Algorithme

Algorithme 1: Stratégie d'Estimateur $\hat{M}$

Observer la requête $(r_t, a_t)$
Calculer l'estimateur $\hat{M}_{c_t, a_t}$
Si $r_t \geq \hat{M}_{c_t, a_t}$ et $c_t \geq a_t$ , accepter
Sinon, rejeter

Algorithme 2: Algorithme de Regret $O(\log^2 T)$

Résoudre le problème d'optimisation (13) pour obtenir $\{\hat{q}^*_{j,t}\}$
Établir une stratégie d'attraction aux limites selon la valeur de $\hat{q}^*_{j_t,t}$ $\overset{q}{^}_{j_{t}, t}^{*}$ :
- Si $\hat{q}^*_{j_t,t} \geq 1 - 2\kappa_1 \sqrt{\frac{\log(T-t+1)}{T-t+1}}$ , définir $\hat{M} = l_{j_t}$ (toujours accepter)
- Si $\hat{q}^*_{j_t,t} \leq 2\kappa_1 \sqrt{\frac{\log(T-t+1)}{T-t+1}}$ , définir $\hat{M} = u_{j_t} + 1$ (toujours rejeter)
- Sinon, définir $\hat{M} = F^{-1}_{j_t}(1 - \hat{q}^*_{j_t,t})$

Points d'Innovation Technique

1. Décomposition du Regret Myope

Décomposition du regret total en: $\text{Regret}(\pi) \leq \sum_{t=1}^T \mathbb{E}_{c^{\pi}_t}[\text{Myopic}_t(\pi, c^{\pi}_t)]$

où le regret myope est défini comme: $\text{Myopic}_t(\pi, c) = \mathbb{E}_{\pi, I_t}[\bar{V}_c(I_t) - \bar{V}_{c - a_t \cdot x^{\pi}_t}(I_{t+1}) - r_t \cdot x^{\pi}_t]$

2. Analyse de Continuité Lipschitzienne

Preuve de la propriété Lipschitzienne de la solution optimale du problème semi-fluide (Lemme 4): $\|\hat{q}^* - \tilde{q}^*\|_{\infty} \leq \kappa_1 \cdot \max_{j \in [n]} \{|d_j/s - p_j|\}$

3. Stratégie d'Attraction aux Limites

Adoption d'une stratégie conservatrice lorsque la solution fluide s'approche des limites, évitant les problèmes de faisabilité:

Acceptation systématique près de 1
Rejet systématique près de 0
Stratégie de seuil dans la région intermédiaire

Configuration Expérimentale

Configuration des Expériences Numériques

Nombre de ressources: $m$ ressources
Types de clients: $n$ types
Paramétrage de capacité: $C_i = \alpha_i \cdot T$
Distribution de récompenses: Distribution uniforme sur $[l_j, u_j]$ pour chaque type
Algorithmes de comparaison:
- Stratégie de prix fixe (SPF)
- Stratégie de mise à jour duale
- Algorithmes 2 et 3

Indicateurs d'Évaluation

Récompense totale attendue: Récompense moyenne collectée par chaque stratégie
Performance relative: Ratio par rapport à la stratégie de prix fixe
Taux de croissance du regret: Croissance du regret en fonction du temps T

Résultats Expérimentaux

Résultats Principaux

Résultats Théoriques

Théorème 1: L'Algorithme 2 réalise un regret $O(\log^2 T)$ : $\text{Regret}(\pi) \leq \left(2\kappa_1 + \frac{2}{\alpha} + \frac{4}{\alpha} \sum_{j=1}^n \frac{1}{p_j}\right) \log^2 T + s_0 \cdot r_{\max}$

Théorème 2: Sous hypothèses supplémentaires, l'Algorithme 3 réalise un regret $O(\log T)$ : $\text{Regret}(\pi) \leq C_1 \cdot \log T + C_2$

Résultats des Expériences Numériques

Dépendance temporelle: Les Algorithmes 2 et 3 surpassent les méthodes de référence à mesure que T augmente
Dépendance du nombre de ressources: Les trois algorithmes avancés présentent des performances similaires pour différents nombres de ressources
Dépendance du nombre de types: Lorsque le nombre de types de clients augmente, les Algorithmes 2 et 3 surpassent la stratégie de mise à jour duale

Analyse Technique Clé

Borne de Convergence Duale

Dans le deuxième résultat, preuve de la borne de variance des variables duales: $\mathbb{E}[(a^{\top}_t \tilde{\mu}_1 - a^{\top}_t \hat{\mu}_1)^2] \leq \frac{8\bar{d}^2}{\alpha^2\beta^2(s-1)} + \frac{1}{9\bar{\alpha}\bar{d}^2(s-1)} + \frac{2}{s-1}$

Travaux Connexes

Évolution de la Littérature en GRR

Regret $O(\sqrt{T})$ : Stratégies de prix statiques de Talluri et Van Ryzin (1998)
Regret $O(1)$ : Résultats de Jasin et Kumar (2012) sous conditions de non-dégénérescence
Sans non-dégénérescence: Travaux de Bumpensanti et Wang (2020), Vera et Banerjee (2021) dans le cas discret

Recherche sur Distributions Continues

Problème multi-secrétaire: Résultat $\Theta(\log T)$ de Bray (2019) dans le cas d'une seule ressource
Hypothèse de non-dégénérescence: Travaux de Li et Ye (2021), Balseiro et al. (2021), Bray (2022)

Conclusion et Discussion

Conclusions Principales

Premier résultat de regret logarithmique en GRR avec récompenses continues sans hypothèse de non-dégénérescence
La relaxation semi-fluide fournit un nouveau cadre d'analyse
La stratégie d'attraction aux limites traite efficacement les cas dégénérés

Limitations

Borne inférieure de densité: Hypothèse toujours nécessaire que la fonction de densité s'éloigne de 0
Termes constants: Les termes constants du résultat $O(\log^2 T)$ dépendent exponentiellement de $n$
Croissance du second ordre: Le meilleur résultat $O(\log T)$ nécessite une hypothèse supplémentaire de forte convexité

Directions Futures

Amélioration de la dépendance des termes constants
Extension à des classes de distributions plus générales
Étude de la correspondance des bornes inférieures

Évaluation Approfondie

Avantages

Percée théorique: Résolution d'un problème de dégénérescence de longue date
Innovation technique: La relaxation semi-fluide et la stratégie d'attraction aux limites sont novatrices
Valeur pratique: Les méthodes s'appliquent à des scénarios de tarification continue réels
Analyse rigoureuse: Preuves mathématiques détaillées et complètes

Insuffisances

Limitations des hypothèses: Hypothèses toujours nécessaires de types finis et de borne inférieure de densité
Termes constants: Les termes constants du premier résultat sont relativement importants
Expériences limitées: Les expériences numériques sont relativement simples, manquant de validation sur données réelles

Impact

Contribution théorique: Fournit de nouveaux outils d'analyse pour la théorie de la GRR
Méthodologie: La relaxation semi-fluide peut s'appliquer à d'autres problèmes d'optimisation en ligne
Orientation pratique: Fournit une base théorique pour les systèmes réels de gestion des revenus

Scénarios d'Application

Allocation de sièges dans la gestion des revenus aériens
Tarification et allocation de chambres d'hôtel
Systèmes d'enchères pour publicités en ligne
Tarification dynamique de ressources cloud

Références

Les principaux travaux connexes incluent:

Jasin et Kumar (2012): Heuristiques de réoptimisation en GRR
Bumpensanti et Wang (2020): Cas discret sans hypothèse de non-dégénérescence
Li et Ye (2021): Convergence duale en programmation linéaire en ligne
Bray (2022): Problème multi-secrétaire avec valeurs continues

Cet article réalise une percée importante dans la théorie de la gestion des revenus réseau, réalisant pour la première fois un regret logarithmique dans un cadre de distribution continue sans hypothèses traditionnelles de non-dégénérescence. Les innovations techniques incluent la relaxation semi-fluide, la stratégie d'attraction aux limites et l'analyse améliorée de la convergence duale, apportant des contributions importantes au développement théorique du domaine.