2025-11-10T02:43:59.651588

Degeneracy is OK: Logarithmic Regret for Network Revenue Management with Indiscrete Distributions

Jiang, Ma, Zhang
We study the classical Network Revenue Management (NRM) problem with accept/reject decisions and $T$ IID arrivals. We consider a distributional form where each arrival must fall under a finite number of possible categories, each with a deterministic resource consumption vector, but a random value distributed continuously over an interval. We develop an online algorithm that achieves $O(\log^2 T)$ regret under this model, with the only (necessary) assumption being that the probability densities are bounded away from 0. We derive a second result that achieves $O(\log T)$ regret under an additional assumption of second-order growth. To our knowledge, these are the first results achieving logarithmic-level regret in an NRM model with continuous values that do not require any kind of "non-degeneracy" assumptions. Our results are achieved via new techniques including a new method of bounding myopic regret, a "semi-fluid" relaxation of the offline allocation, and an improved bound on the "dual convergence".
academic

La Dégénérescence est Acceptable : Regret Logarithmique pour la Gestion des Revenus Réseau avec Distributions Non-Discrètes

Informations Fondamentales

  • ID de l'article: 2210.07996
  • Titre: Degeneracy is OK: Logarithmic Regret for Network Revenue Management with Indiscrete Distributions
  • Auteurs: Jiashuo Jiang (HKUST), Will Ma (Columbia University), Jiawei Zhang (NYU Stern)
  • Classification: cs.LG math.PR
  • Date de publication: 2 janvier 2025 (arXiv v5)
  • Lien de l'article: https://arxiv.org/abs/2210.07996

Résumé

Cet article étudie le problème classique de la gestion des revenus réseau (GRR), impliquant des décisions d'acceptation/rejet et T arrivées indépendantes et identiquement distribuées. Nous considérons une forme de distribution où chaque arrivée doit appartenir à un nombre fini de catégories possibles, chaque catégorie possédant un vecteur de consommation de ressources déterministe, mais avec une valeur distribuée continûment sur un intervalle. Nous développons un algorithme en ligne qui réalise un regret O(log2T)O(\log^2 T) dans ce modèle, avec comme seule hypothèse (nécessaire) que la densité de probabilité s'éloigne de 0. Nous dérivons un deuxième résultat réalisant un regret O(logT)O(\log T) sous une hypothèse supplémentaire de croissance du second ordre. À notre connaissance, ce sont les premiers résultats réalisant un regret logarithmique dans les modèles de GRR avec valeurs continues, sans nécessiter aucune hypothèse de « non-dégénérescence ».

Contexte et Motivation de la Recherche

Définition du Problème

La gestion des revenus réseau (GRR) est un problème de contrôle de capacité nécessitant l'allocation de ressources limitées sur un horizon temporel fini de longueur T. À chaque étape temporelle t, une requête arrive, demandant un vecteur de ressources a~t\tilde{a}_t et offrant une récompense r~t\tilde{r}_t. Le décideur doit prendre immédiatement une décision irrévocable quant à l'acceptation ou le rejet de cette requête.

Motivation de la Recherche

  1. Importance pratique: La GRR possède une valeur applicative significative dans les secteurs aérien, hôtelier, etc.
  2. Défis théoriques: La littérature existante nécessite des hypothèses fortes de « non-dégénérescence » lors du traitement de distributions continues
  3. Limitations méthodologiques: Les approches traditionnelles supposent soit des distributions discrètes finies (hypothèse de petit N), soit des conditions de non-dégénérescence

Limitations des Approches Existantes

  • Hypothèse de petit N: Limitée aux distributions discrètes finies, incapable de traiter les récompenses continues
  • Hypothèse de non-dégénérescence: Exige que la solution optimale de la relaxation fluide soit unique et satisfasse les conditions strictes de complémentarité
  • Méthodes de perturbation: Les approches traditionnelles de traitement de la dégénérescence en programmation linéaire conduisent à un regret Ω(T)\Omega(\sqrt{T})

Contributions Principales

  1. Première réalisation d'un regret logarithmique: Premier résultat de regret logarithmique en GRR avec distributions continues, sans hypothèse de non-dégénérescence
  2. Nouvelle relaxation semi-fluide: Proposition d'une nouvelle méthode de relaxation intermédiaire entre l'optimum hors ligne et la relaxation fluide
  3. Analyse améliorée du regret myope: Développement de nouvelles techniques d'analyse du regret myope
  4. Résultats doubles:
    • Regret O(log2T)O(\log^2 T) (nécessitant uniquement une borne inférieure de densité)
    • Regret O(logT)O(\log T) (avec condition supplémentaire de croissance du second ordre)

Explication Détaillée de la Méthode

Définition de la Tâche

  • Entrée: T requêtes indépendantes et identiquement distribuées, chaque requête (rt,at)(r_t, a_t) contenant une récompense et une demande de ressources
  • Contraintes: Capacité initiale CR0mC \in \mathbb{R}^m_{\geq 0}, contrainte de capacité t=1Tat,ixtCi\sum_{t=1}^T a_{t,i} \cdot x_t \leq C_i
  • Objectif: Maximiser la récompense totale collectée, minimiser le regret par rapport à l'optimum hors ligne

Architecture du Modèle

Hypothèse de Distribution (Hypothèse 1)

Pour chaque type j[n]j \in [n]:

  • Le vecteur de demande ata_t est tiré d'une distribution discrète {a1,,an}\{a_1, \ldots, a_n\}
  • La récompense conditionnelle rtr_t suit une distribution continue sur l'intervalle [lj,uj][l_j, u_j]
  • La fonction de densité satisfait f(raj)α>0f(r|a_j) \geq \alpha > 0

Relaxation Semi-Fluide

Pour un compte de types donné d=(d1,,dn)d = (d_1, \ldots, d_n):

VcSemi(d)=maxxj=1ndjErFj[rxj(r)]V^{\text{Semi}}_c(d) = \max_x \sum_{j=1}^n d_j \cdot \mathbb{E}_{r \sim F_j}[r \cdot x_j(r)]

Sous les contraintes: j=1ndjaj,iErFj[xj(r)]ci,i[m]\sum_{j=1}^n d_j \cdot a_{j,i} \cdot \mathbb{E}_{r \sim F_j}[x_j(r)] \leq c_i, \quad \forall i \in [m]

Conception de l'Algorithme

Algorithme 1: Stratégie d'Estimateur M^\hat{M}

  1. Observer la requête (rt,at)(r_t, a_t)
  2. Calculer l'estimateur M^ct,at\hat{M}_{c_t, a_t}
  3. Si rtM^ct,atr_t \geq \hat{M}_{c_t, a_t} et ctatc_t \geq a_t, accepter
  4. Sinon, rejeter

Algorithme 2: Algorithme de Regret O(log2T)O(\log^2 T)

  • Résoudre le problème d'optimisation (13) pour obtenir {q^j,t}\{\hat{q}^*_{j,t}\}
  • Établir une stratégie d'attraction aux limites selon la valeur de q^jt,t\hat{q}^*_{j_t,t}:
    • Si q^jt,t12κ1log(Tt+1)Tt+1\hat{q}^*_{j_t,t} \geq 1 - 2\kappa_1 \sqrt{\frac{\log(T-t+1)}{T-t+1}}, définir M^=ljt\hat{M} = l_{j_t} (toujours accepter)
    • Si q^jt,t2κ1log(Tt+1)Tt+1\hat{q}^*_{j_t,t} \leq 2\kappa_1 \sqrt{\frac{\log(T-t+1)}{T-t+1}}, définir M^=ujt+1\hat{M} = u_{j_t} + 1 (toujours rejeter)
    • Sinon, définir M^=Fjt1(1q^jt,t)\hat{M} = F^{-1}_{j_t}(1 - \hat{q}^*_{j_t,t})

Points d'Innovation Technique

1. Décomposition du Regret Myope

Décomposition du regret total en: Regret(π)t=1TEctπ[Myopict(π,ctπ)]\text{Regret}(\pi) \leq \sum_{t=1}^T \mathbb{E}_{c^{\pi}_t}[\text{Myopic}_t(\pi, c^{\pi}_t)]

où le regret myope est défini comme: Myopict(π,c)=Eπ,It[Vˉc(It)Vˉcatxtπ(It+1)rtxtπ]\text{Myopic}_t(\pi, c) = \mathbb{E}_{\pi, I_t}[\bar{V}_c(I_t) - \bar{V}_{c - a_t \cdot x^{\pi}_t}(I_{t+1}) - r_t \cdot x^{\pi}_t]

2. Analyse de Continuité Lipschitzienne

Preuve de la propriété Lipschitzienne de la solution optimale du problème semi-fluide (Lemme 4): q^q~κ1maxj[n]{dj/spj}\|\hat{q}^* - \tilde{q}^*\|_{\infty} \leq \kappa_1 \cdot \max_{j \in [n]} \{|d_j/s - p_j|\}

3. Stratégie d'Attraction aux Limites

Adoption d'une stratégie conservatrice lorsque la solution fluide s'approche des limites, évitant les problèmes de faisabilité:

  • Acceptation systématique près de 1
  • Rejet systématique près de 0
  • Stratégie de seuil dans la région intermédiaire

Configuration Expérimentale

Configuration des Expériences Numériques

  • Nombre de ressources: mm ressources
  • Types de clients: nn types
  • Paramétrage de capacité: Ci=αiTC_i = \alpha_i \cdot T
  • Distribution de récompenses: Distribution uniforme sur [lj,uj][l_j, u_j] pour chaque type
  • Algorithmes de comparaison:
    • Stratégie de prix fixe (SPF)
    • Stratégie de mise à jour duale
    • Algorithmes 2 et 3

Indicateurs d'Évaluation

  • Récompense totale attendue: Récompense moyenne collectée par chaque stratégie
  • Performance relative: Ratio par rapport à la stratégie de prix fixe
  • Taux de croissance du regret: Croissance du regret en fonction du temps T

Résultats Expérimentaux

Résultats Principaux

Résultats Théoriques

Théorème 1: L'Algorithme 2 réalise un regret O(log2T)O(\log^2 T): Regret(π)(2κ1+2α+4αj=1n1pj)log2T+s0rmax\text{Regret}(\pi) \leq \left(2\kappa_1 + \frac{2}{\alpha} + \frac{4}{\alpha} \sum_{j=1}^n \frac{1}{p_j}\right) \log^2 T + s_0 \cdot r_{\max}

Théorème 2: Sous hypothèses supplémentaires, l'Algorithme 3 réalise un regret O(logT)O(\log T): Regret(π)C1logT+C2\text{Regret}(\pi) \leq C_1 \cdot \log T + C_2

Résultats des Expériences Numériques

  1. Dépendance temporelle: Les Algorithmes 2 et 3 surpassent les méthodes de référence à mesure que T augmente
  2. Dépendance du nombre de ressources: Les trois algorithmes avancés présentent des performances similaires pour différents nombres de ressources
  3. Dépendance du nombre de types: Lorsque le nombre de types de clients augmente, les Algorithmes 2 et 3 surpassent la stratégie de mise à jour duale

Analyse Technique Clé

Borne de Convergence Duale

Dans le deuxième résultat, preuve de la borne de variance des variables duales: E[(atμ~1atμ^1)2]8dˉ2α2β2(s1)+19αˉdˉ2(s1)+2s1\mathbb{E}[(a^{\top}_t \tilde{\mu}_1 - a^{\top}_t \hat{\mu}_1)^2] \leq \frac{8\bar{d}^2}{\alpha^2\beta^2(s-1)} + \frac{1}{9\bar{\alpha}\bar{d}^2(s-1)} + \frac{2}{s-1}

Travaux Connexes

Évolution de la Littérature en GRR

  1. Regret O(T)O(\sqrt{T}): Stratégies de prix statiques de Talluri et Van Ryzin (1998)
  2. Regret O(1)O(1): Résultats de Jasin et Kumar (2012) sous conditions de non-dégénérescence
  3. Sans non-dégénérescence: Travaux de Bumpensanti et Wang (2020), Vera et Banerjee (2021) dans le cas discret

Recherche sur Distributions Continues

  • Problème multi-secrétaire: Résultat Θ(logT)\Theta(\log T) de Bray (2019) dans le cas d'une seule ressource
  • Hypothèse de non-dégénérescence: Travaux de Li et Ye (2021), Balseiro et al. (2021), Bray (2022)

Conclusion et Discussion

Conclusions Principales

  1. Premier résultat de regret logarithmique en GRR avec récompenses continues sans hypothèse de non-dégénérescence
  2. La relaxation semi-fluide fournit un nouveau cadre d'analyse
  3. La stratégie d'attraction aux limites traite efficacement les cas dégénérés

Limitations

  1. Borne inférieure de densité: Hypothèse toujours nécessaire que la fonction de densité s'éloigne de 0
  2. Termes constants: Les termes constants du résultat O(log2T)O(\log^2 T) dépendent exponentiellement de nn
  3. Croissance du second ordre: Le meilleur résultat O(logT)O(\log T) nécessite une hypothèse supplémentaire de forte convexité

Directions Futures

  1. Amélioration de la dépendance des termes constants
  2. Extension à des classes de distributions plus générales
  3. Étude de la correspondance des bornes inférieures

Évaluation Approfondie

Avantages

  1. Percée théorique: Résolution d'un problème de dégénérescence de longue date
  2. Innovation technique: La relaxation semi-fluide et la stratégie d'attraction aux limites sont novatrices
  3. Valeur pratique: Les méthodes s'appliquent à des scénarios de tarification continue réels
  4. Analyse rigoureuse: Preuves mathématiques détaillées et complètes

Insuffisances

  1. Limitations des hypothèses: Hypothèses toujours nécessaires de types finis et de borne inférieure de densité
  2. Termes constants: Les termes constants du premier résultat sont relativement importants
  3. Expériences limitées: Les expériences numériques sont relativement simples, manquant de validation sur données réelles

Impact

  1. Contribution théorique: Fournit de nouveaux outils d'analyse pour la théorie de la GRR
  2. Méthodologie: La relaxation semi-fluide peut s'appliquer à d'autres problèmes d'optimisation en ligne
  3. Orientation pratique: Fournit une base théorique pour les systèmes réels de gestion des revenus

Scénarios d'Application

  • Allocation de sièges dans la gestion des revenus aériens
  • Tarification et allocation de chambres d'hôtel
  • Systèmes d'enchères pour publicités en ligne
  • Tarification dynamique de ressources cloud

Références

Les principaux travaux connexes incluent:

  • Jasin et Kumar (2012): Heuristiques de réoptimisation en GRR
  • Bumpensanti et Wang (2020): Cas discret sans hypothèse de non-dégénérescence
  • Li et Ye (2021): Convergence duale en programmation linéaire en ligne
  • Bray (2022): Problème multi-secrétaire avec valeurs continues

Cet article réalise une percée importante dans la théorie de la gestion des revenus réseau, réalisant pour la première fois un regret logarithmique dans un cadre de distribution continue sans hypothèses traditionnelles de non-dégénérescence. Les innovations techniques incluent la relaxation semi-fluide, la stratégie d'attraction aux limites et l'analyse améliorée de la convergence duale, apportant des contributions importantes au développement théorique du domaine.