2025-11-10T02:43:59.651588

Degeneracy is OK: Logarithmic Regret for Network Revenue Management with Indiscrete Distributions

Jiang, Ma, Zhang
We study the classical Network Revenue Management (NRM) problem with accept/reject decisions and $T$ IID arrivals. We consider a distributional form where each arrival must fall under a finite number of possible categories, each with a deterministic resource consumption vector, but a random value distributed continuously over an interval. We develop an online algorithm that achieves $O(\log^2 T)$ regret under this model, with the only (necessary) assumption being that the probability densities are bounded away from 0. We derive a second result that achieves $O(\log T)$ regret under an additional assumption of second-order growth. To our knowledge, these are the first results achieving logarithmic-level regret in an NRM model with continuous values that do not require any kind of "non-degeneracy" assumptions. Our results are achieved via new techniques including a new method of bounding myopic regret, a "semi-fluid" relaxation of the offline allocation, and an improved bound on the "dual convergence".
academic

Degeneracy is OK: Logarithmisches Bedauern für Netzwerk-Umsatzmanagement mit unstetigen Verteilungen

Grundlegende Informationen

  • Papier-ID: 2210.07996
  • Titel: Degeneracy is OK: Logarithmic Regret for Network Revenue Management with Indiscrete Distributions
  • Autoren: Jiashuo Jiang (HKUST), Will Ma (Columbia University), Jiawei Zhang (NYU Stern)
  • Klassifizierung: cs.LG math.PR
  • Veröffentlichungsdatum: 2. Januar 2025 (arXiv v5)
  • Papierlink: https://arxiv.org/abs/2210.07996

Zusammenfassung

Dieses Papier untersucht das klassische Netzwerk-Umsatzmanagement (NRM)-Problem mit Annahme-/Ablehnungsentscheidungen und T unabhängig identisch verteilten Ankünften. Wir betrachten eine Verteilungsform, bei der jede Ankunft einer endlichen Anzahl möglicher Kategorien angehören muss, wobei jede Kategorie einen deterministischen Ressourcenverbrauchsvektor aufweist, aber der Wert kontinuierlich über ein Intervall verteilt ist. Wir entwickeln einen Online-Algorithmus, der unter diesem Modell ein Bedauern von O(log2T)O(\log^2 T) erreicht, wobei die einzige (notwendige) Annahme ist, dass die Wahrscheinlichkeitsdichte von Null entfernt bleibt. Wir leiten ein zweites Ergebnis ab, das unter einer zusätzlichen Annahme zweiter Ordnung ein Bedauern von O(logT)O(\log T) erreicht. Nach unserem besten Wissen sind dies die ersten Ergebnisse, die logarithmisches Bedauern in NRM-Modellen mit kontinuierlichen Werten ohne "Nicht-Degenerations"-Annahmen erreichen.

Forschungshintergrund und Motivation

Problemdefinition

Netzwerk-Umsatzmanagement (NRM) ist ein Kapazitätskontrollproblem, das die Zuteilung begrenzter Ressourcen über einen endlichen Zeithorizont der Länge T erfordert. Bei jedem Zeitschritt t kommt eine Anfrage an, die einen Ressourcenvektor a~t\tilde{a}_t benötigt und eine Belohnung r~t\tilde{r}_t bietet. Der Entscheidungsträger muss sofort eine unwiderrufliche Entscheidung treffen, ob die Anfrage bedient werden soll.

Forschungsmotivation

  1. Praktische Bedeutung: NRM hat wichtige Anwendungen in Luftfahrt-, Hotel- und anderen Branchen
  2. Theoretische Herausforderung: Die bestehende Literatur erfordert starke "Nicht-Degenerations"-Annahmen bei der Behandlung kontinuierlicher Verteilungen
  3. Methodische Einschränkungen: Traditionelle Ansätze beschränken sich entweder auf endliche diskrete Verteilungen (kleine N-Annahme) oder erfordern Nicht-Degenerationsbedingungen

Einschränkungen bestehender Methoden

  • Kleine N-Annahme: Beschränkung auf endliche diskrete Verteilungen, kann kontinuierliche Belohnungen nicht verarbeiten
  • Nicht-Degenerations-Annahme: Erfordert, dass die optimale Lösung der Flüssigkeitsrelaxation eindeutig ist und strikte komplementäre Schlupfbedingungen erfüllt
  • Störungsmethoden: Traditionelle LP-Degenerationsmethoden führen zu Ω(T)\Omega(\sqrt{T}) Bedauern

Kernbeiträge

  1. Erstmaliges Erreichen logarithmischen Bedauerns: Erreicht zum ersten Mal logarithmisches Bedauern in kontinuierlichem NRM ohne Nicht-Degenerations-Annahmen
  2. Neue Semi-Flüssigkeits-Relaxation: Schlägt eine neue Relaxationsmethode vor, die zwischen offline-optimal und Flüssigkeitsrelaxation liegt
  3. Verbesserte Myopische Bedauernsschranke: Entwickelt neue Analysetechniken für myopisches Bedauern
  4. Doppelte Ergebnisse:
    • O(log2T)O(\log^2 T) Bedauern (nur Dichteunterschranke erforderlich)
    • O(logT)O(\log T) Bedauern (zusätzliche Bedingung zweiter Ordnung)

Methodische Details

Aufgabendefinition

  • Eingabe: T unabhängig identisch verteilte Anfragen, wobei jede Anfrage (rt,at)(r_t, a_t) Belohnung und Ressourcenbedarf enthält
  • Nebenbedingungen: Anfangskapazität CR0mC \in \mathbb{R}^m_{\geq 0}, Kapazitätsbeschränkung t=1Tat,ixtCi\sum_{t=1}^T a_{t,i} \cdot x_t \leq C_i
  • Ziel: Maximierung der gesammelten Belohnung, Minimierung des Bedauerns gegenüber dem offline-optimalen

Modellarchitektur

Verteilungsannahme (Annahme 1)

Für jeden Typ j[n]j \in [n]:

  • Bedarfsvektor ata_t wird aus diskreter Verteilung {a1,,an}\{a_1, \ldots, a_n\} gezogen
  • Bedingte Belohnung rtr_t ist kontinuierlich über Intervall [lj,uj][l_j, u_j] verteilt
  • Dichtefunktion erfüllt f(raj)α>0f(r|a_j) \geq \alpha > 0

Semi-Flüssigkeits-Relaxation

Für gegebene Typanzahl d=(d1,,dn)d = (d_1, \ldots, d_n):

VcSemi(d)=maxxj=1ndjErFj[rxj(r)]V^{\text{Semi}}_c(d) = \max_x \sum_{j=1}^n d_j \cdot \mathbb{E}_{r \sim F_j}[r \cdot x_j(r)]

unter Nebenbedingungen: j=1ndjaj,iErFj[xj(r)]ci,i[m]\sum_{j=1}^n d_j \cdot a_{j,i} \cdot \mathbb{E}_{r \sim F_j}[x_j(r)] \leq c_i, \quad \forall i \in [m]

Algorithmusdesign

Algorithmus 1: M^\hat{M}-Schätzer-Strategie

  1. Beobachte Anfrage (rt,at)(r_t, a_t)
  2. Berechne Schätzer M^ct,at\hat{M}_{c_t, a_t}
  3. Akzeptiere, wenn rtM^ct,atr_t \geq \hat{M}_{c_t, a_t} und ctatc_t \geq a_t
  4. Lehne andernfalls ab

Algorithmus 2: O(log2T)O(\log^2 T) Bedauernsalgorithmus

  • Löse Optimierungsproblem (13), um {q^j,t}\{\hat{q}^*_{j,t}\} zu erhalten
  • Setze Grenzanziehungsstrategie basierend auf q^jt,t\hat{q}^*_{j_t,t} Wert:
    • Wenn q^jt,t12κ1log(Tt+1)Tt+1\hat{q}^*_{j_t,t} \geq 1 - 2\kappa_1 \sqrt{\frac{\log(T-t+1)}{T-t+1}}, setze M^=ljt\hat{M} = l_{j_t} (akzeptiere immer)
    • Wenn q^jt,t2κ1log(Tt+1)Tt+1\hat{q}^*_{j_t,t} \leq 2\kappa_1 \sqrt{\frac{\log(T-t+1)}{T-t+1}}, setze M^=ujt+1\hat{M} = u_{j_t} + 1 (lehne immer ab)
    • Andernfalls setze M^=Fjt1(1q^jt,t)\hat{M} = F^{-1}_{j_t}(1 - \hat{q}^*_{j_t,t})

Technische Innovationen

1. Myopische Bedauernsdekomposition

Zerlege Gesamtbedauern in: Regret(π)t=1TEctπ[Myopict(π,ctπ)]\text{Regret}(\pi) \leq \sum_{t=1}^T \mathbb{E}_{c^{\pi}_t}[\text{Myopic}_t(\pi, c^{\pi}_t)]

wobei myopisches Bedauern definiert ist als: Myopict(π,c)=Eπ,It[Vˉc(It)Vˉcatxtπ(It+1)rtxtπ]\text{Myopic}_t(\pi, c) = \mathbb{E}_{\pi, I_t}[\bar{V}_c(I_t) - \bar{V}_{c - a_t \cdot x^{\pi}_t}(I_{t+1}) - r_t \cdot x^{\pi}_t]

2. Lipschitz-Kontinuitätsanalyse

Beweist Lipschitz-Eigenschaft der optimalen Lösung des Semi-Flüssigkeitsproblems (Lemma 4): q^q~κ1maxj[n]{dj/spj}\|\hat{q}^* - \tilde{q}^*\|_{\infty} \leq \kappa_1 \cdot \max_{j \in [n]} \{|d_j/s - p_j|\}

3. Grenzanziehungsstrategie

Wende konservative Strategie an, wenn Flüssigkeitslösung sich Grenze nähert, um Machbarkeitsprobleme zu vermeiden:

  • Nahe 1: akzeptiere immer
  • Nahe 0: lehne immer ab
  • Mittlerer Bereich: verwende Schwellenwert-Strategie

Experimentelle Einrichtung

Numerische Experimentkonfiguration

  • Ressourcenanzahl: mm Ressourcen
  • Kundentypen: nn Typen
  • Kapazitätseinstellung: Ci=αiTC_i = \alpha_i \cdot T
  • Belohnungsverteilung: Gleichmäßige Verteilung auf [lj,uj][l_j, u_j] für jeden Typ
  • Vergleichsalgorithmen:
    • Feste Gebotsstrategie (FBP)
    • Duale Aktualisierungsstrategie
    • Algorithmus 2 und 3

Bewertungsmetriken

  • Erwartete Gesamtbelohnung: Durchschnittliche von jeder Strategie gesammelte Belohnung
  • Relative Leistung: Verhältnis zur festen Gebotsstrategie
  • Bedauernsanstiegsrate: Bedauern-Anstieg über Zeit T

Experimentelle Ergebnisse

Hauptergebnisse

Theoretische Ergebnisse

Satz 1: Algorithmus 2 erreicht O(log2T)O(\log^2 T) Bedauern: Regret(π)(2κ1+2α+4αj=1n1pj)log2T+s0rmax\text{Regret}(\pi) \leq \left(2\kappa_1 + \frac{2}{\alpha} + \frac{4}{\alpha} \sum_{j=1}^n \frac{1}{p_j}\right) \log^2 T + s_0 \cdot r_{\max}

Satz 2: Unter zusätzlicher Annahme erreicht Algorithmus 3 O(logT)O(\log T) Bedauern: Regret(π)C1logT+C2\text{Regret}(\pi) \leq C_1 \cdot \log T + C_2

Numerische Experimentiergebnisse

  1. Zeitabhängigkeit: Algorithmen 2 und 3 übertreffen Basismethoden mit zunehmendem T
  2. Ressourcenabhängigkeit: Drei fortgeschrittene Algorithmen zeigen ähnliche Leistung bei verschiedenen Ressourcenanzahlen
  3. Typabhängigkeit: Bei zunehmender Kundentypenanzahl übertreffen Algorithmen 2 und 3 die duale Aktualisierungsstrategie

Wichtige technische Analyse

Duale Konvergenzschranke

Im zweiten Ergebnis wird die Varianzschranke dualer Variablen bewiesen: E[(atμ~1atμ^1)2]8dˉ2α2β2(s1)+19αˉdˉ2(s1)+2s1\mathbb{E}[(a^{\top}_t \tilde{\mu}_1 - a^{\top}_t \hat{\mu}_1)^2] \leq \frac{8\bar{d}^2}{\alpha^2\beta^2(s-1)} + \frac{1}{9\bar{\alpha}\bar{d}^2(s-1)} + \frac{2}{s-1}

Verwandte Arbeiten

NRM-Literaturentwicklung

  1. O(T)O(\sqrt{T}) Bedauern: Statische Gebotsstrategie von Talluri und Van Ryzin (1998)
  2. O(1)O(1) Bedauern: Ergebnis von Jasin und Kumar (2012) unter Nicht-Degenerationsbedingung
  3. Ohne Nicht-Degeneration: Diskrete Fälle von Bumpensanti und Wang (2020), Vera und Banerjee (2021)

Kontinuierliche Verteilungsforschung

  • Multi-Sekretär-Problem: Θ(logT)\Theta(\log T) Ergebnis von Bray (2019) im Einzelressourcenfall
  • Nicht-Degenerations-Annahme: Arbeiten von Li und Ye (2021), Balseiro et al. (2021), Bray (2022)

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

  1. Erreicht zum ersten Mal logarithmisches Bedauern in kontinuierlichem NRM ohne Nicht-Degenerations-Annahmen
  2. Semi-Flüssigkeits-Relaxation bietet neuen Analyserahmen
  3. Grenzanziehungsstrategie behandelt Degenerationsfälle effektiv

Einschränkungen

  1. Dichteunterschranke: Erfordert immer noch, dass Dichtefunktion von Null entfernt bleibt
  2. Konstante Terme: Konstante im O(log2T)O(\log^2 T) Ergebnis hängen exponentiell von nn ab
  3. Zweite Ordnung: Besseres O(logT)O(\log T) Ergebnis erfordert zusätzliche starke Konvexitätsannahme

Zukünftige Richtungen

  1. Verbesserung der Abhängigkeit von Konstanten
  2. Erweiterung auf allgemeinere Verteilungsklassen
  3. Untersuchung der Untergrenzen-Übereinstimmung

Tiefgreifende Bewertung

Stärken

  1. Theoretischer Durchbruch: Löst langbestehendes Degenerationsproblem
  2. Technische Innovation: Semi-Flüssigkeits-Relaxation und Grenzanziehungsstrategie sind neuartig
  3. Praktischer Wert: Methode anwendbar auf praktische kontinuierliche Preisszenarien
  4. Strenge Analyse: Mathematische Beweise sind detailliert und vollständig

Mängel

  1. Annahmebeschränkungen: Erfordert immer noch endliche Typen und Dichteunterschranke
  2. Konstante Terme: Konstante im ersten Ergebnis sind relativ groß
  3. Begrenzte Experimente: Numerische Experimente sind relativ einfach, fehlt Validierung mit echten Daten

Einflussfähigkeit

  1. Theoretischer Beitrag: Bietet neue Analysetools für NRM-Theorie
  2. Methodologie: Semi-Flüssigkeits-Relaxation könnte auf andere Online-Optimierungsprobleme anwendbar sein
  3. Praktische Anleitung: Bietet theoretische Grundlage für praktische Umsatzmanagement-Systeme

Anwendungsszenarien

  • Sitzplatzvergabe im Luftfahrt-Umsatzmanagement
  • Hotelzimmerpreisgestaltung und -zuteilung
  • Online-Anzeigen-Bietsysteme
  • Dynamische Cloud-Ressourcenpreisgestaltung

Literaturverzeichnis

Wichtige verwandte Arbeiten umfassen:

  • Jasin und Kumar (2012): Neustart-Heuristik in NRM
  • Bumpensanti und Wang (2020): Diskrete Fälle ohne Nicht-Degenerations-Annahmen
  • Li und Ye (2021): Duale Konvergenz in Online-Linearer Programmierung
  • Bray (2022): Kontinuierliches Multi-Sekretär-Problem

Dieses Papier erreicht einen wichtigen Durchbruch in der Netzwerk-Umsatzmanagement-Theorie und erreicht zum ersten Mal logarithmisches Bedauern in kontinuierlichen Verteilungseinstellungen ohne traditionelle Nicht-Degenerations-Annahmen. Technische Innovationen umfassen Semi-Flüssigkeits-Relaxation, Grenzanziehungsstrategie und verbesserte duale Konvergenzanalyse, die wichtige Beiträge zur theoretischen Entwicklung dieses Feldes leisten.