2025-11-10T02:43:59.651588

Degeneracy is OK: Logarithmic Regret for Network Revenue Management with Indiscrete Distributions

Jiang, Ma, Zhang
We study the classical Network Revenue Management (NRM) problem with accept/reject decisions and $T$ IID arrivals. We consider a distributional form where each arrival must fall under a finite number of possible categories, each with a deterministic resource consumption vector, but a random value distributed continuously over an interval. We develop an online algorithm that achieves $O(\log^2 T)$ regret under this model, with the only (necessary) assumption being that the probability densities are bounded away from 0. We derive a second result that achieves $O(\log T)$ regret under an additional assumption of second-order growth. To our knowledge, these are the first results achieving logarithmic-level regret in an NRM model with continuous values that do not require any kind of "non-degeneracy" assumptions. Our results are achieved via new techniques including a new method of bounding myopic regret, a "semi-fluid" relaxation of the offline allocation, and an improved bound on the "dual convergence".
academic

La Degenerazione va Bene: Rimpianto Logaritmico per la Gestione dei Ricavi di Rete con Distribuzioni Non Discrete

Informazioni Fondamentali

  • ID Articolo: 2210.07996
  • Titolo: Degeneracy is OK: Logarithmic Regret for Network Revenue Management with Indiscrete Distributions
  • Autori: Jiashuo Jiang (HKUST), Will Ma (Columbia University), Jiawei Zhang (NYU Stern)
  • Classificazione: cs.LG math.PR
  • Data di Pubblicazione: 2 gennaio 2025 (arXiv v5)
  • Link Articolo: https://arxiv.org/abs/2210.07996

Riassunto

Questo articolo affronta il problema classico della gestione dei ricavi di rete (NRM), che coinvolge decisioni di accettazione/rifiuto e T arrivi indipendenti e identicamente distribuiti. Consideriamo una forma di distribuzione in cui ogni arrivo deve appartenere a un numero finito di categorie possibili, ciascuna con un vettore di consumo di risorse deterministico, ma con valore distribuito continuamente su un intervallo. Sviluppiamo un algoritmo online che raggiunge un rimpianto di O(log2T)O(\log^2 T) in questo modello, con l'unica assunzione (necessaria) che la densità di probabilità sia lontana da 0. Deriviamo un secondo risultato che raggiunge un rimpianto di O(logT)O(\log T) sotto l'assunzione aggiuntiva di crescita del secondo ordine. A nostra conoscenza, questi sono i primi risultati che raggiungono rimpianto logaritmico in modelli NRM con valori continui, senza richiedere alcuna assunzione di "non degenerazione".

Contesto di Ricerca e Motivazione

Definizione del Problema

La gestione dei ricavi di rete (NRM) è un problema di controllo della capacità che richiede l'allocazione di risorse limitate in un arco temporale finito di lunghezza T. Ad ogni passo temporale t, arriva una query che richiede un vettore di risorse a~t\tilde{a}_t e offre una ricompensa r~t\tilde{r}_t. Il decisore deve prendere immediatamente una decisione irrevocabile se servire o meno la query.

Motivazione della Ricerca

  1. Importanza Pratica: NRM ha un valore applicativo significativo in settori come l'aviazione e l'ospitalità
  2. Sfida Teorica: La letteratura esistente richiede forti assunzioni di "non degenerazione" nel trattare distribuzioni continue
  3. Limitazioni Metodologiche: I metodi tradizionali o assumono distribuzioni discrete finite (assunzione di piccolo N), oppure richiedono condizioni di non degenerazione

Limitazioni degli Approcci Esistenti

  • Assunzione di Piccolo N: Limitata a distribuzioni discrete finite, non può gestire ricompense continue
  • Assunzione di Non Degenerazione: Richiede che la soluzione ottimale del rilassamento fluido sia unica e soddisfi condizioni di complementarità stretta
  • Metodi di Perturbazione: Gli approcci tradizionali per gestire la degenerazione della programmazione lineare portano a rimpianto di Ω(T)\Omega(\sqrt{T})

Contributi Principali

  1. Primo Rimpianto Logaritmico: Primo risultato di rimpianto logaritmico in NRM con distribuzioni continue, senza assunzioni di non degenerazione
  2. Nuovo Rilassamento Semi-Fluido: Proponiamo un nuovo metodo di rilassamento intermedio tra l'ottimale offline e il rilassamento fluido
  3. Analisi Migliorata del Rimpianto Miope: Sviluppiamo nuove tecniche di analisi del rimpianto miope
  4. Risultati Duali:
    • Rimpianto di O(log2T)O(\log^2 T) (richiede solo limite inferiore della densità)
    • Rimpianto di O(logT)O(\log T) (con condizione aggiuntiva di crescita del secondo ordine)

Spiegazione Dettagliata del Metodo

Definizione del Compito

  • Input: T query indipendenti e identicamente distribuite, ciascuna (rt,at)(r_t, a_t) contiene ricompensa e richiesta di risorse
  • Vincoli: Capacità iniziale CR0mC \in \mathbb{R}^m_{\geq 0}, vincoli di capacità t=1Tat,ixtCi\sum_{t=1}^T a_{t,i} \cdot x_t \leq C_i
  • Obiettivo: Massimizzare la ricompensa totale raccolta, minimizzare il rimpianto rispetto all'ottimale offline

Architettura del Modello

Assunzione sulla Distribuzione (Assunzione 1)

Per ogni tipo j[n]j \in [n]:

  • Il vettore di richiesta ata_t è estratto dalla distribuzione discreta {a1,,an}\{a_1, \ldots, a_n\}
  • La ricompensa condizionata rtr_t è distribuita continuamente sull'intervallo [lj,uj][l_j, u_j]
  • La funzione di densità soddisfa f(raj)α>0f(r|a_j) \geq \alpha > 0

Rilassamento Semi-Fluido

Per un dato conteggio di tipi d=(d1,,dn)d = (d_1, \ldots, d_n):

VcSemi(d)=maxxj=1ndjErFj[rxj(r)]V^{\text{Semi}}_c(d) = \max_x \sum_{j=1}^n d_j \cdot \mathbb{E}_{r \sim F_j}[r \cdot x_j(r)]

Soggetto ai vincoli: j=1ndjaj,iErFj[xj(r)]ci,i[m]\sum_{j=1}^n d_j \cdot a_{j,i} \cdot \mathbb{E}_{r \sim F_j}[x_j(r)] \leq c_i, \quad \forall i \in [m]

Progettazione dell'Algoritmo

Algoritmo 1: Strategia dello Stimatore M^\hat{M}

  1. Osservare la query (rt,at)(r_t, a_t)
  2. Calcolare lo stimatore M^ct,at\hat{M}_{c_t, a_t}
  3. Se rtM^ct,atr_t \geq \hat{M}_{c_t, a_t} e ctatc_t \geq a_t, accettare
  4. Altrimenti rifiutare

Algoritmo 2: Algoritmo con Rimpianto O(log2T)O(\log^2 T)

  • Risolvere il problema di ottimizzazione (13) per ottenere {q^j,t}\{\hat{q}^*_{j,t}\}
  • Impostare la strategia di attrazione ai confini in base al valore di q^jt,t\hat{q}^*_{j_t,t}:
    • Se q^jt,t12κ1log(Tt+1)Tt+1\hat{q}^*_{j_t,t} \geq 1 - 2\kappa_1 \sqrt{\frac{\log(T-t+1)}{T-t+1}}, impostare M^=ljt\hat{M} = l_{j_t} (accettare sempre)
    • Se q^jt,t2κ1log(Tt+1)Tt+1\hat{q}^*_{j_t,t} \leq 2\kappa_1 \sqrt{\frac{\log(T-t+1)}{T-t+1}}, impostare M^=ujt+1\hat{M} = u_{j_t} + 1 (rifiutare sempre)
    • Altrimenti impostare M^=Fjt1(1q^jt,t)\hat{M} = F^{-1}_{j_t}(1 - \hat{q}^*_{j_t,t})

Punti di Innovazione Tecnica

1. Decomposizione del Rimpianto Miope

Decomponiamo il rimpianto totale come: Rimpianto(π)t=1TEctπ[Miopet(π,ctπ)]\text{Rimpianto}(\pi) \leq \sum_{t=1}^T \mathbb{E}_{c^{\pi}_t}[\text{Miope}_t(\pi, c^{\pi}_t)]

dove il rimpianto miope è definito come: Miopet(π,c)=Eπ,It[Vˉc(It)Vˉcatxtπ(It+1)rtxtπ]\text{Miope}_t(\pi, c) = \mathbb{E}_{\pi, I_t}[\bar{V}_c(I_t) - \bar{V}_{c - a_t \cdot x^{\pi}_t}(I_{t+1}) - r_t \cdot x^{\pi}_t]

2. Analisi della Continuità di Lipschitz

Dimostriamo la proprietà di Lipschitz della soluzione ottimale del problema semi-fluido (Lemma 4): q^q~κ1maxj[n]{dj/spj}\|\hat{q}^* - \tilde{q}^*\|_{\infty} \leq \kappa_1 \cdot \max_{j \in [n]} \{|d_j/s - p_j|\}

3. Strategia di Attrazione ai Confini

Quando la soluzione fluida si avvicina ai confini, adottiamo una strategia conservativa per evitare problemi di fattibilità:

  • Vicino a 1 accettare sempre
  • Vicino a 0 rifiutare sempre
  • Nella regione intermedia utilizzare una strategia di soglia

Configurazione Sperimentale

Configurazione degli Esperimenti Numerici

  • Numero di Risorse: mm risorse
  • Tipi di Clienti: nn tipi
  • Impostazione della Capacità: Ci=αiTC_i = \alpha_i \cdot T
  • Distribuzione della Ricompensa: Distribuzione uniforme su [lj,uj][l_j, u_j] per ogni tipo
  • Algoritmi di Confronto:
    • Strategia di Prezzo Fisso (FBP)
    • Strategia di Aggiornamento Duale
    • Algoritmi 2 e 3

Indicatori di Valutazione

  • Ricompensa Totale Attesa: Ricompensa media raccolta da ogni strategia
  • Prestazioni Relative: Rapporto rispetto alla strategia di prezzo fisso
  • Tasso di Crescita del Rimpianto: Come il rimpianto cresce nel tempo T

Risultati Sperimentali

Risultati Principali

Risultati Teorici

Teorema 1: L'Algoritmo 2 raggiunge un rimpianto di O(log2T)O(\log^2 T): Rimpianto(π)(2κ1+2α+4αj=1n1pj)log2T+s0rmax\text{Rimpianto}(\pi) \leq \left(2\kappa_1 + \frac{2}{\alpha} + \frac{4}{\alpha} \sum_{j=1}^n \frac{1}{p_j}\right) \log^2 T + s_0 \cdot r_{\max}

Teorema 2: Sotto assunzioni aggiuntive, l'Algoritmo 3 raggiunge un rimpianto di O(logT)O(\log T): Rimpianto(π)C1logT+C2\text{Rimpianto}(\pi) \leq C_1 \cdot \log T + C_2

Risultati degli Esperimenti Numerici

  1. Dipendenza Temporale: Gli Algoritmi 2 e 3 superano i metodi di base all'aumentare di T
  2. Dipendenza dal Numero di Risorse: I tre algoritmi avanzati mostrano prestazioni simili con diversi numeri di risorse
  3. Dipendenza dal Numero di Tipi: Quando il numero di tipi di clienti aumenta, gli Algoritmi 2 e 3 superano la strategia di aggiornamento duale

Analisi Tecnica Chiave

Limite di Convergenza Duale

Nel secondo risultato, dimostriamo il limite della varianza delle variabili duali: E[(atμ~1atμ^1)2]8dˉ2α2β2(s1)+19αˉdˉ2(s1)+2s1\mathbb{E}[(a^{\top}_t \tilde{\mu}_1 - a^{\top}_t \hat{\mu}_1)^2] \leq \frac{8\bar{d}^2}{\alpha^2\beta^2(s-1)} + \frac{1}{9\bar{\alpha}\bar{d}^2(s-1)} + \frac{2}{s-1}

Lavori Correlati

Sviluppo della Letteratura NRM

  1. Rimpianto di O(T)O(\sqrt{T}): Strategia di prezzo statico di Talluri e Van Ryzin (1998)
  2. Rimpianto di O(1)O(1): Risultato di Jasin e Kumar (2012) sotto condizioni di non degenerazione
  3. Senza Non Degenerazione: Lavori di Bumpensanti e Wang (2020), Vera e Banerjee (2021) nel caso discreto

Ricerca su Distribuzioni Continue

  • Problema dei Segretari Multipli: Risultato di Θ(logT)\Theta(\log T) di Bray (2019) nel caso di una singola risorsa
  • Assunzione di Non Degenerazione: Lavori di Li e Ye (2021), Balseiro et al. (2021), Bray (2022)

Conclusioni e Discussione

Conclusioni Principali

  1. Primo risultato di rimpianto logaritmico in NRM con ricompense continue senza assunzioni di non degenerazione
  2. Il rilassamento semi-fluido fornisce un nuovo quadro di analisi
  3. La strategia di attrazione ai confini gestisce efficacemente i casi degeneri

Limitazioni

  1. Limite Inferiore della Densità: Richiede ancora l'assunzione che la funzione di densità sia lontana da 0
  2. Termini Costanti: I termini costanti del risultato O(log2T)O(\log^2 T) dipendono esponenzialmente da nn
  3. Crescita del Secondo Ordine: Il risultato migliore di O(logT)O(\log T) richiede assunzioni aggiuntive di forte convessità

Direzioni Future

  1. Migliorare la dipendenza dei termini costanti
  2. Estendere a classi di distribuzioni più generali
  3. Studiare la corrispondenza dei limiti inferiori

Valutazione Approfondita

Punti di Forza

  1. Avanzamento Teorico: Risolve un problema di lunga data della degenerazione
  2. Innovazione Tecnica: Il rilassamento semi-fluido e la strategia di attrazione ai confini sono innovativi
  3. Valore Pratico: Il metodo è applicabile a scenari di prezzo continuo reali
  4. Analisi Rigorosa: Le dimostrazioni matematiche sono dettagliate e complete

Punti Deboli

  1. Limitazioni delle Assunzioni: Richiede ancora assunzioni di tipi finiti e limite inferiore della densità
  2. Termini Costanti: I termini costanti del primo risultato sono relativamente grandi
  3. Esperimenti Limitati: Gli esperimenti numerici sono relativamente semplici, mancano validazioni su dati reali

Impatto

  1. Contributo Teorico: Fornisce nuovi strumenti di analisi per la teoria NRM
  2. Metodologia: Il rilassamento semi-fluido potrebbe essere applicabile ad altri problemi di ottimizzazione online
  3. Guida Pratica: Fornisce fondamenti teorici per sistemi reali di gestione dei ricavi

Scenari Applicabili

  • Allocazione dei posti nella gestione dei ricavi dell'aviazione
  • Prezzo e allocazione delle camere d'albergo
  • Sistemi di asta per pubblicità online
  • Prezzo dinamico delle risorse cloud

Riferimenti Bibliografici

I principali lavori correlati includono:

  • Jasin e Kumar (2012): Euristica di riformulazione in NRM
  • Bumpensanti e Wang (2020): Caso discreto senza assunzioni di non degenerazione
  • Li e Ye (2021): Convergenza duale nella programmazione lineare online
  • Bray (2022): Problema dei segretari multipli con valori continui

Questo articolo raggiunge un importante avanzamento nella teoria della gestione dei ricavi di rete, essendo il primo a realizzare rimpianto logaritmico in un contesto di distribuzioni continue senza le tradizionali assunzioni di non degenerazione. Le innovazioni tecniche includono il rilassamento semi-fluido, la strategia di attrazione ai confini e l'analisi migliorata della convergenza duale, fornendo importanti contributi allo sviluppo teorico di questo campo.