2025-11-10T02:43:59.651588

Degeneracy is OK: Logarithmic Regret for Network Revenue Management with Indiscrete Distributions

Jiang, Ma, Zhang

We study the classical Network Revenue Management (NRM) problem with accept/reject decisions and $T$ IID arrivals. We consider a distributional form where each arrival must fall under a finite number of possible categories, each with a deterministic resource consumption vector, but a random value distributed continuously over an interval. We develop an online algorithm that achieves $O(\log^2 T)$ regret under this model, with the only (necessary) assumption being that the probability densities are bounded away from 0. We derive a second result that achieves $O(\log T)$ regret under an additional assumption of second-order growth. To our knowledge, these are the first results achieving logarithmic-level regret in an NRM model with continuous values that do not require any kind of "non-degeneracy" assumptions. Our results are achieved via new techniques including a new method of bounding myopic regret, a "semi-fluid" relaxation of the offline allocation, and an improved bound on the "dual convergence".

academic

डीजेनरेसी ठीक है: नेटवर्क राजस्व प्रबंधन के लिए लॉगरिदमिक पश्चाताप अविवेकी वितरण के साथ

मूल जानकारी

पेपर आईडी: 2210.07996
शीर्षक: डीजेनरेसी ठीक है: नेटवर्क राजस्व प्रबंधन के लिए लॉगरिदमिक पश्चाताप अविवेकी वितरण के साथ
लेखक: जियाशुओ जियांग (HKUST), विल मा (कोलंबिया विश्वविद्यालय), जियावेई झांग (NYU Stern)
वर्गीकरण: cs.LG math.PR
प्रकाशन तिथि: 2 जनवरी 2025 (arXiv v5)
पेपर लिंक: https://arxiv.org/abs/2210.07996

सारांश

यह पेपर शास्त्रीय नेटवर्क राजस्व प्रबंधन (NRM) समस्या का अध्ययन करता है, जिसमें स्वीकृति/अस्वीकृति निर्णय और T स्वतंत्र समान रूप से वितरित आगमन शामिल हैं। हम एक वितरण रूप पर विचार करते हैं जहां प्रत्येक आगमन को सीमित संख्या में संभावित श्रेणियों में से एक से संबंधित होना चाहिए, प्रत्येक श्रेणी में निर्धारक संसाधन खपत वेक्टर है, लेकिन मूल्य अंतराल पर निरंतर वितरित है। हम इस मॉडल के तहत $O(\log^2 T)$ पश्चाताप प्राप्त करने वाला एक ऑनलाइन एल्गोरिदम विकसित करते हैं, एकमात्र (आवश्यक) धारणा यह है कि संभाव्यता घनत्व 0 से दूर है। हम दूसरा परिणाम प्राप्त करते हैं जो द्वितीय-क्रम वृद्धि की अतिरिक्त धारणा के तहत $O(\log T)$ पश्चाताप प्राप्त करता है। हमारे ज्ञान के अनुसार, ये निरंतर मूल्यों वाले NRM मॉडल में लॉगरिदमिक-स्तरीय पश्चाताप प्राप्त करने वाले पहले परिणाम हैं, किसी भी "गैर-डीजेनरेसी" धारणा की आवश्यकता नहीं है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

नेटवर्क राजस्व प्रबंधन (NRM) एक क्षमता नियंत्रण समस्या है जिसमें लंबाई T की सीमित समय अवधि में सीमित संसाधनों को आवंटित करना आवश्यक है। प्रत्येक समय चरण t पर, एक क्वेरी आती है जिसे संसाधन वेक्टर $\tilde{a}_t$ की आवश्यकता होती है और पुरस्कार $\tilde{r}_t$ प्रदान करता है। निर्णय निर्माता को तुरंत और अपरिवर्तनीय निर्णय लेना चाहिए कि इस क्वेरी को सेवा देनी है या नहीं।

अनुसंधान प्रेरणा

व्यावहारिक महत्व: NRM विमानन, होटल आदि उद्योगों में महत्वपूर्ण अनुप्रयोग मूल्य रखता है
सैद्धांतिक चुनौती: मौजूदा साहित्य निरंतर वितरण को संभालते समय मजबूत "गैर-डीजेनरेसी" धारणा की आवश्यकता करता है
पद्धति सीमाएं: पारंपरिक विधियां या तो असतत वितरण (छोटा N धारणा) मानती हैं, या गैर-डीजेनरेसी शर्तों की आवश्यकता होती है

मौजूदा विधियों की सीमाएं

छोटा N धारणा: सीमित असतत वितरण तक सीमित, निरंतर पुरस्कार को संभाल नहीं सकता
गैर-डीजेनरेसी धारणा: द्रव विश्राम के इष्टतम समाधान की विशिष्टता और सख्त पूरक शिथिलता की आवश्यकता
विक्षोभ विधि: पारंपरिक LP डीजेनरेसी हैंडलिंग विधि $\Omega(\sqrt{T})$ पश्चाताप की ओर ले जाती है

मुख्य योगदान

पहली बार लॉगरिदमिक पश्चाताप प्राप्त करना: निरंतर वितरण NRM में पहली बार लॉगरिदमिक-स्तरीय पश्चाताप, गैर-डीजेनरेसी धारणा के बिना
नया अर्ध-द्रव विश्राम: ऑफलाइन इष्टतम और द्रव विश्राम के बीच नई विश्राम विधि प्रस्तावित करना
सुधारा गया मायोपिक पश्चाताप सीमा: मायोपिक पश्चाताप विश्लेषण के लिए नई तकनीकें विकसित करना
दोहरा परिणाम:
- $O(\log^2 T)$ पश्चाताप (केवल घनत्व निचली सीमा की आवश्यकता)
- $O(\log T)$ पश्चाताप (अतिरिक्त द्वितीय-क्रम वृद्धि शर्त)

विधि विवरण

कार्य परिभाषा

इनपुट: T स्वतंत्र समान रूप से वितरित क्वेरीज, प्रत्येक क्वेरी $(r_t, a_t)$ में पुरस्कार और संसाधन मांग शामिल है
बाधाएं: प्रारंभिक क्षमता $C \in \mathbb{R}^m_{\geq 0}$ , क्षमता बाधा $\sum_{t=1}^T a_{t,i} \cdot x_t \leq C_i$
उद्देश्य: कुल एकत्रित पुरस्कार को अधिकतम करना, ऑफलाइन इष्टतम के साथ पश्चाताप को कम करना

मॉडल आर्किटेक्चर

वितरण धारणा (धारणा 1)

प्रत्येक प्रकार $j \in [n]$ के लिए:

मांग वेक्टर $a_t$ असतत वितरण $\{a_1, \ldots, a_n\}$ से निकाला जाता है
सशर्त पुरस्कार $r_t$ अंतराल $[l_j, u_j]$ पर निरंतर वितरित है
घनत्व फलन $f(r|a_j) \geq \alpha > 0$ को संतुष्ट करता है

अर्ध-द्रव विश्राम

दिए गए प्रकार की गणना $d = (d_1, \ldots, d_n)$ के लिए:

$V^{\text{Semi}}_c(d) = \max_x \sum_{j=1}^n d_j \cdot \mathbb{E}_{r \sim F_j}[r \cdot x_j(r)]$

बाधाओं के अधीन: $\sum_{j=1}^n d_j \cdot a_{j,i} \cdot \mathbb{E}_{r \sim F_j}[x_j(r)] \leq c_i, \quad \forall i \in [m]$

एल्गोरिदम डिजाइन

एल्गोरिदम 1: $\hat{M}$ -अनुमानक रणनीति

क्वेरी $(r_t, a_t)$ का अवलोकन करें
अनुमानक $\hat{M}_{c_t, a_t}$ की गणना करें
यदि $r_t \geq \hat{M}_{c_t, a_t}$ और $c_t \geq a_t$ , तो स्वीकार करें
अन्यथा अस्वीकार करें

एल्गोरिदम 2: $O(\log^2 T)$ पश्चाताप एल्गोरिदम

अनुकूलन समस्या (13) को हल करके $\{\hat{q}^*_{j,t}\}$ प्राप्त करें
$\hat{q}^*_{j_t,t}$ $\overset{q}{^}_{j_{t}, t}^{*}$ के मान के अनुसार सीमा आकर्षण रणनीति सेट करें:
- यदि $\hat{q}^*_{j_t,t} \geq 1 - 2\kappa_1 \sqrt{\frac{\log(T-t+1)}{T-t+1}}$ , तो $\hat{M} = l_{j_t}$ सेट करें (हमेशा स्वीकार करें)
- यदि $\hat{q}^*_{j_t,t} \leq 2\kappa_1 \sqrt{\frac{\log(T-t+1)}{T-t+1}}$ , तो $\hat{M} = u_{j_t} + 1$ सेट करें (हमेशा अस्वीकार करें)
- अन्यथा $\hat{M} = F^{-1}_{j_t}(1 - \hat{q}^*_{j_t,t})$ सेट करें

तकनीकी नवाचार बिंदु

1. मायोपिक पश्चाताप विघटन

कुल पश्चाताप को विघटित करें: $\text{Regret}(\pi) \leq \sum_{t=1}^T \mathbb{E}_{c^{\pi}_t}[\text{Myopic}_t(\pi, c^{\pi}_t)]$

जहां मायोपिक पश्चाताप को परिभाषित किया गया है: $\text{Myopic}_t(\pi, c) = \mathbb{E}_{\pi, I_t}[\bar{V}_c(I_t) - \bar{V}_{c - a_t \cdot x^{\pi}_t}(I_{t+1}) - r_t \cdot x^{\pi}_t]$

2. लिप्सचिट्ज निरंतरता विश्लेषण

अर्ध-द्रव समस्या के इष्टतम समाधान की लिप्सचिट्ज संपत्ति को प्रमाणित किया (लेम्मा 4): $\|\hat{q}^* - \tilde{q}^*\|_{\infty} \leq \kappa_1 \cdot \max_{j \in [n]} \{|d_j/s - p_j|\}$

3. सीमा आकर्षण रणनीति

जब द्रव समाधान सीमा के पास हो तो रूढ़िवादी रणनीति अपनाएं, व्यवहार्यता समस्याओं से बचें:

1 के पास होने पर हमेशा स्वीकार करें
0 के पास होने पर हमेशा अस्वीकार करें
मध्य क्षेत्र में थ्रेसहोल्ड रणनीति का उपयोग करें

प्रायोगिक सेटअप

संख्यात्मक प्रयोग कॉन्फ़िगरेशन

संसाधन संख्या: $m$ संसाधन
ग्राहक प्रकार: $n$ प्रकार
क्षमता सेटिंग: $C_i = \alpha_i \cdot T$
पुरस्कार वितरण: प्रत्येक प्रकार $[l_j, u_j]$ पर समान वितरण
तुलना एल्गोरिदम:
- निश्चित बोली मूल्य रणनीति (FBP)
- दोहरी अद्यतन रणनीति
- एल्गोरिदम 2 और एल्गोरिदम 3

मूल्यांकन मेट्रिक्स

अपेक्षित कुल राजस्व: प्रत्येक रणनीति द्वारा एकत्रित औसत पुरस्कार
सापेक्ष प्रदर्शन: निश्चित बोली मूल्य रणनीति के साथ अनुपात
पश्चाताप वृद्धि दर: समय T के साथ पश्चाताप की वृद्धि

प्रायोगिक परिणाम

मुख्य परिणाम

सैद्धांतिक परिणाम

प्रमेय 1: एल्गोरिदम 2 $O(\log^2 T)$ पश्चाताप प्राप्त करता है: $\text{Regret}(\pi) \leq \left(2\kappa_1 + \frac{2}{\alpha} + \frac{4}{\alpha} \sum_{j=1}^n \frac{1}{p_j}\right) \log^2 T + s_0 \cdot r_{\max}$

प्रमेय 2: अतिरिक्त धारणा के तहत, एल्गोरिदम 3 $O(\log T)$ पश्चाताप प्राप्त करता है: $\text{Regret}(\pi) \leq C_1 \cdot \log T + C_2$

संख्यात्मक प्रयोग परिणाम

समय निर्भरता: एल्गोरिदम 2 और 3 T बढ़ने पर आधारभूत विधियों से बेहतर प्रदर्शन करते हैं
संसाधन संख्या निर्भरता: तीनों उन्नत एल्गोरिदम विभिन्न संसाधन संख्या में समान प्रदर्शन करते हैं
प्रकार संख्या निर्भरता: जब ग्राहक प्रकार संख्या बढ़ती है, तो एल्गोरिदम 2 और 3 दोहरी अद्यतन रणनीति से बेहतर हैं

मुख्य तकनीकी विश्लेषण

दोहरी अभिसरण सीमा

दूसरे परिणाम में, दोहरी चर के विचरण सीमा को प्रमाणित किया: $\mathbb{E}[(a^{\top}_t \tilde{\mu}_1 - a^{\top}_t \hat{\mu}_1)^2] \leq \frac{8\bar{d}^2}{\alpha^2\beta^2(s-1)} + \frac{1}{9\bar{\alpha}\bar{d}^2(s-1)} + \frac{2}{s-1}$

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

पहली बार निरंतर पुरस्कार NRM में लॉगरिदमिक पश्चाताप प्राप्त किया गया बिना गैर-डीजेनरेसी धारणा के
अर्ध-द्रव विश्राम नई विश्लेषण रूपरेखा प्रदान करता है
सीमा आकर्षण रणनीति डीजेनरेट स्थितियों को प्रभावी ढंग से संभालती है

सीमाएं

घनत्व निचली सीमा: अभी भी घनत्व फलन के 0 से दूर होने की धारणा की आवश्यकता है
स्थिरांक पद: $O(\log^2 T)$ परिणाम के स्थिरांक पद $n$ के घातांकीय पर निर्भर हैं
द्वितीय-क्रम वृद्धि: बेहतर $O(\log T)$ परिणाम के लिए अतिरिक्त मजबूत उत्तलता धारणा की आवश्यकता है

भविष्य की दिशाएं

स्थिरांक पद की निर्भरता में सुधार करना
अधिक सामान्य वितरण वर्गों तक विस्तार करना
निचली सीमा मिलान का अध्ययन करना

गहन मूल्यांकन

लाभ

सैद्धांतिक सफलता: दीर्घकालीन डीजेनरेसी समस्या को हल किया
तकनीकी नवाचार: अर्ध-द्रव विश्राम और सीमा आकर्षण रणनीति नई हैं
व्यावहारिक मूल्य: विधि वास्तविक निरंतर मूल्य निर्धारण परिदृश्यों के लिए लागू है
विश्लेषण कठोरता: गणितीय प्रमाण विस्तृत और पूर्ण हैं

कमियां

धारणा सीमाएं: अभी भी सीमित प्रकार और घनत्व निचली सीमा धारणा की आवश्यकता है
स्थिरांक पद: पहले परिणाम का स्थिरांक पद बड़ा है
सीमित प्रयोग: संख्यात्मक प्रयोग अपेक्षाकृत सरल हैं, वास्तविक डेटा सत्यापन की कमी है

प्रभाव

सैद्धांतिक योगदान: NRM सिद्धांत के लिए नई विश्लेषण उपकरण प्रदान करता है
पद्धति विज्ञान: अर्ध-द्रव विश्राम अन्य ऑनलाइन अनुकूलन समस्याओं पर लागू हो सकता है
व्यावहारिक मार्गदर्शन: वास्तविक राजस्व प्रबंधन प्रणालियों के लिए सैद्धांतिक आधार प्रदान करता है

लागू परिदृश्य

विमानन राजस्व प्रबंधन में सीट आवंटन
होटल कक्ष मूल्य निर्धारण और आवंटन
ऑनलाइन विज्ञापन बोली प्रणाली
क्लाउड संसाधन गतिशील मूल्य निर्धारण

संदर्भ

मुख्य संबंधित कार्य में शामिल हैं:

Jasin और Kumar (2012): NRM में पुनः समाधान अनुमान
Bumpensanti और Wang (2020): गैर-डीजेनरेसी धारणा के बिना असतत स्थिति
Li और Ye (2021): ऑनलाइन रैखिक प्रोग्रामिंग में दोहरी अभिसरण
Bray (2022): निरंतर मूल्य बहु-सचिव समस्या

यह पेपर नेटवर्क राजस्व प्रबंधन सिद्धांत में महत्वपूर्ण सफलता प्राप्त करता है, पहली बार निरंतर वितरण सेटिंग में लॉगरिदमिक-स्तरीय पश्चाताप प्राप्त करता है बिना पारंपरिक गैर-डीजेनरेसी धारणा के। तकनीकी नवाचार में अर्ध-द्रव विश्राम, सीमा आकर्षण रणनीति और सुधारी गई दोहरी अभिसरण विश्लेषण शामिल हैं, जो इस क्षेत्र के सैद्धांतिक विकास में महत्वपूर्ण योगदान देते हैं।