2025-11-10T02:43:59.651588

Degeneracy is OK: Logarithmic Regret for Network Revenue Management with Indiscrete Distributions

Jiang, Ma, Zhang

We study the classical Network Revenue Management (NRM) problem with accept/reject decisions and $T$ IID arrivals. We consider a distributional form where each arrival must fall under a finite number of possible categories, each with a deterministic resource consumption vector, but a random value distributed continuously over an interval. We develop an online algorithm that achieves $O(\log^2 T)$ regret under this model, with the only (necessary) assumption being that the probability densities are bounded away from 0. We derive a second result that achieves $O(\log T)$ regret under an additional assumption of second-order growth. To our knowledge, these are the first results achieving logarithmic-level regret in an NRM model with continuous values that do not require any kind of "non-degeneracy" assumptions. Our results are achieved via new techniques including a new method of bounding myopic regret, a "semi-fluid" relaxation of the offline allocation, and an improved bound on the "dual convergence".

academic

اللاتحديد مقبول: الندم اللوغاريتمي لإدارة إيرادات الشبكة مع التوزيعات غير المنفصلة

المعلومات الأساسية

معرّف الورقة: 2210.07996
العنوان: اللاتحديد مقبول: الندم اللوغاريتمي لإدارة إيرادات الشبكة مع التوزيعات غير المنفصلة
المؤلفون: جياشو جيانج (جامعة هونج كونج للعلوم والتكنولوجيا)، ويل ما (جامعة كولومبيا)، جياوي تشانج (جامعة نيويورك ستيرن)
التصنيف: cs.LG math.PR
تاريخ النشر: 2 يناير 2025 (arXiv v5)
رابط الورقة: https://arxiv.org/abs/2210.07996

الملخص

تدرس هذه الورقة مشكلة إدارة إيرادات الشبكة (NRM) الكلاسيكية، التي تتضمن قرارات القبول/الرفض و T وصول مستقل وموزع بشكل متطابق. نأخذ في الاعتبار شكل توزيع حيث يجب أن ينتمي كل وصول إلى عدد محدود من الفئات الممكنة، حيث تحتوي كل فئة على متجه استهلاك موارد حتمي، لكن القيمة موزعة بشكل مستمر على فترة زمنية. نطور خوارزمية عبر الإنترنت تحقق ندم $O(\log^2 T)$ تحت هذا النموذج، مع الافتراض الوحيد (الضروري) بأن كثافة الاحتمالية بعيدة عن الصفر. نشتق نتيجة ثانية تحقق ندم $O(\log T)$ تحت افتراض نمو من الدرجة الثانية إضافي. بقدر علمنا، هذه هي النتائج الأولى التي تحقق ندم لوغاريتمي في نماذج NRM ذات القيم المستمرة دون الحاجة إلى أي افتراض "لاتحديد".

الخلفية البحثية والدافع

تعريف المشكلة

إدارة إيرادات الشبكة (NRM) هي مشكلة التحكم في السعة التي تتطلب تخصيص موارد محدودة على نطاق زمني محدود بطول T. في كل خطوة زمنية t، يصل استعلام يتطلب متجه موارد $\tilde{a}_t$ ويوفر مكافأة $\tilde{r}_t$ . يجب على صانع القرار اتخاذ قرار فوري وغير قابل للإلغاء بشأن ما إذا كان سيخدم هذا الاستعلام.

دافع البحث

الأهمية العملية: تتمتع NRM بقيمة تطبيقية مهمة في صناعات الطيران والفنادق وغيرها
التحديات النظرية: تتطلب الأدبيات الموجودة افتراضات قوية "لاتحديد" عند التعامل مع التوزيعات المستمرة
قيود الطريقة: تفترض الطرق التقليدية إما توزيعات منفصلة محدودة (افتراض N صغير) أو تتطلب شروط لاتحديد

قيود الطرق الموجودة

افتراض N الصغير: يقتصر على توزيعات منفصلة محدودة، لا يمكنه التعامل مع المكافآت المستمرة
افتراض اللاتحديد: يتطلب أن يكون الحل الأمثل للاسترخاء السائل فريداً ويرضي شروط التكامل الصارمة
طرق الاضطراب: تؤدي طرق معالجة تحلل LP التقليدية إلى ندم $\Omega(\sqrt{T})$

المساهمات الأساسية

تحقيق الندم اللوغاريتمي للمرة الأولى: تحقيق ندم لوغاريتمي للمرة الأولى في NRM ذات التوزيع المستمر دون افتراض لاتحديد
استرخاء شبه سائل جديد: تقديم طريقة استرخاء جديدة تقع بين الأمثل غير المتصل والاسترخاء السائل
حدود ندم قصير النظر محسّنة: تطوير تقنيات تحليل ندم قصير النظر جديدة
نتيجة مزدوجة:
- ندم $O(\log^2 T)$ (يتطلب فقط حد أدنى للكثافة)
- ندم $O(\log T)$ (شرط نمو من الدرجة الثانية إضافي)

شرح الطريقة

تعريف المهمة

الإدخال: T استعلام مستقل وموزع بشكل متطابق، حيث يحتوي كل استعلام $(r_t, a_t)$ على مكافأة ومتطلبات موارد
القيود: السعة الأولية $C \in \mathbb{R}^m_{\geq 0}$ ، قيود السعة $\sum_{t=1}^T a_{t,i} \cdot x_t \leq C_i$
الهدف: تعظيم إجمالي المكافآت المجمعة، تقليل الندم مقابل الأمثل غير المتصل

معمارية النموذج

افتراضات التوزيع (الافتراض 1)

لكل نوع $j \in [n]$ :

يتم سحب متجه الطلب $a_t$ من توزيع منفصل $\{a_1, \ldots, a_n\}$
المكافأة الشرطية $r_t$ موزعة بشكل مستمر على الفترة $[l_j, u_j]$
دالة الكثافة تحقق $f(r|a_j) \geq \alpha > 0$

الاسترخاء شبه السائل

لعدد نوع معين $d = (d_1, \ldots, d_n)$ :

$V^{\text{Semi}}_c(d) = \max_x \sum_{j=1}^n d_j \cdot \mathbb{E}_{r \sim F_j}[r \cdot x_j(r)]$

تحت القيود: $\sum_{j=1}^n d_j \cdot a_{j,i} \cdot \mathbb{E}_{r \sim F_j}[x_j(r)] \leq c_i, \quad \forall i \in [m]$

تصميم الخوارزمية

الخوارزمية 1: استراتيجية مقدّر $\hat{M}$

ملاحظة الاستعلام $(r_t, a_t)$
حساب المقدّر $\hat{M}_{c_t, a_t}$
إذا كان $r_t \geq \hat{M}_{c_t, a_t}$ و $c_t \geq a_t$ ، قبول
وإلا، رفض

الخوارزمية 2: خوارزمية ندم $O(\log^2 T)$

حل مشكلة التحسين (13) للحصول على $\{\hat{q}^*_{j,t}\}$
تعيين استراتيجية جذب الحدود بناءً على قيمة $\hat{q}^*_{j_t,t}$ $\overset{q}{^}_{j_{t}, t}^{*}$ :
- إذا كان $\hat{q}^*_{j_t,t} \geq 1 - 2\kappa_1 \sqrt{\frac{\log(T-t+1)}{T-t+1}}$ ، تعيين $\hat{M} = l_{j_t}$ (قبول دائماً)
- إذا كان $\hat{q}^*_{j_t,t} \leq 2\kappa_1 \sqrt{\frac{\log(T-t+1)}{T-t+1}}$ ، تعيين $\hat{M} = u_{j_t} + 1$ (رفض دائماً)
- وإلا، تعيين $\hat{M} = F^{-1}_{j_t}(1 - \hat{q}^*_{j_t,t})$

نقاط الابتكار التقني

1. تحليل ندم قصير النظر

تحليل الندم الإجمالي إلى: $\text{Regret}(\pi) \leq \sum_{t=1}^T \mathbb{E}_{c^{\pi}_t}[\text{Myopic}_t(\pi, c^{\pi}_t)]$

حيث يُعرّف الندم قصير النظر كـ: $\text{Myopic}_t(\pi, c) = \mathbb{E}_{\pi, I_t}[\bar{V}_c(I_t) - \bar{V}_{c - a_t \cdot x^{\pi}_t}(I_{t+1}) - r_t \cdot x^{\pi}_t]$

2. تحليل استمرارية ليبشيتز

إثبات خاصية ليبشيتز للحل الأمثل لمشكلة شبه السائل (الليما 4): $\|\hat{q}^* - \tilde{q}^*\|_{\infty} \leq \kappa_1 \cdot \max_{j \in [n]} \{|d_j/s - p_j|\}$

3. استراتيجية جذب الحدود

اعتماد استراتيجية محافظة عندما يقترب الحل السائل من الحدود، تجنب مشاكل الجدوى:

الاقتراب من 1 يعني القبول دائماً
الاقتراب من 0 يعني الرفض دائماً
المنطقة الوسيطة تستخدم استراتيجية العتبة

إعداد التجارب

تكوين التجارب الرقمية

عدد الموارد: $m$ موارد
أنواع العملاء: $n$ نوع
تعيين السعة: $C_i = \alpha_i \cdot T$
توزيع المكافآت: موزع بشكل موحد على $[l_j, u_j]$ لكل نوع
الخوارزميات المقارنة:
- استراتيجية التسعير الثابت (FBP)
- استراتيجية تحديث الثنائي
- الخوارزمية 2 والخوارزمية 3

مؤشرات التقييم

إجمالي الإيرادات المتوقعة: متوسط المكافآت المجمعة من قبل كل استراتيجية
الأداء النسبي: النسبة مقابل استراتيجية التسعير الثابت
معدل نمو الندم: كيفية نمو الندم مع الوقت T

نتائج التجارب

النتائج الرئيسية

النتائج النظرية

النظرية 1: تحقق الخوارزمية 2 ندم $O(\log^2 T)$ : $\text{Regret}(\pi) \leq \left(2\kappa_1 + \frac{2}{\alpha} + \frac{4}{\alpha} \sum_{j=1}^n \frac{1}{p_j}\right) \log^2 T + s_0 \cdot r_{\max}$

النظرية 2: تحت افتراضات إضافية، تحقق الخوارزمية 3 ندم $O(\log T)$ : $\text{Regret}(\pi) \leq C_1 \cdot \log T + C_2$

نتائج التجارب الرقمية

الاعتماد الزمني: تتفوق الخوارزميات 2 و 3 على الطرق الأساسية مع زيادة T
اعتماد عدد الموارد: تظهر الخوارزميات الثلاث المتقدمة أداءً متشابهة عبر أعداد موارد مختلفة
اعتماد عدد الأنواع: عندما يزداد عدد أنواع العملاء، تتفوق الخوارزميات 2 و 3 على استراتيجية تحديث الثنائي

التحليل التقني الرئيسي

حدود تقارب الثنائي

في النتيجة الثانية، تم إثبات حد التباين لمتغيرات الثنائي: $\mathbb{E}[(a^{\top}_t \tilde{\mu}_1 - a^{\top}_t \hat{\mu}_1)^2] \leq \frac{8\bar{d}^2}{\alpha^2\beta^2(s-1)} + \frac{1}{9\bar{\alpha}\bar{d}^2(s-1)} + \frac{2}{s-1}$

الأعمال ذات الصلة

تطور أدبيات NRM

ندم $O(\sqrt{T})$ : استراتيجيات التسعير الثابت من Talluri و Van Ryzin (1998)
ندم $O(1)$ : نتائج Jasin و Kumar (2012) تحت شروط لاتحديد
بدون لاتحديد: عمل Bumpensanti و Wang (2020)، Vera و Banerjee (2021) في الحالات المنفصلة

البحث في التوزيعات المستمرة

مشكلة الأمين المتعدد: نتيجة $\Theta(\log T)$ من Bray (2019) في حالة مورد واحد
افتراض اللاتحديد: أعمال Li و Ye (2021)، Balseiro وآخرون (2021)، Bray (2022)

الاستنتاجات والمناقشة

الاستنتاجات الرئيسية

تحقيق ندم لوغاريتمي للمرة الأولى في NRM ذات المكافآت المستمرة دون افتراض لاتحديد
يوفر الاسترخاء شبه السائل إطار عمل تحليلي جديد
تتعامل استراتيجية جذب الحدود بفعالية مع الحالات المتحللة

القيود

حد الكثافة: لا يزال يتطلب افتراض أن دالة الكثافة بعيدة عن الصفر
الحدود الثابتة: نتيجة $O(\log^2 T)$ لها حدود ثابتة تعتمد على $n$ بشكل أسي
النمو من الدرجة الثانية: تتطلب النتيجة الأفضل $O(\log T)$ افتراضات قوة محدبة إضافية

الاتجاهات المستقبلية

تحسين اعتماد الحدود الثابتة
التوسع إلى فئات توزيع أكثر عمومية
دراسة مطابقة الحدود الدنيا

التقييم العميق

المميزات

اختراق نظري: حل مشكلة طويلة الأمد تتعلق باللاتحديد
الابتكار التقني: الاسترخاء شبه السائل واستراتيجية جذب الحدود جديدة
القيمة العملية: الطريقة قابلة للتطبيق على سيناريوهات التسعير المستمر الفعلية
التحليل الدقيق: الإثباتات الرياضية مفصلة وشاملة

أوجه القصور

قيود الافتراضات: لا يزال يتطلب افتراضات نوع محدود وحد أدنى للكثافة
الحدود الثابتة: الحدود الثابتة للنتيجة الأولى كبيرة نسبياً
التجارب محدودة: التجارب الرقمية بسيطة نسبياً، تفتقر إلى التحقق من البيانات الحقيقية

التأثير

المساهمة النظرية: توفير أدوات تحليلية جديدة لنظرية NRM
المنهجية: قد ينطبق الاسترخاء شبه السائل على مشاكل التحسين عبر الإنترنت الأخرى
التوجيه العملي: توفير أساس نظري لأنظمة إدارة الإيرادات الفعلية

السيناريوهات القابلة للتطبيق

تخصيص المقاعد في إدارة إيرادات الطيران
تسعير وتخصيص غرف الفندق
أنظمة المزايدة على الإعلانات عبر الإنترنت
التسعير الديناميكي لموارد السحابة

المراجع

تشمل الأعمال ذات الصلة الرئيسية:

Jasin و Kumar (2012): الاستدلالات المعاد حلها في NRM
Bumpensanti و Wang (2020): الحالات المنفصلة بدون افتراض لاتحديد
Li و Ye (2021): تقارب الثنائي في البرمجة الخطية عبر الإنترنت
Bray (2022): مشكلة الأمين المتعدد ذات القيم المستمرة

تحقق هذه الورقة اختراقاً مهماً في نظرية إدارة إيرادات الشبكة، حيث تحقق للمرة الأولى ندم لوغاريتمي في إعداد التوزيع المستمر دون الحاجة إلى افتراضات لاتحديد تقليدية. تشمل الابتكارات التقنية الاسترخاء شبه السائل واستراتيجية جذب الحدود وتحليل تقارب الثنائي المحسّن، مما يساهم بشكل كبير في تطور المجال النظري.