In this paper, we study the contextual multinomial logit (MNL) bandit problem in which a learning agent sequentially selects an assortment based on contextual information, and user feedback follows an MNL choice model. There has been a significant discrepancy between lower and upper regret bounds, particularly regarding the maximum assortment size $K$. Additionally, the variation in reward structures between these bounds complicates the quest for optimality. Under uniform rewards, where all items have the same expected reward, we establish a regret lower bound of $Ω(d\sqrt{T/K})$ and propose a constant-time algorithm, OFU-MNL+, that achieves a matching upper bound of $\tilde{O}(d\sqrt{T/K})$. We also provide instance-dependent minimax regret bounds under uniform rewards. Under non-uniform rewards, we prove a lower bound of $Ω(d\sqrt{T})$ and an upper bound of $\tilde{O}(d\sqrt{T})$, also achievable by OFU-MNL+. Our empirical studies support these theoretical findings. To the best of our knowledge, this is the first work in the contextual MNL bandit literature to prove minimax optimality -- for either uniform or non-uniform reward setting -- and to propose a computationally efficient algorithm that achieves this optimality up to logarithmic factors.
academic معرّف الورقة : 2405.09831العنوان : Nearly Minimax Optimal Regret for Multinomial Logistic Banditالمؤلفون : Joongkyu Lee (جامعة سيول الوطنية)، Min-hwan Oh (جامعة سيول الوطنية)التصنيف : stat.ML cs.LGوقت النشر/المؤتمر : NeurIPS 2024 (المؤتمر الثامن والثلاثون حول أنظمة معالجة المعلومات العصبية)رابط الورقة : https://arxiv.org/abs/2405.09831 تدرس هذه الورقة مشكلة عبة البندول متعددة الحدود اللوجستية (MNL) السياقية، حيث يختار وكيل التعلم مجموعات من المنتجات بشكل متسلسل بناءً على المعلومات السياقية، وتتبع ردود فعل المستخدمين نموذج اختيار MNL. يوجد فجوة كبيرة بين الحدود الدنيا والعليا في الأعمال السابقة، خاصة فيما يتعلق بالحد الأقصى لحجم مجموعة المنتجات K. في إطار المكافآت الموحدة، تثبت الورقة حد ندم أدنى بقيمة Ω(d√T/K) وتقترح خوارزمية OFU-MNL+ ذات وقت ثابت، مما يحقق حد أعلى متطابق بقيمة Õ(d√T/K). في إطار المكافآت غير الموحدة، تثبت حد ندم أدنى بقيمة Ω(d√T) وحد أعلى بقيمة Õ(d√T). هذا هو أول عمل يثبت الأمثلية الصغرى-الكبرى في أدبيات عبة البندول MNL السياقية.
مشكلة عبة البندول MNL : في التطبيقات مثل أنظمة التوصيات والبيع بالتجزئة عبر الإنترنت، يحتاج الوكيل إلى تقديم مجموعة من المنتجات للمستخدم، وسلوك اختيار المستخدم يتبع نموذج متعدد الحدود اللوجستي (MNL)المعلومات السياقية : في كل جولة، يمكن للوكيل ملاحظة ميزات المنتج والمعلومات السياقية المحتملة للمستخدمالفجوة النظرية : توجد فجوة كبيرة بين الحدود العليا والدنيا للندم في الأعمال السابقة، خاصة فيما يتعلق بالاعتماد على حجم مجموعة المنتجات Kالاكتمال النظري : سد الفجوة في التحليل النظري لعبة البندول MNL وإنشاء حدود ندم محكمةكفاءة الخوارزمية : تصميم خوارزميات فعالة حسابياً تتجنب التعقيد الزمني الأسي للطرق الموجودةالتطبيقات العملية : توفير ضمانات نظرية وخوارزميات فعالة لتطبيقات عملية مثل أنظمة التوصياتالفجوة النظرية : فجوة بقيمة √K بين الحد الأدنى Ω(d√T/K) والحد الأعلى Õ(d√T)التعقيد الحسابي : تتطلب الخوارزميات الموجودة تعداد جميع مجموعات المنتجات الممكنة، مما يؤدي إلى تعقيد زمني أسيالاعتماد على المعاملات : اعتماد سيء على الثابت κ المتعلق بالمشكلة، حيث 1/κ = O(K²)إنشاء حدود ندم محكمة :تحت المكافآت الموحدة: حد أدنى Ω(√(v₀K/(v₀+K))d√T)، حد أعلى Õ(√(v₀K/(v₀+K))d√T) تحت المكافآت غير الموحدة: حد أدنى Ω(d√T)، حد أعلى Õ(d√T) اقتراح خوارزمية OFU-MNL+ الفعالة :تعقيد زمني ثابت O(1)، مستقل عن عدد الجولات t أول خوارزمية تثبت أن الندم يتناقص مع زيادة K في عبة البندول MNL الابتكار النظري :أول عرض واضح لتأثير معامل جاذبية الخيار الخارجي v₀ على الندم توفير حدود ندم صغرى-كبرى متعلقة بالمثيل التحسينات التقنية :مبرهنة الجهد الإهليلجي المحسّنة، التي تزيل الاعتماد على K تحليل دالة الخسارة ذات الخاصية الذاتية المتسقة الثابتة المدخلات :
في كل جولة t، ملاحظة متجهات الميزات x_ ∈ ℝᵈ لـ N منتج الحد الأقصى لحجم مجموعة المنتجات K معامل جاذبية الخيار الخارجي v₀ المخرجات :
اختيار مجموعة منتجات S_t ⊆ {1,...,N}، |S_t| ≤ K ملاحظة اختيار المستخدم c_t ∈ S_t ∪ {0}، يتبع نموذج MNL الهدف : تقليل الندم التراكمي Reg_T(w*) = Σ_^T R_t(S_t, w ) - R_t(S_t, w*)
احتمالية اختيار المستخدم للمنتج i ∈ S_t:
p_t(i|S_t, w*) = exp(x_{ti}^T w*) / (v₀ + Σ_{j∈S_t} exp(x_{tj}^T w*))
احتمالية الخيار الخارجي (عدم اختيار أي منتج):
p_t(0|S_t, w*) = v₀ / (v₀ + Σ_{j∈S_t} exp(x_{tj}^T w*))
تقدير المعاملات عبر الإنترنت :w_{t+1} = argmin_{w∈W} ⟨∇ℓ_t(w_t), w⟩ + (1/2η)||w - w_t||²_{H̃_t}
حيث H̃_t = H_t + ηG_t(w_t)، و G_t(w) هي مصفوفة هسيان لخسارة MNLبناء مجموعة الثقة :C_t(δ) = {w ∈ W : ||w_t - w||_{H_t} ≤ β_t(δ)}
حيث β_t(δ) = O(√(d log t log K))حساب المنفعة المتفائلة :α_{ti} = x_{ti}^T w_t + β_t(δ)||x_{ti}||_{H_t^{-1}}
اختيار مجموعة المنتجات :المكافآت الموحدة: اختيار K منتج بأعلى قيم α_ المكافآت غير الموحدة: حل مشكلة تحسين توليفية في وقت متعدد الحدود تحليل الاتساق الذاتي المحسّن : إثبات أن دالة خسارة MNL تتمتع بخاصية اتساق ذاتي بقيمة 3√2، محسّنة بعامل √K مقارنة بـ √(6K) السابقمبرهنة الجهد الإهليلجي المستقلة عن K :Σ_{t=1}^T Σ_{i∈S_t} p_t(i|S_t,w_{t+1})p_t(0|S_t,w_{t+1})||x_{ti}||²_{H_t^{-1}} ≤ 2d log(1 + T/(dλ))
حد تباعد KL محكم : إنشاء حد أعلى أكثر محكماً لتباعد KL، محسّن من نتائج Chen وآخرينمجموعات بيانات اصطناعية، حيث يتم أخذ عينات من المعاملات w* ∈ ℝᵈ بشكل موحد من -1/√d, 1/√d ᵈ يتم أخذ عينات من ميزات السياق x_ من التوزيع الغاوسي متعدد المتغيرات N(0_d, I_d) وقطعها إلى -1/√d, 1/√d ᵈ الإعدادات: N=100, K∈{5,10,15}, d=5, T=3000 الندم التراكمي: Σ_^T R_t(S_t, w ) - R_t(S_t, w*) وقت الحساب لكل جولة UCB-MNL: طريقة قائمة على الحد الأعلى للثقة TS-MNL: طريقة قائمة على عينات Thompson معامل التنظيم λ = 84√(2d)η حجم الخطوة η = (1/2)log(K+1) + 2 نصف قطر الثقة β_t(δ) = O(√(d log t log K)) أداء الندم :تحت المكافآت الموحدة، ينخفض الندم التراكمي لجميع الخوارزميات مع زيادة K تحت المكافآت غير الموحدة، لا تضمن زيادة K تحسن الندم تتفوق OFU-MNL+ بشكل كبير على طرق الأساس في جميع الإعدادات الكفاءة الحسابية :تحافظ OFU-MNL+ على تكلفة حسابية ثابتة، مستقلة عن عدد الجولات t ينمو وقت الحساب لطرق الأساس خطياً مع t وقت التشغيل تحت إعداد المكافآت الموحدة حوالي 1/10 من الإعداد غير الموحد تتحقق نتائج التجارب من التحليل النظري:
عندما v₀ = Θ(1)، ينخفض الندم مع K عندما v₀ = Θ(K)، يكون الندم مستقلاً عن K تحت المكافآت غير الموحدة، يكون الندم مستقلاً عن K الإعدادات غير السياقية : أثبت Agrawal وآخرون حد ندم أدنى بقيمة Ω(√(NT/K))الإعدادات السياقية : اقترح Chen وآخرون حد ندم أدنى بقيمة Ω(d√T/K)، لكن تعقيد الخوارزمية أسيالكفاءة الحسابية : اقترح Oh و Iyengar خوارزمية في وقت متعدد الحدود، لكن حد الندم يعتمد على 1/κتم تطوير خوارزميات مثلى لعبة البندول اللوجستية الثنائية عبة البندول MNL هي امتداد متعدد الاختيار لعبة البندول اللوجستية مرتبطة بعبة البندول التوليفية top-k لكن بهيكل مكافآت مختلف في نموذج MNL، تعتمد مكافآت المنتج الفردي على المجموعة بأكملها الاكتمال النظري : تحقيق الأمثلية الصغرى-الكبرى لأول مرة في عبة البندول MNLكفاءة الخوارزمية : اقتراح أول خوارزمية مثلى بتعقيد زمني ثابتتأثير المعاملات : تحديد كمي واضح لتأثير v₀ و K على الندمافتراضات محدودة : يتطلب ||w*||₂ ≤ 1، وتخفيف هذا سيؤدي إلى عوامل أسية إضافية في حد الندمحدود متعلقة بالمثيل : لا يمكن إنشاء حدود متعلقة بالمثيل تحت المكافآت غير الموحدةعوامل ثابتة : قد تكون العوامل اللوغاريتمية في الحدود النظرية كبيرة في الممارسةتخفيف الافتراضات : دراسة الخوارزميات المثلى في حالة المعاملات غير المحدودةالتكيف مع المثيل : إنشاء حدود متعلقة بالمثيل للمكافآت غير الموحدةالتطبيقات العملية : التحقق من أداء الخوارزمية على أنظمة توصيات حقيقيةمساهمة نظرية كبيرة : حل مشكلة الأمثلية في عبة البندول MNL لأول مرة، ملء فجوة نظرية مهمةابتكار تقني ملحوظ : تحليل الاتساق الذاتي المحسّن ومبرهنة الجهد الإهليلجي لهما قيمة مستقلةقيمة عملية عالية : يجعل التعقيد الزمني الثابت الخوارزمية قابلة للتطبيق العمليتحليل شامل : النظر في المكافآت الموحدة وغير الموحدة، توفير صورة نظرية كاملةتقييد الافتراضات : قد يكون افتراض المعاملات المحدودة صارماً جداً في الممارسةتحسين الثوابت : قد لا تكون العوامل الثابتة في الحدود النظرية محكمة بما يكفينطاق التجارب : تجريت التجارب فقط على بيانات اصطناعية، تفتقر إلى التحقق على بيانات حقيقيةالقيمة الأكاديمية : وضع أساس صلب للنظرية في عبة البندول MNL، من المتوقع أن يكون لها عدد استشهادات عاليالقيمة العملية : توفير إرشادات نظرية لتطبيقات مثل أنظمة التوصيات والإعلانات عبر الإنترنتمساهمة منهجية : يمكن تعميم الطرق التقنية على مشاكل ذات صلة أخرىأنظمة التوصيات : توصيات المنتجات عبر الإنترنت، توصيات المحتوىالإعلانات عبر الإنترنت : اختيار مجموعة الإعلانات وتحسين النشرالتجارة الإلكترونية : تحسين عرض المنتجات واستراتيجيات الترويجتستشهد الورقة بـ 52 مرجعاً ذا صلة، تشمل بشكل أساسي:
الأعمال الأساسية لعبة البندول MNL: Agrawal et al., Chen et al. نظرية عبة البندول اللوجستية: Faury et al., Abeille et al. أساسيات التعلم عبر الإنترنت: Lattimore & Szepesvári نظرية الدوال ذاتية الاتساق: Tran-Dinh et al. التقييم الإجمالي : هذه ورقة عالية الجودة بمساهمات نظرية بارزة، حيث حلت بنجاح مشكلة أساسية مفتوحة في مجال عبة البندول MNL، مع ابتكار تقني ملحوظ وتحقق تجريبي كافٍ، وتتمتع بتأثير مهم على دفع المجالات ذات الصلة.