In many modern applications, a system must dynamically choose between several adaptive learning algorithms that are trained online. Examples include model selection in streaming environments, switching between trading strategies in finance, and orchestrating multiple contextual bandit or reinforcement learning agents. At each round, a learner must select one predictor among $K$ adaptive experts to make a prediction, while being able to update at most $M \le K$ of them under a fixed training budget.
We address this problem in the \emph{stochastic setting} and introduce \algname{M-LCB}, a computationally efficient UCB-style meta-algorithm that provides \emph{anytime regret guarantees}. Its confidence intervals are built directly from realized losses, require no additional optimization, and seamlessly reflect the convergence properties of the underlying experts. If each expert achieves internal regret $\tilde O(T^α)$, then \algname{M-LCB} ensures overall regret bounded by $\tilde O\!\Bigl(\sqrt{\tfrac{KT}{M}} \;+\; (K/M)^{1-α}\,T^α\Bigr)$.
To our knowledge, this is the first result establishing regret guarantees when multiple adaptive experts are trained simultaneously under per-round budget constraints. We illustrate the framework with two representative cases: (i) parametric models trained online with stochastic losses, and (ii) experts that are themselves multi-armed bandit algorithms. These examples highlight how \algname{M-LCB} extends the classical bandit paradigm to the more realistic scenario of coordinating stateful, self-learning experts under limited resources.
- معرّف الورقة: 2510.22654
- العنوان: خوارزمية من نوع UCB للتعلم من الخبراء مع قيود الميزانية
- المؤلفون: Ilgam Latypov, Alexandra Suvorikova, Alexey Kroshnin, Alexander Gasnikov, Yuriy Dorn
- التصنيف: cs.LG (التعلم الآلي)، cs.MA (الأنظمة متعددة الوكلاء)
- تاريخ النشر: 28 أكتوبر 2025 (نسخة أولية)
- رابط الورقة: https://arxiv.org/abs/2510.22654
في العديد من التطبيقات الحديثة، يجب على الأنظمة الاختيار الديناميكي بين عدة خوارزميات تعلم تكيفية مدربة عبر الإنترنت. على سبيل المثال: اختيار النموذج في بيئات البث، تبديل استراتيجيات التداول في المالية، والتنسيق بين عدة آليات سياق أو وكلاء التعلم المعزز. في كل جولة، يجب على المتعلم اختيار منبئ من K خبير تكيفي للتنبؤ، مع إمكانية تحديث M≤K خبير فقط ضمن ميزانية تدريب ثابتة.
تحل هذه الورقة هذه المشكلة في الإعداد العشوائي، وتقترح خوارزمية M-LCB — وهي خوارزمية فوقية من نوع UCB فعالة حسابياً توفر ضمانات ندم في أي وقت. يتم بناء فترات الثقة مباشرة من الخسائر المحققة، دون الحاجة إلى تحسين إضافي، وتعكس بسلاسة خصائص التقارب للخبراء الأساسيين. إذا حقق كل خبير ندماً داخلياً قدره Õ(T^α)، فإن M-LCB تضمن حد ندم إجمالي قدره Õ(√(KT/M) + (K/M)^(1-α)T^α).
تتطلب العديد من التطبيقات الواقعية الاختيار الديناميكي بين عدة خبراء يتعلمون ذاتياً:
- أنظمة التوصيات: تشغيل عدة منبئات بالتوازي، التحديث بناءً على ردود فعل المستخدمين
- المنصات المالية: التبديل بين استراتيجيات التداول مع تطور آليات السوق
- الخدمات عبر الإنترنت على نطاق واسع: إدارة مجموعات من آليات السياق أو خوارزميات التعلم المعزز
قيود الطرق التقليدية:
- آليات متعددة الأذرع الكلاسيكية (MAB): تفترض توزيعات مكافآت ثابتة أو معادية، لا تأخذ في الاعتبار قدرة الأذرع على التعلم
- خوارزميات الخبراء: عادة ما تتطلب ردود فعل كاملة، لا تأخذ في الاعتبار معدلات التعلم للخبراء
- الطرق الموجودة: لم تعالج بشكل كافٍ تحدي إدارة عدة خبراء يتعلمون بشكل متزامن تحت قيود ميزانية التدريب لكل جولة
تهدف هذه الورقة إلى سد هذه الفجوة، وتقترح إجراءً موحداً للتنبؤ والتدريب الانتقائي، مع الأخذ في الاعتبار قيود الميزانية الحسابية الثابتة لكل جولة.
- خوارزمية فوقية جديدة من نوع UCB (M-LCB): تقترح خوارزمية جديدة لإدارة مجموعة من K خبير يتعلم ذاتياً، مع الأخذ في الاعتبار ميزانية التعلم المحدودة M لكل جولة (M≤K)
- الكفاءة الحسابية: توفر طريقة لبناء حدود الثقة مباشرة من الخسائر المحققة، فعالة حسابياً وتتجنب التحسين المساعد المكلف
- التحليل النظري: تقدير أداء الخوارزمية الفوقية بناءً على معدلات التقارب الفردية للخبراء، عندما يكون ندم الخبير Õ(n^α)، يكون الندم الإجمالي Õ(√(KT/M) + (K/M)^(1-α)T^α)
- توسيع آليات السياق متعددة: إثبات أن M-LCB قابلة للتوسيع إلى إعداد آليات السياق متعددة
- فضاء القرار U: فضاء توصيات الخبراء
- فضاء البيئة E: فضاء النتائج العشوائية
- دالة الخسارة: ℓ : U×E → R₊
- مواصفات الخبير: يتم تحديد كل خبير k بواسطة صف (Wₖ,Hₖ,Aₖ,gₖ,υₖ)
- Wₖ: فضاء الحالة/المعاملات
- Hₖ: فضاء السجل
- Aₖ: خوارزمية التعلم عبر الإنترنت
- gₖ: الخريطة من الحالة إلى التوصية
- υₖ: منشئ التوصية الآمنة
تسلسل التنفيذ لكل جولة t:
- يختار البرنامج الفوقي المستشار iₜ∈K ومجموعة التدريب Sₜ⊆K، مع |Sₜ|≤M و iₜ∈Sₜ
- يقدم الخبير iₜ توصية آمنة uₜ = υᵢₜ(Hᵢₜᵗ)∈U
- تأخذ البيئة عينة ξᵗ~D، ويتحمل البرنامج خسارة ℓ(uₜ,ξᵗ)
- يحدث الخبير k∈Sₜ السجل والحالة الداخلية
بالنسبة للخبير k، حدد:
- الخسارة المعايرة المتراكمة: LAₖ(t) = (1/nₖᵗ)∑_{τ∈Iₖ(t)} ℓₖᵗ(wₖᵗ)
- حد الثقة الأدنى: LCBₖ(t,δ) = LAₖ(t) - Uₖ(nₖᵗ,δₐᵣₘ)/nₖᵗ - G(nₖᵗ,δₙᵗ)
- حد الثقة الأعلى: UCBₖ(t,δ) = LAₖ(t) + H(nₖᵗ,δₙᵗ)
حيث:
- δₐᵣₘ = δ/(2K), δₙ = δ/(7Kn²)
- G(n,δ) = √(2log(1/δ)/n) + 2log(1/δ)/(3n)
- H(n,δ) = √(2log(1/δ)/n)
- اختيار مجموعة التدريب: Sₜ := argmin_{S⊆K,|S|≤M} ∑_{k∈S} LCBₖ(t,δ)
- اختيار المستشار: iₜ := argmin_{k∈Sₜ} UCBₖ(t,δ)
- بناء فترات الثقة المباشرة: البناء المباشر من الخسائر المحققة، دون الحاجة إلى تحسين إضافي
- إدارة الخبراء التكيفية: النظر المتزامن في اختيار الخبير وتوزيع ميزانية التدريب
- ضمانات في أي وقت: توفير حدود ندم لجميع خطوات الوقت T
- إطار عمل مرن: يدعم أنواعاً مختلفة من خوارزميات التعلم كخبراء
أجرت الورقة بشكل أساسي تجارب اصطناعية:
- عدد الخبراء: K=10 نماذج خطية معممة
- بُعد الميزة: يتم أخذ عينات متجهات الميزات بشكل موحد من الكرة الوحدة Sᵈ⁻¹
- إعداد التحدي: الدوال f₇,f₈,f₉ متشابهة جداً في مناطق البيانات الكثيفة، مما يزيد من صعوبة الاستكشاف
- الخسارة المتراكمة: ∑ᵗ₌₁ᵀ ℓ(uᵗ,ξᵗ)
- توزيع اختيار الذراع: التكرار النهائي لاختيار كل خبير
- توزيع ميزانية الحساب: توزيع عدد مرات التدريب التي يحصل عليها كل خبير
- ED2RB: خوارزمية بضمانات الأذرع القابلة للتعلم
- LimitedAdvice: خوارزمية خبراء يمكنها التعامل مع تحديثات متعددة الأذرع لكل جولة
- حد التحديث: M∈{1,2,3}
- عدد التكرارات: 30 تشغيل مستقل للحصول على المتوسط
- فترات الثقة: عرض ±0.5 انحراف معياري
- ضبط المعاملات الفائقة: معامل الاستكشاف ED2RB c=0.1، مقياس حد التركيز M-FLCB 0.3
- أداء التقارب: تحقق M-LCB ندماً دون خطي، مع قدرة تنافسية مقارنة بطرق الخط الأساسي
- تحديد الخبير: تحديد ناجح للخبير الأمثل (k=9)
- كفاءة الميزانية: توزيع التحديثات بشكل أساسي على الخبراء ذوي الأداء العالية، بينما يوزع LimitedAdvice بشكل أكثر توازناً
النظرية 2: دع α,δ∈(0,1)، افترض أن كل خبير k يرضي Uₖ(t,δ)=O(t^α c(δ))، ثم باحتمالية لا تقل عن 1-δ، يكون ندم الخوارزمية 1 محدوداً لجميع T≥1:
Reg(T) = O(√(KT/M)log(KT/δ) + (K/M)^(1-α)T^α c(δ))
النظرية 1: توجد ثوابت c₁,c₂>0 بحيث لأي خوارزمية تعلم وبرنامج فوقي:
sup EReg(T) ≥ c₁√(KT/M) + c₂T^α(K/M)^(1-α)
هذا يشير إلى أن M-LCB تحقق الأمثلية ضمن عوامل لوغاريتمية.
- 6: إدخال أذرع تتعلم ذاتياً في إعداد MAB، حيث تكون كل ذراع دالة معاملة، يتم تحديث المعاملات بعد الاختيار
- CORRAL8: إدارة مجموعة من خوارزميات المراهنات من خلال الانحدار المرآوي للحاجز اللوغاريتمي مع ردود فعل الأهمية المرجحة
- التوازن الديناميكي9: خوارزمية فوقية بناءً على تعبيرات معدل الندم المعروفة، تحديث متعلم واحد فقط لكل جولة
- 10: تقدير معاملات كل متعلم عبر الإنترنت، الحصول على ضمانات عالية الاحتمالية تعتمد على البيانات للمراهنات العشوائية
- نصائح محدودة12: الاستعلام عن M ذراع على الأكثر، الحصول على حد ندم Õ(√(KT logK/M))
- 13: ندم minimax الأمثل Õ(max{√(KT/M), √(T logK)})
- إنشاء ضمانات ندم لأول مرة لعدة خبراء تكيفيين يتم تدريبهم بشكل متزامن تحت قيود الميزانية لكل جولة
- تحقق خوارزمية M-LCB الأمثلية ضمن عوامل لوغاريتمية
- يوحد الإطار بين التحسين عبر الإنترنت وإعدادات المراهنات العشوائية
- مقياس الثقة المعروف: يفترض التحليل معرفة دالة مقياس الثقة c(δ)
- افتراض الخسارة المحدودة: التركيز الأساسي على حالات الخسارة المحدودة
- الإعداد العشوائي: التحليل الأساسي في بيئة عشوائية، يتطلب الإعداد المعادي مزيداً من البحث
- حالة c(δ) غير المعروفة: مثل معالجة Pacchiano وآخرون11
- توسيع الملاحظات الإضافية: التوسيع إلى نصائح محدودة وآليات سياق متعددة
- نظام السياق: التوسيع إلى الحالات التي يتخصص فيها الخبراء بناءً على ميزات الملاحظة
- مساهمة نظرية كبيرة: توفير ضمانات نظرية لأول مرة للتعلم من خبراء متعددين تحت قيود الميزانية
- تصميم خوارزمية أنيق: بناء فترات الثقة مباشرة من الخسائر، فعال حسابياً
- قوة إطار العمل: ينطبق على أنواع خبراء متعددة (نماذج معاملة، خوارزميات مراهنات، إلخ)
- تحليل نظري صارم: توفير حدود عليا وسفلى متطابقة، إثبات أمثلية الخوارزمية
- التحقق التجريبي محدود: بشكل أساسي تجارب اصطناعية، تفتقر إلى التحقق في سيناريوهات التطبيق الحقيقي
- شروط الافتراض قوية: تتطلب معرفة شكل حد ندم الخبير
- تحليل عامل ثابت: قد تكون العوامل الثابتة في النتائج النظرية كبيرة، يتطلب التحقق من الأداء الفعلية
- قيمة نظرية عالية: توفير أساس نظري للتعلم من الخبراء تحت قيود الميزانية
- إمكانية تطبيقية كبيرة: ينطبق على أنظمة التوصيات والتداول المالي وعدة مجالات أخرى
- قابلية التوسيع قوية: يمكن توسيع الإطار إلى سيناريوهات تعلم أكثر تعقيداً
- اختيار النموذج عبر الإنترنت: الاختيار الديناميكي للنموذج في بيئات بث البيانات
- أنظمة متعددة الاستراتيجية: التداول المالي والإعلانات والسيناريوهات التي تتطلب تبديل الاستراتيجية
- التعلم مع موارد محدودة: تنسيق نماذج متعددة عندما تكون الموارد الحسابية محدودة
تستشهد الورقة بأدبيات مهمة في مجالات المراهنات متعددة الأذرع والتعلم عبر الإنترنت وخوارزميات الخبراء، خاصة:
- خوارزمية UCB الكلاسيكية لـ Auer وآخرون1
- نظرية خوارزميات الخبراء لـ Cesa-Bianchi و Lugosi4
- التحسين المحدب عبر الإنترنت لـ Hazan5
- خوارزميات التعلم الفوقي الحديثة مثل CORRAL8
التقييم الإجمالي: هذه ورقة عالية الجودة في المجال النظري، تقدم مساهمات كبيرة في مشكلة مهمة لكن لم تحظ بدراسة كافية وهي التعلم من الخبراء تحت قيود الميزانية. تتميز بتصميم خوارزمية ذكي وتحليل نظري صارم، وتضع أساساً متيناً لمزيد من التطور في هذا المجال.