The Lipschitz bandit is a key variant of stochastic bandit problems where the expected reward function satisfies a Lipschitz condition with respect to an arm metric space. With its wide-ranging practical applications, various Lipschitz bandit algorithms have been developed, achieving the cumulative regret lower bound of order $\tilde O(T^{(d_z+1)/(d_z+2)})$ over time horizon $T$. Motivated by recent advancements in quantum computing and the demonstrated success of quantum Monte Carlo in simpler bandit settings, we introduce the first quantum Lipschitz bandit algorithms to address the challenges of continuous action spaces and non-linear reward functions. Specifically, we first leverage the elimination-based framework to propose an efficient quantum Lipschitz bandit algorithm named Q-LAE. Next, we present novel modifications to the classical Zooming algorithm, which results in a simple quantum Lipschitz bandit method, Q-Zooming. Both algorithms exploit the computational power of quantum methods to achieve an improved regret bound of $\tilde O(T^{d_z/(d_z+1)})$. Comprehensive experiments further validate our improved theoretical findings, demonstrating superior empirical performance compared to existing Lipschitz bandit methods.
بندق Lipschitz هو متغير رئيسي من مشكلة الماكينات ذات الذراع العشوائية، حيث تحقق دالة المكافأة المتوقعة شرط Lipschitz على فضاء قياس الذراع. على الرغم من أن الخوارزميات الكلاسيكية حققت الحد الأدنى الأمثل للندم التراكمي O~(T(dz+1)/(dz+2))، تقدم هذه الورقة للمرة الأولى الحوسبة الكمومية إلى مشكلة بندق Lipschitz، مع اقتراح خوارزميتين كموميتين Q-LAE و Q-Zooming، باستخدام طرق مونت كارلو الكمومية لتحسين حد الندم إلى O~(Tdz/(dz+1))، حيث dz هو بعد التكبير. تتحقق التجارب من فعالية التحسين النظري، مما يوضح الأداء المتفوق مقارنة بالطرق الموجودة.
تدرس هذه الورقة مشكلة بندق Lipschitz، وهي مشكلة قرار متسلسلة مع فضاء ذراع مستمر لا نهائي، حيث تحقق دالة المكافأة المتوقعة شرط الاستمرارية Lipschitz: ∣μ(x1)−μ(x2)∣≤D(x1,x2).
اختناق الخوارزميات الكلاسيكية: بعد البحث الواسع، حد الندم الأمثل لخوارزميات بندق Lipschitz الكلاسيكية هو O~(T(dz+1)/(dz+2))، وقد وصل إلى الحد الأدنى النظري
فجوة الطرق الكمومية: على الرغم من أن الحوسبة الكمومية تم تطبيقها بنجاح على بندق متعدد الذراع والبندق المنواة وغيرها من الإعدادات البسيطة، لم يتم استكشاف تكميم بندق Lipschitz بعد
صعوبة التوسيع المباشر: فضاء الذراع المستمر اللا نهائي ودوال المكافأة غير الخطية تجعل الخوارزميات الكمومية الموجودة غير قابلة للتطبيق المباشر
الاستفادة من ميزة التسريع التربيعي لطرق مونت كارلو الكمومية (QMC) في تقدير التوقع (من O~(1/ϵ2) إلى O~(1/ϵ))، لكسر حدود الخوارزميات الكلاسيكية النظرية، وتحقيق أداء ندم أفضل.
أول خوارزمية كمومية لبندق Lipschitz: اقتراح خوارزمية Q-LAE (Quantum Lipschitz Adaptive Elimination)، بناءً على إطار الحذف، قابلة للتطبيق على فضاء قياس عام، تحقق حد ندم O~(Tdz/(dz+1))
خوارزمية تكبير كمومية: اقتراح خوارزمية Q-Zooming، تقوم بتعديل كمومي غير تافه للخوارزمية الكلاسيكية للتكبير، تستخدم تصميماً مرحلياً للاستفادة الفعالة من الأوراكل الكمومي، وتحقق أيضاً حد ندم O~(Tdz/(dz+1))
تحسين نظري: تحت افتراضات الضوضاء المحدودة والتباين المحدود، تم إثبات تحسين كبير مقارنة بالحد الأمثل الكلاسيكي O~(T(dz+1)/(dz+2))
تعريف صارم لبعد التكبير: Q-LAE هي أول خوارزمية حذف من نوع بندق Lipschitz تستخدم تعريف بعد التكبير المتسق مع الطرق الكلاسيكية، مما يتجنب الحدود المرخاة التي قد تنتجها الطرق الموجودة
التحقق التجريبي: التحقق من الأداء المتفوقة للخوارزميات الكمومية تحت ثلاث دوال Lipschitz ونموذجي ضوضاء
هذا يضمن أن النقاط المختارة تمثل بشكل فعال المنطقة النشطة بأكملها.
2. دمج QMC (Lemma 3.4):
الضوضاء المحدودة: عندما y∈[0,1]، تضمن استعلامات O~(1/ϵ) أن ∣y^−E[y]∣≤ϵ
التباين المحدود: عندما Var(y)≤σ2، تتطلب استعلامات O~(σ/ϵ)
3. الحدث النظيف (Clean Event):
معرّف كحدث يحقق جميع المراحل m والأذرع x∈Am الشرط ∣μ^m(x)−μ(x)∣≤ϵm، يتم إثبات حدوثه بأقل من احتمالية 1−δ من خلال union bound.
1. قاعدة التفعيل: إذا كانت هناك ذراع غير مغطاة y (∀x∈S, D(x,y) > εs-1(x))،
أضف y إلى S
2. قاعدة الاختيار: xs = argmaxx∈S [μ̂s-1(x) + 2εs-1(x)]
3. تحديث نصف قطر الثقة: εs(xs) = εs-1(xs)/2، الأذرع الأخرى تبقى دون تغيير
4. تخصيص العينة: Ns = C1/εs(xs) * log(m/δ)
5. تقدير QMC: تنفيذ Ns جولة، تحديث μ̂s(xs)
الملاحظة التجريبية: منحنى الندم التراكمي ينخفض الميل مع الوقت، يتوافق مع النمو دون الخطي
التحقق من التسريع الكمومي:
مقارنة بـ T(dz+1)/(dz+2) الكلاسيكي، نمو الندم للخوارزميات الكمومية في التجارب أبطأ بشكل كبير، مما يتحقق بشكل حدسي من التحسين النظري.
هذه الورقة تمثل اختراقاً مهماً في مجال التعلم الكمومي عبر الإنترنت، وهي أول من يدخل بنجاح مزايا الحوسبة الكمومية إلى مشكلة بندق Lipschitz مع فضاء ذراع مستمر ودوال مكافأة غير خطية. من خلال التصميم المرحلي الذكي وطرق مونت كارلو الكمومية، تحقق الخوارزميتان المقترحتان (Q-LAE و Q-Zooming) تحسيناً نظرياً كبيراً من O~(T(dz+1)/(dz+2)) إلى O~(Tdz/(dz+1))، وتم التحقق من الأداء العملية من خلال تجارب شاملة.
القيمة الأساسية تكمن في: (1) إثبات أن التسريع الكمومي يمكن أن يكسر حدود النظرية الكلاسيكية؛ (2) توفير إطار منهجي لدمج QMC مع مشاكل القرار المعقدة؛ (3) وضع أساس للبحث المستقبلي في التعلم المعزز الكمومي وتحسين الكمومي.
القيود الرئيسية هي غياب الحد الأدنى النظري والنظر في قيود الأجهزة الكمومية العملية، لكن كعمل أول في هذا الاتجاه، أظهرت بالفعل قيمة أكاديمية متفوقة وإمكانية مستقبلية عظيمة. مع تقدم أجهزة الحوسبة الكمومية، قد تلعب الخوارزميات المقترحة دوراً مهماً في التطبيقات الكمومية العملية.