The Lipschitz bandit is a key variant of stochastic bandit problems where the expected reward function satisfies a Lipschitz condition with respect to an arm metric space. With its wide-ranging practical applications, various Lipschitz bandit algorithms have been developed, achieving the cumulative regret lower bound of order $\tilde O(T^{(d_z+1)/(d_z+2)})$ over time horizon $T$. Motivated by recent advancements in quantum computing and the demonstrated success of quantum Monte Carlo in simpler bandit settings, we introduce the first quantum Lipschitz bandit algorithms to address the challenges of continuous action spaces and non-linear reward functions. Specifically, we first leverage the elimination-based framework to propose an efficient quantum Lipschitz bandit algorithm named Q-LAE. Next, we present novel modifications to the classical Zooming algorithm, which results in a simple quantum Lipschitz bandit method, Q-Zooming. Both algorithms exploit the computational power of quantum methods to achieve an improved regret bound of $\tilde O(T^{d_z/(d_z+1)})$. Comprehensive experiments further validate our improved theoretical findings, demonstrating superior empirical performance compared to existing Lipschitz bandit methods.
लिप्सचिट्ज़ बैंडिट स्टोकेस्टिक बैंडिट समस्या का एक महत्वपूर्ण रूपांतर है, जहाँ अपेक्षित पुरस्कार फलन भुजा मेट्रिक स्पेस पर लिप्सचिट्ज़ शर्त को संतुष्ट करता है। यद्यपि शास्त्रीय एल्गोरिदम O~(T(dz+1)/(dz+2)) की इष्टतम संचयी पश्चाताप सीमा प्राप्त कर चुके हैं, यह पेपर पहली बार क्वांटम कंप्यूटिंग को लिप्सचिट्ज़ बैंडिट समस्या में प्रस्तुत करता है। Q-LAE और Q-Zooming नामक दो क्वांटम एल्गोरिदम प्रस्तावित किए गए हैं, जो क्वांटम मोंटे कार्लो विधि का उपयोग करके पश्चाताप सीमा को O~(Tdz/(dz+1)) तक सुधारते हैं, जहाँ dz स्केलिंग आयाम है। प्रयोग सैद्धांतिक सुधार की प्रभावशीलता को सत्यापित करते हैं और मौजूदा विधियों की तुलना में बेहतर प्रदर्शन प्रदर्शित करते हैं।
यह पेपर लिप्सचिट्ज़ बैंडिट समस्या का अध्ययन करता है, जो एक क्रमिक निर्णय समस्या है जिसमें निरंतर अनंत भुजा स्पेस होता है, और अपेक्षित पुरस्कार फलन लिप्सचिट्ज़ निरंतरता शर्त को संतुष्ट करता है: ∣μ(x1)−μ(x2)∣≤D(x1,x2)।
शास्त्रीय एल्गोरिदम की बाधा: व्यापक अनुसंधान के बाद, शास्त्रीय लिप्सचिट्ज़ बैंडिट एल्गोरिदम की इष्टतम पश्चाताप सीमा O~(T(dz+1)/(dz+2)) है, जो सैद्धांतिक निचली सीमा तक पहुँच गई है
क्वांटम विधि का अभाव: यद्यपि क्वांटम कंप्यूटिंग बहु-भुजा बैंडिट, कर्नलीकृत बैंडिट आदि सरल सेटिंग्स में सफलतापूर्वक लागू हुई है, लिप्सचिट्ज़ बैंडिट का क्वांटमकरण अभी तक अन्वेषित है
प्रत्यक्ष विस्तार में कठिनाई: निरंतर अनंत भुजा स्पेस और अरैखिक पुरस्कार फलन मौजूदा क्वांटम एल्गोरिदम को सीधे लागू करना असंभव बनाते हैं
क्वांटम मोंटे कार्लो (QMC) विधि के अपेक्षा अनुमान में वर्ग त्वरण लाभ (O~(1/ϵ2) से O~(1/ϵ) तक) का उपयोग करके, शास्त्रीय एल्गोरिदम की सैद्धांतिक सीमा को तोड़ना और बेहतर पश्चाताप प्रदर्शन प्राप्त करना।
पहला क्वांटम लिप्सचिट्ज़ बैंडिट एल्गोरिदम: Q-LAE (Quantum Lipschitz Adaptive Elimination) एल्गोरिदम प्रस्तावित किया गया है, जो उन्मूलन ढाँचे पर आधारित है, सामान्य मेट्रिक स्पेस के लिए लागू है, और O~(Tdz/(dz+1)) पश्चाताप सीमा प्राप्त करता है
क्वांटम Zooming एल्गोरिदम: Q-Zooming एल्गोरिदम प्रस्तावित किया गया है, जो शास्त्रीय Zooming एल्गोरिदम का गैर-तुच्छ क्वांटमकरण है, चरणबद्ध डिज़ाइन का उपयोग करके क्वांटम ओरेकल का प्रभावी उपयोग करता है, और समान O~(Tdz/(dz+1)) पश्चाताप सीमा प्राप्त करता है
सैद्धांतिक सुधार: सीमित शोर और सीमित विचरण दोनों शोर मान्यताओं के तहत, शास्त्रीय इष्टतम सीमा O~(T(dz+1)/(dz+2)) की तुलना में महत्वपूर्ण सुधार सिद्ध किया गया है
कठोर स्केलिंग आयाम परिभाषा: Q-LAE पहला उन्मूलन-प्रकार लिप्सचिट्ज़ बैंडिट एल्गोरिदम है जो शास्त्रीय सुसंगत स्केलिंग आयाम परिभाषा का उपयोग करता है, मौजूदा विधियों द्वारा संभावित ढीली सीमाओं से बचता है
प्रयोगात्मक सत्यापन: तीन लिप्सचिट्ज़ फलन और दो शोर मॉडल के तहत, क्वांटम एल्गोरिदम के बेहतर प्रदर्शन को सत्यापित किया गया है
Q-LAE बैच उन्मूलन ढाँचा अपनाता है, चरणबद्ध अन्वेषण के माध्यम से उच्च पुरस्कार क्षेत्र पर ध्यान केंद्रित करता है:
प्रारंभिकीकरण:
A1: X का अधिकतम 1/2-पैकिंग
C1←X (सक्रिय क्षेत्र)
ϵm=2−m (आत्मविश्वास त्रिज्या)
चरण m प्रवाह:
1. नमूना आवंटन: nm = C1/εm * log(T/δ)
2. पुरस्कार अनुमान: प्रत्येक x ∈ Am के लिए, nm राउंड निष्पादित करें
और QMC1 का उपयोग करके μ̂m(x) का अनुमान लगाएँ
3. चयनात्मक उन्मूलन: μ̂m(x) < μ̂max - 3εm को संतुष्ट करने वाली भुजाओं को हटाएँ
4. क्रमिक परिशोधन: Cm+1 = ∪(x∈A+m) B(x, εm)
5. असतत करण: Cm+1 का अधिकतम εm+1-पैकिंग Am+1 के रूप में बनाएँ
1. अधिकतम पैकिंग कवरेज के रूप में (Proposition A.1):
अधिकतम ϵ-पैकिंग {x1,...,xn} निम्नलिखित को संतुष्ट करता है:
पैकिंग गुण: D(xi,xj)≥ϵ for i=j
कवरेज गुण: S⊆⋃i=1nB(xi,ϵ)
यह सुनिश्चित करता है कि चुनी गई बिंदुएँ पूरे सक्रिय क्षेत्र का प्रभावी प्रतिनिधित्व कर सकें।
2. QMC एकीकरण (Lemma 3.4):
सीमित शोर: y∈[0,1] होने पर, O~(1/ϵ) क्वेरी ∣y^−E[y]∣≤ϵ की गारंटी देती है
सीमित विचरण: Var(y)≤σ2 होने पर, O~(σ/ϵ) क्वेरी की आवश्यकता है
3. स्वच्छ घटना (Clean Event):
सभी चरण m और भुजा x∈Am के लिए ∣μ^m(x)−μ(x)∣≤ϵm को संतुष्ट करने के रूप में परिभाषित, union bound के माध्यम से कम से कम 1−δ संभावना के साथ सिद्ध किया गया है।
शास्त्रीय प्रत्येक राउंड एकल नमूने के विपरीत, Q-Zooming प्रत्येक चरण में चुनी गई भुजा के लिए कई क्वांटम क्वेरी करता है
कुल क्वेरी संख्या: Mx(T)≤2Ns(x)=O(2k(x)+1logm), जहाँ k(x) भुजा x के चयन की संख्या है
2. स्व-अनुकूली आत्मविश्वास त्रिज्या:
केवल जब भुजा चुनी जाए तो आत्मविश्वास त्रिज्या आधी हो: ϵs(x)=ϵs−1(x)/2 यदि x=xs
बाद के चरणों में केवल निकट-इष्टतम भुजाओं के चयन की गारंटी (Lemma B.3): Δx≤3ϵs−1(x)
3. कवरेज गारंटी:
सक्रियण नियम सुनिश्चित करता है कि इष्टतम भुजा x∗ हमेशा किसी सक्रिय भुजा के आत्मविश्वास गोले द्वारा कवर हो, जल्दबाजी में बहिष्कार से बचता है।
पहली बार QMC के वर्ग त्वरण लाभ को निरंतर भुजा स्पेस में प्रस्तुत किया
चरणबद्ध डिज़ाइन क्वांटम ओरेकल की बैच क्वेरी विशेषता के साथ चतुराई से अनुकूल है
2. शास्त्रीय विधि से मूलभूत अंतर:
शास्त्रीय: प्रत्येक राउंड एकल नमूना, ϵ सटीकता के लिए O(1/ϵ2) नमूने की आवश्यकता
क्वांटम: सुपरपोजिशन और क्वांटम माप का उपयोग, केवल O(1/ϵ) क्वेरी की आवश्यकता
3. डिज़ाइन तर्कसंगतता:
Q-LAE: उन्मूलन रणनीति कम पुरस्कार क्षेत्रों को तेजी से काटती है, उन परिदृश्यों के लिए उपयुक्त जहाँ पुरस्कार फलन में स्पष्ट उप-इष्टतम क्षेत्र हों
Q-Zooming: भुजाओं को समाप्त नहीं करता, स्व-अनुकूली परिशोधन के माध्यम से ध्यान केंद्रित करता है, सैद्धांतिक सीमा बेहतर है लेकिन स्केलिंग आयाम की निहित संरचना पर निर्भर है
4. स्केलिंग आयाम की कठोरता:
Q-LAE Xr={x:r≤Δx<2r} परिभाषा का उपयोग करता है, Yr={x:Δx≤2r} की तुलना में अधिक सूक्ष्म, आयाम विस्फारण से बचता है (Remark 4.1)।
प्रयोगात्मक अवलोकन: संचयी पश्चाताप वक्र ढलान समय के साथ घटता है, उप-रैखिक वृद्धि के अनुरूप
क्वांटम त्वरण सत्यापन:
शास्त्रीय T(dz+1)/(dz+2) की तुलना में, प्रयोग में क्वांटम एल्गोरिदम की पश्चाताप वृद्धि महत्वपूर्ण रूप से धीमी है, सैद्धांतिक सुधार को सहज रूप से सत्यापित करता है।
यह पेपर क्वांटम ऑनलाइन लर्निंग क्षेत्र में एक महत्वपूर्ण सफलता है, जो पहली बार निरंतर भुजा स्पेस और अरैखिक पुरस्कार फलन वाली लिप्सचिट्ज़ बैंडिट समस्या में क्वांटम कंप्यूटिंग के लाभ को प्रस्तुत करता है। चतुर चरणबद्ध डिज़ाइन और क्वांटम मोंटे कार्लो विधि के माध्यम से, दोनों प्रस्तावित एल्गोरिदम (Q-LAE और Q-Zooming) सैद्धांतिक रूप से O~(T(dz+1)/(dz+2)) से O~(Tdz/(dz+1)) तक महत्वपूर्ण सुधार प्राप्त करते हैं, और पर्याप्त प्रयोगात्मक सत्यापन के माध्यम से व्यावहारिक प्रदर्शन सिद्ध करते हैं।
मुख्य मूल्य निम्नलिखित में निहित है: (1) क्वांटम त्वरण शास्त्रीय सैद्धांतिक सीमा को तोड़ सकता है; (2) QMC को जटिल निर्णय समस्याओं के साथ संयोजित करने की पद्धति ढाँचा प्रदान करता है; (3) भविष्य क्वांटम सुदृढ़ शिक्षा और क्वांटम अनुकूलन अनुसंधान के लिए आधार स्थापित करता है।
मुख्य सीमाएँ सैद्धांतिक निचली सीमा का अभाव और व्यावहारिक क्वांटम हार्डवेयर बाधाओं पर विचार की कमी है, लेकिन इस दिशा के पहले कार्य के रूप में, पहले से ही उत्कृष्ट शैक्षणिक मूल्य और भविष्य संभावना प्रदर्शित करता है। क्वांटम कंप्यूटिंग हार्डवेयर की प्रगति के साथ, इस पेपर द्वारा प्रस्तावित एल्गोरिदम व्यावहारिक क्वांटम अनुप्रयोगों में महत्वपूर्ण भूमिका निभाने की संभावना रखते हैं।