The Lipschitz bandit is a key variant of stochastic bandit problems where the expected reward function satisfies a Lipschitz condition with respect to an arm metric space. With its wide-ranging practical applications, various Lipschitz bandit algorithms have been developed, achieving the cumulative regret lower bound of order $\tilde O(T^{(d_z+1)/(d_z+2)})$ over time horizon $T$. Motivated by recent advancements in quantum computing and the demonstrated success of quantum Monte Carlo in simpler bandit settings, we introduce the first quantum Lipschitz bandit algorithms to address the challenges of continuous action spaces and non-linear reward functions. Specifically, we first leverage the elimination-based framework to propose an efficient quantum Lipschitz bandit algorithm named Q-LAE. Next, we present novel modifications to the classical Zooming algorithm, which results in a simple quantum Lipschitz bandit method, Q-Zooming. Both algorithms exploit the computational power of quantum methods to achieve an improved regret bound of $\tilde O(T^{d_z/(d_z+1)})$. Comprehensive experiments further validate our improved theoretical findings, demonstrating superior empirical performance compared to existing Lipschitz bandit methods.
লিপশিৎজ ব্যান্ডিট হল স্টোকাস্টিক ব্যান্ডিট সমস্যার একটি গুরুত্বপূর্ণ রূপান্তর, যেখানে প্রত্যাশিত পুরস্কার ফাংশন বাহুর মেট্রিক স্থানে লিপশিৎজ শর্ত সন্তুষ্ট করে। যদিও ক্লাসিক্যাল অ্যালগরিদম O~(T(dz+1)/(dz+2)) এর সর্বোত্তম সংগৃহীত অনুশোচনা সীমানা অর্জন করেছে, এই পেপারটি প্রথমবারের মতো লিপশিৎজ ব্যান্ডিট সমস্যায় কোয়ান্টাম কম্পিউটিং প্রবর্তন করে, Q-LAE এবং Q-Zooming দুটি কোয়ান্টাম অ্যালগরিদম প্রস্তাব করে যা কোয়ান্টাম মন্টে কার্লো পদ্ধতি ব্যবহার করে অনুশোচনা সীমানা O~(Tdz/(dz+1)) এ উন্নত করে, যেখানে dz হল স্কেলিং মাত্রা। পরীক্ষামূলক যাচাইকরণ তাত্ত্বিক উন্নতির কার্যকারিতা প্রদর্শন করে এবং বিদ্যমান পদ্ধতির তুলনায় উচ্চতর কর্মক্ষমতা প্রদর্শন করে।
এই পেপারটি লিপশিৎজ ব্যান্ডিট সমস্যা অধ্যয়ন করে, যা একটি ক্রমাগত অসীম বাহু স্থান সহ একটি ক্রমিক সিদ্ধান্ত গ্রহণের সমস্যা, যেখানে প্রত্যাশিত পুরস্কার ফাংশন লিপশিৎজ ধারাবাহিকতা শর্ত সন্তুষ্ট করে: ∣μ(x1)−μ(x2)∣≤D(x1,x2)।
ক্লাসিক্যাল অ্যালগরিদম বাধা: ব্যাপক গবেষণার পরে, ক্লাসিক্যাল লিপশিৎজ ব্যান্ডিট অ্যালগরিদমের সর্বোত্তম অনুশোচনা সীমানা O~(T(dz+1)/(dz+2)), যা তাত্ত্বিক নিম্ন সীমানায় পৌঁছেছে
কোয়ান্টাম পদ্ধতির শূন্যতা: যদিও কোয়ান্টাম কম্পিউটিং মাল্টি-আর্ম ব্যান্ডিট, কার্নেলাইজড ব্যান্ডিট ইত্যাদি সহজ সেটিংসে সফলভাবে প্রয়োগ করা হয়েছে, লিপশিৎজ ব্যান্ডিটের কোয়ান্টামকরণ এখনও অন্বেষণ করা হয়নি
সরাসরি সম্প্রসারণের কঠিনতা: ক্রমাগত অসীম বাহু স্থান এবং অ-রৈখিক পুরস্কার ফাংশন বিদ্যমান কোয়ান্টাম অ্যালগরিদমকে সরাসরি প্রয়োগ করা অসম্ভব করে তোলে
প্রত্যাশা অনুমানে কোয়ান্টাম মন্টে কার্লো (QMC) পদ্ধতির বর্গ ত্বরণ সুবিধা (O~(1/ϵ2) থেকে O~(1/ϵ) এ হ্রাস) ব্যবহার করে, ক্লাসিক্যাল অ্যালগরিদমের তাত্ত্বিক সীমানা অতিক্রম করুন এবং আরও ভাল অনুশোচনা কর্মক্ষমতা অর্জন করুন।
প্রথম কোয়ান্টাম লিপশিৎজ ব্যান্ডিট অ্যালগরিদম: Q-LAE (Quantum Lipschitz Adaptive Elimination) অ্যালগরিদম প্রস্তাব করুন, নির্মূলন কাঠামোর উপর ভিত্তি করে, সাধারণ মেট্রিক স্থানের জন্য প্রযোজ্য, O~(Tdz/(dz+1)) অনুশোচনা সীমানা অর্জন করুন
কোয়ান্টাম জুমিং অ্যালগরিদম: Q-Zooming অ্যালগরিদম প্রস্তাব করুন, ক্লাসিক্যাল জুমিং অ্যালগরিদমের অ-তুচ্ছ কোয়ান্টামকরণ, পর্যায়ক্রমিক ডিজাইন কোয়ান্টাম ওরাকেল কার্যকরভাবে ব্যবহার করুন, একই O~(Tdz/(dz+1)) অনুশোচনা সীমানা অর্জন করুন
তাত্ত্বিক উন্নতি: সীমাবদ্ধ শব্দ এবং সীমাবদ্ধ বৈচিত্র্য উভয় শব্দ অনুমানের অধীনে, ক্লাসিক্যাল সর্বোত্তম সীমানা O~(T(dz+1)/(dz+2)) এর তুলনায় উল্লেখযোগ্য উন্নতি প্রমাণ করুন
কঠোর স্কেলিং মাত্রা সংজ্ঞা: Q-LAE হল প্রথম ক্লাসিক্যাল সামঞ্জস্যপূর্ণ স্কেলিং মাত্রা সংজ্ঞা ব্যবহার করে নির্মূলন-ধরনের লিপশিৎজ ব্যান্ডিট অ্যালগরিদম, বিদ্যমান পদ্ধতির দ্বারা সম্ভাব্য শিথিল সীমানা এড়ান
পরীক্ষামূলক যাচাইকরণ: তিনটি লিপশিৎজ ফাংশন এবং দুটি শব্দ মডেলের অধীনে, কোয়ান্টাম অ্যালগরিদমের উচ্চতর কর্মক্ষমতা যাচাই করুন
Q-LAE ব্যাচ নির্মূলন কাঠামো ব্যবহার করে, পর্যায়ক্রমিক অন্বেষণের মাধ্যমে ক্রমান্বয়ে উচ্চ পুরস্কার অঞ্চলে ফোকাস করুন:
আরম্ভীকরণ:
A1: X এর সর্বাধিক 1/2-পূরণ (maximal packing)
C1←X (সক্রিয় অঞ্চল)
ϵm=2−m (আস্থা ব্যাসার্ধ)
পর্যায় m প্রবাহ:
1. নমুনা বরাদ্দ: nm = C1/εm * log(T/δ)
2. পুরস্কার অনুমান: প্রতিটি x ∈ Am এর জন্য, nm রাউন্ড সম্পাদন করুন এবং QMC1 ব্যবহার করে μ̂m(x) অনুমান করুন
3. নির্বাচনী নির্মূলন: μ̂m(x) < μ̂max - 3εm সন্তুষ্ট করে এমন বাহু সরান
4. ক্রমিক পরিমার্জন: Cm+1 = ∪(x∈A+m) B(x, εm)
5. বিচ্ছিন্নকরণ: Cm+1 এর সর্বাধিক εm+1-পূরণ তৈরি করুন Am+1 হিসাবে
1. সর্বাধিক পূরণ কভার হিসাবে (Proposition A.1):
সর্বাধিক ϵ-পূরণ {x1,...,xn} সন্তুষ্ট করে:
পূরণ সম্পত্তি: D(xi,xj)≥ϵ সকল i=j এর জন্য
কভার সম্পত্তি: S⊆⋃i=1nB(xi,ϵ)
এটি নিশ্চিত করে যে নির্বাচিত পয়েন্টগুলি সম্পূর্ণ সক্রিয় অঞ্চলকে কার্যকরভাবে প্রতিনিধিত্ব করতে পারে।
2. QMC একীকরণ (Lemma 3.4):
সীমাবদ্ধ শব্দ: y∈[0,1] হলে, O~(1/ϵ) প্রশ্ন নিশ্চিত করে ∣y^−E[y]∣≤ϵ
সীমাবদ্ধ বৈচিত্র্য: Var(y)≤σ2 হলে, O~(σ/ϵ) প্রশ্ন প্রয়োজন
3. পরিষ্কার ইভেন্ট (Clean Event):
সকল পর্যায় m এবং বাহু x∈Am এর জন্য ∣μ^m(x)−μ(x)∣≤ϵm সন্তুষ্ট করে এমন ইভেন্ট হিসাবে সংজ্ঞায়িত, ইউনিয়ন বাউন্ড দ্বারা কমপক্ষে 1−δ সম্ভাবনায় প্রমাণিত।
Q-Zooming ক্লাসিক্যাল জুমিং অ্যালগরিদম প্রসারিত করে, পর্যায়ক্রমিক ডিজাইন এবং স্ব-অভিযোজনশীল বিচ্ছিন্নকরণ গ্রহণ করে:
আরম্ভীকরণ:
সক্রিয় বাহু সেট S←∅
আস্থা ব্যাসার্ধ ϵ0(x)=1 সকল x এর জন্য
পর্যায় s প্রবাহ:
1. সক্রিয়করণ নিয়ম: যদি অকভার করা বাহু y বিদ্যমান থাকে (∀x∈S, D(x,y) > εs-1(x)),
তবে y কে S এ যোগ করুন
2. নির্বাচন নিয়ম: xs = argmaxx∈S [μ̂s-1(x) + 2εs-1(x)]
3. আস্থা ব্যাসার্ধ আপডেট: εs(xs) = εs-1(xs)/2, অন্যান্য বাহু অপরিবর্তিত থাকে
4. নমুনা বরাদ্দ: Ns = C1/εs(xs) * log(m/δ)
5. QMC অনুমান: Ns রাউন্ড সম্পাদন করুন, μ̂s(xs) আপডেট করুন
ক্লাসিক্যাল প্রতিটি রাউন্ডে একক নমুনার বিপরীতে, Q-Zooming প্রতিটি পর্যায়ে নির্বাচিত বাহুতে একাধিক কোয়ান্টাম প্রশ্ন সম্পাদন করে
মোট প্রশ্ন সংখ্যা: Mx(T)≤2Ns(x)=O(2k(x)+1logm), যেখানে k(x) হল বাহু x নির্বাচিত হওয়ার সংখ্যা
2. স্ব-অভিযোজনশীল আস্থা ব্যাসার্ধ:
শুধুমাত্র যখন বাহু নির্বাচিত হয় তখন আস্থা ব্যাসার্ধ অর্ধেক হয়: ϵs(x)=ϵs−1(x)/2 যদি x=xs
পরবর্তী পর্যায়ে শুধুমাত্র নিকট-সর্বোত্তম বাহু নির্বাচিত হয় নিশ্চিত করুন (Lemma B.3): Δx≤3ϵs−1(x)
3. কভার সম্পত্তি গ্যারান্টি:
সক্রিয়করণ নিয়ম নিশ্চিত করে সর্বোত্তম বাহু x∗ সর্বদা কিছু সক্রিয় বাহুর আস্থা বলের দ্বারা কভার করা হয়, প্রাথমিক বর্জন এড়ান।
ক্লাসিক্যাল: প্রতিটি রাউন্ডে একক নমুনা, ϵ নির্ভুলতা অর্জনে O(1/ϵ2) নমুনা প্রয়োজন
কোয়ান্টাম: সুপারপজিশন অবস্থা এবং কোয়ান্টাম পরিমাপ ব্যবহার করে, শুধুমাত্র O(1/ϵ) প্রশ্ন প্রয়োজন
3. ডিজাইনের যুক্তিসঙ্গততা:
Q-LAE: নির্মূলন কৌশল দ্রুত নিম্ন পুরস্কার অঞ্চল ছাঁটাই করে, পুরস্কার ফাংশনে স্পষ্ট সাব-অপ্টিমাল অঞ্চল থাকা দৃশ্যকল্পের জন্য উপযুক্ত
Q-Zooming: বাহু নির্মূল করে না, স্ব-অভিযোজনশীল পরিমার্জনের মাধ্যমে ফোকাস করে, তাত্ত্বিক সীমানা আরও ভাল কিন্তু স্কেলিং মাত্রার অন্তর্নিহিত কাঠামোর উপর নির্ভর করে
4. স্কেলিং মাত্রার কঠোরতা:
Q-LAE Xr={x:r≤Δx<2r} সংজ্ঞা ব্যবহার করে, Yr={x:Δx≤2r} এর তুলনায় আরও সূক্ষ্ম, মাত্রা প্রসারণ এড়ায় (Remark 4.1)।
পরীক্ষামূলক পর্যবেক্ষণ: সংগৃহীত অনুশোচনা বক্ররেখার ঢাল সময়ের সাথে হ্রাস পায়, সাব-রৈখিক বৃদ্ধির সাথে সামঞ্জস্যপূর্ণ
কোয়ান্টাম ত্বরণ যাচাইকরণ:
ক্লাসিক্যাল T(dz+1)/(dz+2) এর তুলনায়, পরীক্ষায় কোয়ান্টাম অ্যালগরিদমের অনুশোচনা বৃদ্ধি উল্লেখযোগ্যভাবে ধীর, তাত্ত্বিক উন্নতি সরাসরি যাচাই করে।
এই পেপারটি কোয়ান্টাম অনলাইন শিক্ষা ক্ষেত্রে একটি গুরুত্বপূর্ণ অগ্রগতি, ক্রমাগত বাহু স্থান এবং অ-রৈখিক পুরস্কার ফাংশন সহ লিপশিৎজ ব্যান্ডিট সমস্যায় কোয়ান্টাম কম্পিউটিংয়ের সুবিধা প্রথমবার প্রবর্তন করে। চতুর পর্যায়ক্রমিক ডিজাইন এবং কোয়ান্টাম মন্টে কার্লো পদ্ধতির মাধ্যমে, দুটি প্রস্তাবিত অ্যালগরিদম (Q-LAE এবং Q-Zooming) তাত্ত্বিকভাবে O~(T(dz+1)/(dz+2)) থেকে O~(Tdz/(dz+1)) এ উল্লেখযোগ্য উন্নতি অর্জন করে এবং পর্যাপ্ত পরীক্ষামূলক যাচাইকরণের মাধ্যমে প্রকৃত কর্মক্ষমতা যাচাই করে।
মূল মূল্য হল: (1) কোয়ান্টাম ত্বরণ ক্লাসিক্যাল তাত্ত্বিক সীমানা অতিক্রম করতে পারে প্রমাণ করুন; (2) QMC কে জটিল সিদ্ধান্ত সমস্যার সাথে একত্রিত করার পদ্ধতিগত কাঠামো প্রদান করুন; (3) ভবিষ্যত কোয়ান্টাম শক্তিশালী শিক্ষা এবং কোয়ান্টাম অপ্টিমাইজেশন গবেষণার ভিত্তি স্থাপন করুন।
প্রধান সীমাবদ্ধতা হল তাত্ত্বিক নিম্ন সীমানা অনুপস্থিত এবং প্রকৃত কোয়ান্টাম হার্ডওয়্যার সীমাবদ্ধতার বিবেচনা, কিন্তু এই দিকের প্রথম কাজ হিসাবে, ইতিমধ্যে উৎকৃষ্ট একাডেমিক মূল্য এবং ভবিষ্যত সম্ভাবনা প্রদর্শন করেছে। কোয়ান্টাম কম্পিউটিং হার্ডওয়্যারের অগ্রগতির সাথে, এই পেপারে প্রস্তাবিত অ্যালগরিদম বাস্তব কোয়ান্টাম প্রয়োগে গুরুত্বপূর্ণ ভূমিকা পালন করার সম্ভাবনা রয়েছে।