The Lipschitz bandit is a key variant of stochastic bandit problems where the expected reward function satisfies a Lipschitz condition with respect to an arm metric space. With its wide-ranging practical applications, various Lipschitz bandit algorithms have been developed, achieving the cumulative regret lower bound of order $\tilde O(T^{(d_z+1)/(d_z+2)})$ over time horizon $T$. Motivated by recent advancements in quantum computing and the demonstrated success of quantum Monte Carlo in simpler bandit settings, we introduce the first quantum Lipschitz bandit algorithms to address the challenges of continuous action spaces and non-linear reward functions. Specifically, we first leverage the elimination-based framework to propose an efficient quantum Lipschitz bandit algorithm named Q-LAE. Next, we present novel modifications to the classical Zooming algorithm, which results in a simple quantum Lipschitz bandit method, Q-Zooming. Both algorithms exploit the computational power of quantum methods to achieve an improved regret bound of $\tilde O(T^{d_z/(d_z+1)})$. Comprehensive experiments further validate our improved theoretical findings, demonstrating superior empirical performance compared to existing Lipschitz bandit methods.
Lipschitz-Banditen sind eine wichtige Variante des stochastischen Bandit-Problems, bei dem die erwartete Belohnungsfunktion eine Lipschitz-Bedingung im Arm-Metrikraum erfüllt. Obwohl klassische Algorithmen eine optimale kumulative Bedauernschranke von O~(T(dz+1)/(dz+2)) erreicht haben, führt diese Arbeit erstmals Quantencomputing in das Lipschitz-Bandit-Problem ein und schlägt zwei Quantenalgorithmen Q-LAE und Q-Zooming vor. Durch Quantenmontecarlo-Methoden wird die Bedauernschranke auf O~(Tdz/(dz+1)) verbessert, wobei dz die Skalierungsdimension ist. Experimente validieren die theoretische Verbesserung und zeigen überlegene Leistung gegenüber bestehenden Methoden.
Diese Arbeit untersucht das Lipschitz-Bandit-Problem, ein sequenzielles Entscheidungsproblem mit kontinuierlichem unendlichem Arm-Raum, wobei die erwartete Belohnungsfunktion die Lipschitz-Kontinuitätsbedingung erfüllt: ∣μ(x1)−μ(x2)∣≤D(x1,x2).
Klassische Algorithmus-Engpässe: Nach umfangreicher Forschung ist die optimale Bedauernschranke klassischer Lipschitz-Bandit-Algorithmen O~(T(dz+1)/(dz+2)), was die theoretische Untergrenze erreicht
Lücke in Quantenmethoden: Obwohl Quantencomputing erfolgreich auf Multi-Arm-Banditen, kernelisierte Banditen und andere einfache Szenarien angewendet wurde, ist die Quantisierung von Lipschitz-Banditen noch nicht erforscht
Schwierigkeit direkter Erweiterung: Der kontinuierliche unendliche Arm-Raum und nichtlineare Belohnungsfunktionen machen eine direkte Anwendung bestehender Quantenalgorithmen unmöglich
Nutzung des quadratischen Beschleunigungsvorteils der Quantenmontecarlo-Methode (QMC) bei der Erwartungsschätzung (von O~(1/ϵ2) auf O~(1/ϵ) reduziert), um die theoretischen Grenzen klassischer Algorithmen zu durchbrechen und überlegene Bedauernleistung zu erreichen.
Erster Quantenalgorithmus für Lipschitz-Banditen: Vorschlag des Q-LAE-Algorithmus (Quantum Lipschitz Adaptive Elimination), basierend auf dem Eliminierungsrahmen, anwendbar auf allgemeine Metrikräume, erreicht Bedauernschranke O~(Tdz/(dz+1))
Quantum-Zooming-Algorithmus: Vorschlag des Q-Zooming-Algorithmus mit nichttrivialer Quantisierung des klassischen Zooming-Algorithmus, phasenweise Gestaltung nutzt effektiv das Quantenorakel, erreicht ebenfalls Bedauernschranke O~(Tdz/(dz+1))
Theoretische Verbesserung: Unter beiden Rausch-Annahmen (beschränktes Rauschen und beschränkte Varianz) wird signifikante Verbesserung gegenüber der klassischen optimalen Schranke O~(T(dz+1)/(dz+2)) nachgewiesen
Strikte Definition der Skalierungsdimension: Q-LAE ist der erste Eliminierungs-Lipschitz-Bandit-Algorithmus, der die klassisch konsistente Skalierungsdimensions-Definition verwendet und lockere Schranken bestehender Methoden vermeidet
Experimentelle Validierung: Validierung der überlegenen Leistung von Quantenalgorithmen unter drei Lipschitz-Funktionen und zwei Rausch-Modellen
Ziel: Minimierung des kumulativen Bedauerns über T Runden R(T)=∑t=1T(μ∗−μ(xt))
Schlüsselkonzepte:
Skalierungsdimension dz: Charakterisiert die Komplexität der Menge der nahezu optimalen Arme Xr={x:r≤Δx<2r}, definiert als minimales d, das Nz(r)≤αr−d erfüllt
Quanteneinstellung: Nach Auswahl des Arms x in jeder Runde wird das Quantenorakel Ox:∣0⟩→∑ω∈ΩxPx(ω)∣ω⟩∣yx(ω)⟩ aufgerufen
Dies garantiert, dass ausgewählte Punkte die gesamte aktive Region effektiv repräsentieren.
2. QMC-Integration (Lemma 3.4):
Beschränktes Rauschen: Wenn y∈[0,1], garantieren O~(1/ϵ) Abfragen ∣y^−E[y]∣≤ϵ
Beschränkte Varianz: Wenn Var(y)≤σ2, sind O~(σ/ϵ) Abfragen erforderlich
3. Sauberes Ereignis (Clean Event):
Definiert als alle Phasen m und Arme x∈Am erfüllen ∣μ^m(x)−μ(x)∣≤ϵm, nachgewiesen durch Union Bound mit mindestens 1−δ Wahrscheinlichkeit.
Im Gegensatz zu klassischen Methoden mit einzelnen Stichproben pro Runde führt Q-Zooming mehrere Quantenabfragen pro Phase für den ausgewählten Arm durch
Gesamtabfragenzahl: Mx(T)≤2Ns(x)=O(2k(x)+1logm), wobei k(x) die Anzahl der Auswahlvorgänge für Arm x ist
2. Adaptiver Konfidenzradius:
Konfidenzradius wird nur halbiert, wenn der Arm ausgewählt wird: ϵs(x)=ϵs−1(x)/2 wenn x=xs
Garantiert späte Auswahl nur nahezu optimaler Arme (Lemma B.3): Δx≤3ϵs−1(x)
3. Überdeckungsgarantie:
Die Aktivierungsregel stellt sicher, dass der optimale Arm x∗ immer von einer Konfidenkugel eines aktiven Arms überdeckt wird, vermeidend frühe Ausschließung.
Erstmalige Einführung des quadratischen Beschleunigungsvorteils von QMC in kontinuierliche Arm-Räume
Phasenweises Design passt sich geschickt an die Batch-Abfrage-Charakteristiken des Quantenorakels an
2. Wesentliche Unterschiede zu klassischen Methoden:
Klassisch: Einzelne Stichprobe pro Runde, benötigt O(1/ϵ2) Stichproben für ϵ-Genauigkeit
Quantencomputing: Nutzt Superposition und Quantenmessung, benötigt nur O(1/ϵ) Abfragen
3. Design-Rationalität:
Q-LAE: Eliminierungsstrategie schneidet schnell niedrig belohnte Regionen ab, geeignet für Szenarien mit deutlich suboptimalen Regionen
Q-Zooming: Eliminiert Arme nicht, konzentriert sich durch adaptive Verfeinerung, theoretisch bessere Schranke aber abhängig von impliziter Struktur der Skalierungsdimension
4. Strenge der Skalierungsdimension:
Q-LAE verwendet die Definition Xr={x:r≤Δx<2r}, feiner als Yr={x:Δx≤2r}, vermeidend Dimensionsaufblähung (Remark 4.1).
Experimentelle Beobachtung: Kumulative Bedauern-Kurven zeigen abnehmende Steigung über die Zeit, konsistent mit sublinearem Wachstum
Quantenbeschleunigung-Validierung:
Relativ zur klassischen T(dz+1)/(dz+2) zeigen Quantenalgorithmen signifikant langsameres Bedauern-Wachstum in Experimenten, validiert direkt die theoretische Verbesserung.
Theoretischer Beitrag: Vorschlag des ersten Quantenalgorithmus für Lipschitz-Banditen, Verbesserung der Bedauernschranke von O~(T(dz+1)/(dz+2)) auf O~(Tdz/(dz+1))
Methodologische Beiträge:
Q-LAE: Erster Eliminierungs-Algorithmus mit klassisch konsistenter Skalierungsdimensions-Definition
Q-Zooming: Nichttriviale Quantisierung mit phasenweisem Design für Quantenorakel-Anpassung
Experimentelle Validierung: Validierung des Quantenvorteil unter verschiedenen Funktionen und Rausch-Modellen
Diese Arbeit ist ein wichtiger Durchbruch im Bereich des Quantenlernens im Online-Modus. Sie führt erstmals erfolgreich Quantencomputing in das komplexe Problem der Lipschitz-Banditen mit kontinuierlichem Arm-Raum und nichtlinearen Belohnungsfunktionen ein. Durch geschicktes phasenweises Design und Quantenmontecarlo-Methoden erreichen die beiden vorgeschlagenen Algorithmen (Q-LAE und Q-Zooming) theoretisch eine signifikante Verbesserung von O~(T(dz+1)/(dz+2)) auf O~(Tdz/(dz+1)) und werden durch umfangreiche Experimente validiert.
Kernwert liegt in: (1) Nachweis, dass Quantenbeschleunigung klassische theoretische Grenzen durchbrechen kann; (2) Bereitstellung eines methodologischen Rahmens zur Kombination von QMC mit komplexen Entscheidungsproblemen; (3) Grundlegung für zukünftige Quantenverstärkungslernen- und Quantenoptimierungsforschung.
Haupteinschränkungen sind fehlende theoretische Untergrenzen und Nichtberücksichtigung praktischer Quantenhardware-Einschränkungen. Aber als erste Arbeit in dieser Richtung zeigt sie bereits außergewöhnlichen akademischen Wert und zukünftiges Potenzial. Mit Fortschritten in der Quantenhardware könnten die in dieser Arbeit vorgeschlagenen Algorithmen wichtige Rollen in praktischen Quantenanwendungen spielen.