The Lipschitz bandit is a key variant of stochastic bandit problems where the expected reward function satisfies a Lipschitz condition with respect to an arm metric space. With its wide-ranging practical applications, various Lipschitz bandit algorithms have been developed, achieving the cumulative regret lower bound of order $\tilde O(T^{(d_z+1)/(d_z+2)})$ over time horizon $T$. Motivated by recent advancements in quantum computing and the demonstrated success of quantum Monte Carlo in simpler bandit settings, we introduce the first quantum Lipschitz bandit algorithms to address the challenges of continuous action spaces and non-linear reward functions. Specifically, we first leverage the elimination-based framework to propose an efficient quantum Lipschitz bandit algorithm named Q-LAE. Next, we present novel modifications to the classical Zooming algorithm, which results in a simple quantum Lipschitz bandit method, Q-Zooming. Both algorithms exploit the computational power of quantum methods to achieve an improved regret bound of $\tilde O(T^{d_z/(d_z+1)})$. Comprehensive experiments further validate our improved theoretical findings, demonstrating superior empirical performance compared to existing Lipschitz bandit methods.
Липшицевы многорукие бандиты представляют собой ключевой вариант задачи стохастических бандитов, где функция ожидаемого вознаграждения удовлетворяет условию Липшица на метрическом пространстве рук. Несмотря на то, что классические алгоритмы достигли оптимальной границы кумулятивного сожаления O~(T(dz+1)/(dz+2)), в данной работе впервые применяется квантовое вычисление к задаче липшицевых бандитов. Предложены два квантовых алгоритма — Q-LAE и Q-Zooming, которые используют методы квантового метода Монте-Карло для улучшения границы сожаления до O~(Tdz/(dz+1)), где dz — размерность масштабирования. Экспериментальная проверка подтверждает теоретические улучшения и демонстрирует превосходную производительность по сравнению с существующими методами.
В данной работе рассматривается задача липшицевых бандитов — задача последовательного принятия решений с непрерывным бесконечным пространством рук, где функция ожидаемого вознаграждения удовлетворяет условию липшицевой непрерывности: ∣μ(x1)−μ(x2)∣≤D(x1,x2).
Широкое применение: системы онлайн-рекомендаций, оптимизация гиперпараметров, клинические испытания, стратегии ценообразования и другие практические сценарии
Теоретическая ценность: связь между дискретными многорукими бандитами и задачами непрерывной оптимизации
Технические вызовы: непрерывное пространство действий, нелинейные функции вознаграждения, неизвестная структура метрики
Узкое место классических алгоритмов: после обширных исследований оптимальная граница сожаления для классических липшицевых бандитов составляет O~(T(dz+1)/(dz+2)), что достигает теоретического нижнего предела
Пробел в квантовых методах: хотя квантовое вычисление успешно применялось к многоруким бандитам, ядерным бандитам и другим простым постановкам, квантизация липшицевых бандитов остается неисследованной
Сложность прямого расширения: непрерывное бесконечное пространство рук и нелинейные функции вознаграждения затрудняют прямое применение существующих квантовых алгоритмов
Использование преимущества квадратичного ускорения методов квантового метода Монте-Карло (QMC) при оценке математического ожидания (от O~(1/ϵ2) к O~(1/ϵ)) для преодоления теоретических границ классических алгоритмов и достижения улучшенной производительности сожаления.
Первый квантовый алгоритм липшицевых бандитов: предложен алгоритм Q-LAE (Quantum Lipschitz Adaptive Elimination), основанный на структуре исключения, применимый к общим метрическим пространствам, достигающий границы сожаления O~(Tdz/(dz+1))
Квантовый алгоритм Zooming: предложен алгоритм Q-Zooming, представляющий нетривиальную квантизацию классического алгоритма Zooming с фазовым дизайном, эффективно использующий квантовый оракул, также достигающий границы сожаления O~(Tdz/(dz+1))
Теоретическое улучшение: доказано значительное улучшение по сравнению с классической оптимальной границей O~(T(dz+1)/(dz+2)) при двух предположениях о шуме: ограниченном шуме и ограниченной дисперсии
Строгое определение размерности масштабирования: Q-LAE является первым алгоритмом исключения липшицевых бандитов, использующим классическое определение размерности масштабирования, избегая ослабленных границ существующих методов
Экспериментальная проверка: проверена превосходная производительность квантовых алгоритмов на трех типах липшицевых функций и двух моделях шума
X: непрерывное компактное пространство рук (метрическое пространство)
D: метрика на X, удовлетворяющая diam(X)≤1
Квантовый оракул Ox: кодирует распределение вознаграждения Px для руки x
Ограничения: функция ожидаемого вознаграждения μ:X→R удовлетворяет условию 1-Липшица
Цель: минимизировать кумулятивное сожаление за T раундов R(T)=∑t=1T(μ∗−μ(xt))
Ключевые концепции:
Размерность масштабирования dz: характеризует сложность множества почти оптимальных рук Xr={x:r≤Δx<2r}, определяется как минимальное d, удовлетворяющее Nz(r)≤αr−d
Квантовая постановка: после выбора руки x в каждом раунде обращаемся к квантовому оракулу Ox:∣0⟩→∑ω∈ΩxPx(ω)∣ω⟩∣yx(ω)⟩
Это гарантирует, что выбранные точки эффективно представляют всю активную область.
2. Интеграция QMC (Lemma 3.4):
Ограниченный шум: когда y∈[0,1], O~(1/ϵ) запросов гарантируют ∣y^−E[y]∣≤ϵ
Ограниченная дисперсия: когда Var(y)≤σ2, требуется O~(σ/ϵ) запросов
3. Чистое событие (Clean Event):
Определяется как событие, при котором для всех фаз m и рук x∈Am выполняется ∣μ^m(x)−μ(x)∣≤ϵm. Доказано, что оно имеет место с вероятностью не менее 1−δ с помощью объединения границ.
Q-Zooming расширяет классический алгоритм Zooming с фазовым дизайном и адаптивной дискретизацией:
Инициализация:
Множество активных рук S←∅
Радиус доверия ϵ0(x)=1 для всех x
Процесс фазы s:
1. Правило активации: если существует непокрытая рука y
(∀x∈S, D(x,y) > εs-1(x)), добавить y в S
2. Правило выбора: xs = argmaxx∈S [μ̂s-1(x) + 2εs-1(x)]
3. Обновление радиуса доверия: εs(xs) = εs-1(xs)/2,
другие руки остаются неизменными
4. Распределение выборок: Ns = C1/εs(xs) * log(m/δ)
5. QMC оценка: выполнить Ns раундов, обновить μ̂s(xs)
В отличие от классического однократного отбора на раунд, Q-Zooming выполняет несколько квантовых запросов к выбранной руке на каждой фазе
Общее количество запросов: Mx(T)≤2Ns(x)=O(2k(x)+1logm), где k(x) — количество раз, когда рука x была выбрана
2. Адаптивный радиус доверия:
Радиус доверия уменьшается вдвое только при выборе руки: ϵs(x)=ϵs−1(x)/2 если x=xs
Гарантирует, что на поздних этапах выбираются только почти оптимальные руки (Lemma B.3): Δx≤3ϵs−1(x)
3. Гарантия покрытия:
Правило активации гарантирует, что оптимальная рука x∗ всегда покрывается шаром доверия некоторой активной руки, избегая преждевременного исключения.
2. Существенные различия с классическими методами:
Классический подход: однократная выборка на раунд, требуется O(1/ϵ2) выборок для достижения точности ϵ
Квантовый подход: использование суперпозиции и квантовых измерений требует только O(1/ϵ) запросов
3. Обоснованность дизайна:
Q-LAE: стратегия исключения быстро обрезает области низкого вознаграждения, подходит для сценариев, где функция вознаграждения имеет явные субоптимальные области
Q-Zooming: не исключает руки, а сосредоточивается через адаптивное уточнение, лучшая теоретическая граница, но зависит от неявной структуры размерности масштабирования
4. Строгость размерности масштабирования:
Q-LAE использует определение Xr={x:r≤Δx<2r}, более точное, чем Yr={x:Δx≤2r}, избегая раздувания размерности (Remark 4.1).
Экспериментальное наблюдение: кривая кумулятивного сожаления показывает уменьшающийся наклон со временем, соответствуя сублинейному росту
Проверка квантового ускорения:
По сравнению с классическим T(dz+1)/(dz+2), рост сожаления квантовых алгоритмов в экспериментах значительно медленнее, интуитивно подтверждая теоретическое улучшение.
Эмпирическое доказательство квантового преимущества: впервые экспериментально проверено практическое влияние квантового ускорения в сценарии липшицевых бандитов
Взаимодополняемость алгоритмов: Q-LAE и Q-Zooming имеют свои преимущества, выбор может зависеть от характеристик задачи
Масштабируемость: успех в двумерном пространстве указывает на возможность обобщения на более высокие размерности
Теоретический вклад: предложены первые квантовые алгоритмы липшицевых бандитов, улучшившие границу сожаления с O~(T(dz+1)/(dz+2)) до O~(Tdz/(dz+1))
Методологические вклады:
Q-LAE: первый алгоритм исключения, использующий классическое определение размерности масштабирования
Q-Zooming: нетривиальное квантовое расширение с фазовым дизайном, адаптированным к квантовым характеристикам
Экспериментальная проверка: подтверждено квантовое преимущество на различных функциях и моделях шума
Пионерская работа: открывает новое направление квантовых липшицевых бандитов
Теоретический прогресс: предоставляет новые методы анализа квантового онлайн-обучения (например, применение метода чистого события в непрерывном пространстве)
Вдохновение для будущих работ: может стимулировать исследования в области квантовых контекстуальных бандитов, квантового обучения с подкреплением и т.д.
2. Практическая ценность (⭐⭐⭐):
Текущие ограничения: зависит от крупномасштабных отказоустойчивых квантовых компьютеров, краткосрочное практическое развертывание затруднено
Будущий потенциал: при созревании квантового оборудования может применяться к оптимизации молекулярной конструкции в квантовой химии, оптимизации материалов и т.д.
Идеи алгоритмов: фазовый дизайн и адаптивная стратегия исключения имеют значение для классических алгоритмов
3. Воспроизводимость (⭐⭐⭐⭐):
Теоретическая проверяемость: подробные доказательства, математические выводы можно отследить
Экспериментальная воспроизводимость: использование открытого Qiskit, явные гиперпараметры
Отсутствие кода: ссылка на GitHub не предоставлена, требуется самостоятельная реализация
Данная работа представляет собой важный прорыв в области квантового онлайн-обучения, впервые успешно применив квантовые вычисления к задаче липшицевых бандитов с непрерывным пространством рук и нелинейными функциями вознаграждения. Благодаря умелому фазовому дизайну и методам квантового метода Монте-Карло, два предложенных алгоритма (Q-LAE и Q-Zooming) достигают теоретического улучшения от O~(T(dz+1)/(dz+2)) к O~(Tdz/(dz+1)), подтвержденного достаточными экспериментами.
Основная ценность заключается в: (1) доказательстве того, что квантовое ускорение может преодолеть классические теоретические границы; (2) предоставлении методологической базы для сочетания QMC со сложными задачами принятия решений; (3) создании основы для будущих исследований в области квантового обучения с подкреплением и квантовой оптимизации.
Основные ограничения — отсутствие теоретических нижних границ и недостаточное рассмотрение ограничений реального квантового оборудования, но как первая работа в этом направлении, она демонстрирует выдающуюся академическую ценность и будущий потенциал. С развитием квантового оборудования предложенные в этой работе алгоритмы могут сыграть важную роль в практических квантовых приложениях.