This paper establishes central limit theorems for Polyak-Ruppert averaged Q-learning under asynchronous updates. We prove a non-asymptotic central limit theorem, where the convergence rate in Wasserstein distance explicitly reflects the dependence on the number of iterations, state-action space size, the discount factor, and the quality of exploration. In addition, we derive a functional central limit theorem, showing that the partial-sum process converges weakly to a Brownian motion.
- ID статьи: 2509.18964
- Название: Central Limit Theorems for Asynchronous Averaged Q-Learning
- Автор: Xingtu Liu (Simon Fraser University)
- Классификация: cs.LG math.OC stat.ML
- Конференция: OPT2025: 17th Annual Workshop on Optimization for Machine Learning
- Ссылка на статью: https://arxiv.org/abs/2509.18964
В данной работе устанавливаются центральные предельные теоремы для усредненного Q-обучения Поляка-Рупперта при асинхронных обновлениях. Авторы доказывают неасимптотическую центральную предельную теорему, скорость сходимости которой в расстоянии Вассерштейна явно отражает зависимость от количества итераций, размера пространства состояний-действий, коэффициента дисконтирования и качества исследования. Кроме того, выводится функциональная центральная предельная теорема, показывающая слабую сходимость частичных сумм процессов к броуновскому движению.
- Значимость Q-обучения: Q-обучение является одним из наиболее широко используемых алгоритмов в обучении с подкреплением, непосредственно обучаясь оптимальной функции стоимости действия из эмпирических траекторий. Алгоритм достиг значительных успехов в играх Atari, го, робототехнике и выравнивании больших языковых моделей.
- Вызовы теоретического анализа:
- Q-обучение можно интерпретировать как частный случай стохастической аппроксимации (SA), однако асинхронное Q-обучение представляет собой нелинейную задачу SA с марковским шумом
- По сравнению с линейной SA и обучением временным разностям (TD), анализ Q-обучения более сложен из-за его нелинейности, негладких операторов и нестационарных процессов
- Асинхронные обновления дополнительно вводят марковский шум, увеличивая сложность анализа
- Ограничения существующих работ:
- Предыдущие работы устанавливали функциональную ЦПТ для синхронного Q-обучения, но синхронное Q-обучение рассматривает только мартингальный шум
- Zhang и Xie (2024) установили функциональную ЦПТ для асинхронного Q-обучения с постоянным размером шага, однако постоянный размер шага не удовлетворяет необходимым условиям для установления неасимптотической ЦПТ
- На данный момент не существует неасимптотической ЦПТ для Q-обучения, даже в синхронном случае
Установление центральных предельных теорем имеет решающее значение для понимания статистических свойств алгоритма. Такая асимптотическая нормальность имеет важное значение для количественной оценки неопределенности и статистического вывода в обучении с подкреплением.
- Первая неасимптотическая ЦПТ для Q-обучения: Доказана неасимптотическая центральная предельная теорема для асинхронного усредненного Q-обучения со скоростью сходимости O~((∣S∣∣A∣)1/2K−1/6ρ−2(1−γ)−3)
- Функциональная центральная предельная теорема: Установлена функциональная ЦПТ для асинхронного Q-обучения с убывающим размером шага, показывающая слабую сходимость частичных сумм процессов к броуновскому движению
- Явные зависимости: Скорость сходимости явно отражает зависимость от количества итераций K, размера пространства состояний-действий |S||A|, коэффициента дисконтирования γ и качества исследования ρ
- Технические инновации: Преодолены аналитические вызовы, вызванные нелинейностью, марковским шумом и негладкими операторами
Рассматривается бесконечный горизонт дисконтированного марковского процесса принятия решений (MDP) M=⟨S,A,P,r,γ⟩, где:
- S: множество состояний
- A: множество действий
- P:S×A→ΔS: функция переходных вероятностей
- γ∈[0,1): коэффициент дисконтирования
Целью является обучение оптимальной Q-функции Q∗=maxπQπ.
Асинхронное Q-обучение поддерживает оценку Q-функции Qk с правилом обновления:
Qk+1=Qk+αk(Fk−Qk)
где:
- Fk=F(Qk,yk), yk=(sk,ak,sk+1)
- [F(Qk,sk,ak,sk+1)](s,a)=1{(sk,ak)=(s,a)}Γ(Qk,sk,ak,sk+1)+Qk(s,a)
- Γ(Qk,sk,ak,sk+1)=rk(sk,ak)+γmaxaQk(sk+1,a)−Qk(sk,ak)
Предположение 1: Существует оптимальная политика π∗ такая, что для Q∈R∣S∣×∣A∣:
∥(Pπ−Pπ∗)(Q−Q∗)∥∞≤L∥Q−Q∗∥2∞
Предположение 2: {yk}k≥0 является неприводимой и апериодической конечной цепью Маркова.
Выбирается полиномиальный размер шага αk=α(k+b)−β, где α,b>0, β∈(0.5,1).
Причины такого выбора:
- Удовлетворяет ключевым условиям схемы усреднения Поляка-Юдицкого
- Постоянный размер шага нарушает условия (i) и (iii), линейный размер шага нарушает условие (ii)
- Полиномиальный размер шага удовлетворяет всем необходимым условиям
Теорема 4: При предположениях 1 и 2 имеет место:
W1(K−1/2∑k=1KΔk,N~)≤ρ(1−γ)2K1/2(∣S∣∣A∣)1/2⋅O~((ρ(1−γ))1−ββ−2+Kβ/2ρ−1(1−γ)−1+K1−β+K21−βρ−1−β(1−γ)−β)
где Δk=Qk−Q∗, N~=(A−1ΣA−⊤)1/2N(0,I).
Следствие 5: При β=2/3 скорость сходимости упрощается до:
W1(K−1/2∑k=1KΔk,(A−1ΣA−⊤)1/2N(0,I))≤O~(K1/6ρ2(1−γ)3(∣S∣∣A∣)1/2)
Теорема 6: В условиях теоремы 4 процесс частичных сумм ΦK(ζ)=K−1/2∑k=1⌊ζK⌋Δk слабо сходится в D[0,1] к (A−1ΣA−⊤)1/2B(⋅), где B(⋅) — стандартное броуновское движение.
- Нелинейность: Q-обучение является нелинейной SA, более сложной, чем линейная SA
- Марковский шум: Асинхронные обновления вводят неидентично распределенный марковский шум
- Негладкие операторы: Эмпирический оператор Беллмана в асинхронном Q-обучении негладкий
- Техника верхних и нижних границ: Введение верхней последовательности Δk↑ и нижней последовательности Δk↓, применение теоремы о сжатии
- Разложение членов: Разложение ∑k=1KΔk на 6 членов:
- Член (1): Ошибка инициализации
- Член (2): Нелинейная ошибка
- Член (3): Марковский шум
- Члены (4-5): Поправки высшего порядка
- Член (6): Мартингальные разности
- Техника уравнения Пуассона: Преобразование марковского шума в мартингальные разности
- Мартингальная центральная предельная теорема: Применение неасимптотической мартингальной ЦПТ Srikant (2024)
- Polyak, B. T. и Juditsky, A. B. (1992): Классическая техника ускорения и усреднения для снижения дисперсии
- Anastasiou и др. (2019): Неасимптотическая ЦПТ для усредненного SGD Поляка-Рупперта
- Mou и др. (2020): Неасимптотическая ЦПТ для линейной SA
- Xie и Zhang (2022), Li и др. (2023): Функциональная ЦПТ для синхронного Q-обучения
- Zhang и Xie (2024): Функциональная ЦПТ для асинхронного Q-обучения с постоянным размером шага
- Srikant (2024), Samsonov и др. (2024): Неасимптотическая ЦПТ для обучения TD
- Установлена первая неасимптотическая ЦПТ для Q-обучения со скоростью сходимости, явно зависящей от параметров задачи
- Доказана слабая сходимость процесса частичных сумм асинхронного Q-обучения
- Обеспечена теоретическая основа для количественной оценки неопределенности в обучении с подкреплением
- Требуются сильные предположения Липшица (Предположение 1)
- Рассматривается только конечное пространство состояний-действий
- Скорость сходимости может быть неоптимальной
- Улучшение скорости сходимости
- Расширение на другие метрики помимо 1-расстояния Вассерштейна
- Рассмотрение случаев функциональной аппроксимации
- Значительный теоретический вклад: Впервые установлена неасимптотическая ЦПТ для Q-обучения, заполняя важный теоретический пробел
- Технические инновации: Умелое сочетание техники верхних и нижних границ, уравнения Пуассона и мартингальной ЦПТ для решения технических проблем
- Полнота результатов: Одновременное предоставление неасимптотической и функциональной ЦПТ
- Явные зависимости: Скорость сходимости явно отражает влияние каждого параметра
- Сильные предположения: Предположение Липшица может быть сложным для проверки на практике
- Скорость сходимости: Скорость сходимости K−1/6 относительно медленная
- Конечные состояния: Не рассматриваются непрерывные пространства состояний или функциональная аппроксимация
- Теоретическая ценность: Предоставляет новые инструменты и перспективы для теоретического анализа Q-обучения
- Практическое значение: Закладывает теоретическую основу для количественной оценки неопределенности в алгоритмах обучения с подкреплением
- Методология: Техники доказательства могут быть обобщены на другие нелинейные задачи SA
- Теоретический анализ табличных задач обучения с подкреплением
- Исследование сходимости алгоритмов с асинхронными обновлениями
- Статистический вывод и построение доверительных интервалов в обучении с подкреплением
- Polyak, B. T. and Juditsky, A. B. (1992). Acceleration of stochastic approximation by averaging.
- Xie, C. and Zhang, Z. (2022). A statistical online inference approach in averaged stochastic approximation.
- Zhang, Y. and Xie, Q. (2024). Constant stepsize q-learning: Distributional convergence, bias and extrapolation.