We develop an extension of posterior sampling for reinforcement learning (PSRL) that is suited for a continuing agent-environment interface and integrates naturally into agent designs that scale to complex environments. The approach, continuing PSRL, maintains a statistically plausible model of the environment and follows a policy that maximizes expected $γ$-discounted return in that model. At each time, with probability $1-γ$, the model is replaced by a sample from the posterior distribution over environments. For a choice of discount factor that suitably depends on the horizon $T$, we establish an $\tilde{O}(ÏS \sqrt{A T})$ bound on the Bayesian regret, where $S$ is the number of environment states, $A$ is the number of actions, and $Ï$ denotes the reward averaging time, which is a bound on the duration required to accurately estimate the average reward of any policy. Our work is the first to formalize and rigorously analyze the resampling approach with randomized exploration.
В данной работе предлагается алгоритм апостериорной выборки для обучения с подкреплением в непрерывных средах (Continuing PSRL), который естественным образом интегрируется в масштабируемые конструкции агентов. Алгоритм поддерживает статистически обоснованную модель окружающей среды и следует политике, максимизирующей γ-дисконтированное вознаграждение в этой модели. На каждом временном шаге алгоритм с вероятностью 1-γ переизбирает модель из апостериорного распределения окружающей среды. Путём надлежащего выбора дисконтного коэффициента, зависящего от временного горизонта T, устанавливается байесовская граница сожаления Õ(τS√AT), где S — количество состояний окружающей среды, A — количество действий, τ — среднее время вознаграждения.
Существующие алгоритмы апостериорной выборки для обучения с подкреплением в основном разработаны для эпизодических сред и зависят от поддержания счётчиков посещений состояний и действий, что делает их неприменимыми к сложным непрерывным средам с высокомерными пространствами состояний.
Обучение в непрерывных средах является фундаментальной проблемой в обучении с подкреплением, однако существующие методы стохастического исследования в основном ограничены эпизодическими средами
Требования масштабируемости: традиционные методы зависят от счётчиков посещений состояний и действий, что невозможно в сложных средах
Теоретический пробел: отсутствует строгий теоретический анализ для непрерывных сред
TSDE (Ouyang et al., 2017): требует сложных критериев переизбора, включая условия удвоения счётчиков посещений, неприменимо в больших пространствах состояний
DS-PSRL (Theocharous et al., 2018): хотя избегает счётчиков посещений, анализ зависит от сильных технических предположений; без них граница сожаления растёт линейно
Традиционный PSRL: применим только к эпизодическим средам, не может быть прямо расширен на непрерывные настройки
Первый масштабируемый алгоритм PSRL для непрерывных сред: предложен Continuing PSRL, основанный на простой схеме рандомизации, избегающей сложных критериев переизбора
Строгий теоретический анализ: установлена байесовская граница сожаления Õ(τS√AT), соответствующая лучшим существующим результатам
Прорыв в масштабируемости: алгоритм естественно расширяется на высокомерные пространства состояний и настройки функциональной аппроксимации
Новая перспектива дисконтного коэффициента: дисконтный коэффициент рассматривается как инструмент проектирования алгоритма, а не как свойство окружающей среды, предоставляя новую перспективу понимания роли дисконтного коэффициента
Вход: априорное распределение f, дисконтный коэффициент γ, общее время обучения T
1. Инициализация t=1, k=1, X₁=0
2. для t ≤ T:
3. если Xₜ = 0:
4. tₖ ← t
5. выборка Eₖ ~ f(·|H_tₖ)
6. вычисление πₖ = π^γ_Eₖ
7. k ← k+1
8. выборка и выполнение Aₜ ~ πₖ(·|Sₜ)
9. наблюдение Rₜ₊₁ и Sₜ₊₁
10. t ← t+1
11. выборка Xₜ₊₁ ~ Bernoulli(γ)
Эффективность простого переизбора: несмотря на простоту механизма переизбора, производительность сравнима со сложными методами
Преимущества масштабируемости: в высокомерных пространствах состояний традиционные методы, зависящие от счётчиков посещений, становятся неэффективными, тогда как предложенный метод остаётся эффективным
Согласованность теории и практики: экспериментальные результаты подтверждают корректность теоретического анализа
Теоретический вклад: установлена граница сожаления Õ(τS√AT), соответствующая лучшим существующим результатам
Простота алгоритма: для реализации эффективного исследования требуется только генератор случайных чисел Бернулли
Практическая ценность: алгоритм может быть прямо интегрирован в существующие методы глубокого обучения с подкреплением
Новая перспектива дисконтного коэффициента: дисконтный коэффициент рассматривается как инструмент проектирования алгоритма, а не как свойство окружающей среды
Недостаточная глубина экспериментов: эксперименты проводились в основном в простых средах, отсутствует проверка в крупных сложных средах
Чувствительность к параметрам: выбор дисконтного коэффициента γ зависит от параметров задачи, может требовать тщательной настройки при практическом применении
Неполное сравнение: отсутствует сравнение с некоторыми связанными методами исследования (например, методами типа UCB)
Отсутствие практических примеров применения: в основном теория и простые симуляции, отсутствует проверка в реальных сценариях применения
Статья ссылается на важные работы в области обучения с подкреплением, включая:
Классические работы по выборке Томпсона (Thompson, 1933)
Основополагающие работы по PSRL (Osband et al., 2013)
Связанные исследования в непрерывных средах (Ouyang et al., 2017; Theocharous et al., 2018)
Важные достижения в глубоком обучении с подкреплением (Mnih et al., 2015)
Общая оценка: Это высококачественная теоретическая работа в области обучения с подкреплением, вносящая важный вклад в методы апостериорной выборки для непрерывных сред. Проектирование алгоритма просто и элегантно, теоретический анализ строг и полон, предоставляя новую перспективу для данной области. Несмотря на возможность улучшения в экспериментальной проверке, её теоретическая ценность и практический потенциал весьма значительны.