Towards Blackwell Optimality: Bellman Optimality Is All You Can Get
Boone, Tuynman
Although average gain optimality is a commonly adopted performance measure in Markov Decision Processes (MDPs), it is often too asymptotic. Further incorporating measures of immediate losses leads to the hierarchy of bias optimalities, all the way up to Blackwell optimality. In this paper, we investigate the problem of identifying policies of such optimality orders. To that end, for each order, we construct a learning algorithm with vanishing probability of error. Furthermore, we characterize the class of MDPs for which identification algorithms can stop in finite time. That class corresponds to the MDPs with a unique Bellman optimal policy, and does not depend on the optimality order considered. Lastly, we provide a tractable stopping rule that when coupled to our learning algorithm triggers in finite time whenever it is possible to do so.
academic
К оптимальности Блэквелла: оптимальность Беллмана — это всё, что вы можете получить
Хотя оптимальность среднего выигрыша является обычной мерой производительности в марковских процессах принятия решений (МДП), она часто бывает чрезмерно асимптотической. Дальнейшее объединение мер мгновенных потерь привело к иерархии оптимальности смещения вплоть до оптимальности Блэквелла. В данной статье исследуется проблема идентификации политик такого порядка оптимальности. Для каждого порядка мы строим алгоритм обучения с исчезающей вероятностью ошибки. Кроме того, мы характеризуем класс МДП, для которых алгоритм идентификации может остановиться за конечное время. Этот класс соответствует МДП с уникальной оптимальной политикой Беллмана и не зависит от рассматриваемого порядка оптимальности. Наконец, мы предоставляем удобное правило остановки, которое при связывании с нашим алгоритмом обучения срабатывает за конечное время, когда это возможно.
Основная проблема, исследуемая в данной работе, — это проблема идентифицируемости обучения политикам высшего порядка оптимальности в марковских процессах принятия решений. В частности:
Ограничения традиционной оптимальности среднего выигрыша: В МДП традиционная оптимальность среднего выигрыша сосредоточена только на долгосрочной асимптотической производительности, игнорируя важность краткосрочных мгновенных вознаграждений.
Иерархия оптимальности высшего порядка: От оптимальности выигрыша к оптимальности смещения и далее к оптимальности Блэквелла образуется полная иерархия оптимальности, где каждый уровень учитывает более тонкие различия в производительности.
Проблема обучения: Статья демонстрирует через простой, но глубокий пример (Рисунок 1), что обучение политикам высшего порядка оптимальности сталкивается с фундаментальными трудностями даже в самых простых случаях.
Основная мотивация статьи исходит из важного наблюдения: даже в простых МДП с единственным неизвестным параметром обучение политикам высшего порядка оптимальности может быть невозможным. Это кажущееся парадоксальным явление раскрывает сущностные трудности обучения оптимальности высшего порядка.
Построение согласованного алгоритма HOPE: Для каждого порядка оптимальности n≥-1 предложен алгоритм Higher Order Policy iteration Epsilonized (HOPE) с исчезающей вероятностью ошибки.
Полная характеризация класса невырожденных МДП: Доказано, что МДП является невырожденным (т.е. алгоритм идентификации может остановиться за конечное время) тогда и только тогда, когда он имеет уникальную оптимальную политику Беллмана.
Теорема о коллапсе вырожденности: Доказано, что класс невырожденных МДП для всех порядков оптимальности (от оптимальности выигрыша до оптимальности Блэквелла) полностью совпадает — это удивительный результат.
Предоставление вычислимого правила остановки: Дано удобное правило остановки, которое позволяет алгоритму HOPE остановиться за конечное время, когда это возможно.
Вход: Неизвестный коммуникативный МДП M = (Z, ν, p), где Z — пространство пар состояние-действие, ν — функция вознаграждения, p — ядро переходов
Выход: Политика n-го порядка оптимальности π ∈ Π*_n(M)
Цель: Построить алгоритм идентификации таким образом, чтобы вероятность ошибки рекомендуемой политики стремилась к 0
Вход: Желаемый порядок оптимальности n ≥ -1
Инициализация: t ← 0
Цикл:
1. Построить эмпирический МДП M̂_t
2. Установить ε ← t^(-1/4)
3. Вычислить ∏_s A_n(s) ← HOPI_{n,ε}(M̂_t)
4. Рекомендовать любую политику из ∏_s A_n(s)
5. Равномерно выбрать действие, наблюдать вознаграждение и следующее состояние
6. t ← t + 1
Традиционная итерация политики требует точного удовлетворения уравнения Беллмана, но в среде обучения это невозможно. HOPI решает эту проблему путём введения параметра ослабления ε, позволяя алгоритму корректно работать в условиях шума.
Предложение 5: Для любой одноцепочечной оптимальной политики Беллмана π и точности ε > 0 существует M' ∈ M такой, что d_∞(M,M') < ε и π является уникальной оптимальной политикой выигрыша для M'.
Эта техника реализуется в два шага:
Сначала путём штрафования неоптимальных действий π становится уникальной оптимальной политикой Беллмана
Затем путём эргодического преобразования π становится уникальной оптимальной политикой выигрыша
Если M невырожден, то существует политика π ∈ Π*(M), остающаяся оптимальной в окрестности M. Доказательство использует непрерывность решений алгоритма.
Путём построения явного правила остановки и доверительных интервалов доказано, что МДП с уникальной оптимальной политикой Беллмана действительно невырожден.
Статья является в основном теоретической работой, проверяющей все основные результаты через строгие математические доказательства. Ключевые проверки включают:
Корректность алгоритма: Доказательство того, что HOPI в условиях без шума возвращает правильное множество оптимальных политик
Гарантии согласованности: Доказательство того, что вероятность ошибки алгоритма HOPE действительно стремится к 0
Эффективность правила остановки: Доказательство того, что предложенное правило остановки действительно срабатывает за конечное время
Временная сложность: Временная сложность определения уникальности оптимальной политики Беллмана составляет O(|Z| + |S|^4)
Сложность по выборкам: Хотя статья не предоставляет точные границы сложности по выборкам, доказано, что в невырожденном случае алгоритм обязательно сходится
Связано с проблемой идентификации оптимального рычага в многорычажных бандитах, но зависимость от состояния в условиях МДП делает проблему более сложной.
Недавние работы по идентификации оптимальных по выигрышу политик в условиях (ε,δ)-PAC, но эти работы в основном сосредоточены на приблизительной оптимальности, а не на точной оптимальности.
Grand-Clément и Petrik (2023) и другие исследовали вычислительную сложность оптимальных политик Блэквелла на основе исторического определения коэффициента дисконтирования.
Boone и Gaujal (2023) исследовали обучаемость оптимальных политик Блэквелла в МДП с детерминированными переходами; данная работа обобщает результаты на стохастический случай.
Оптимальность Беллмана как фундаментальное ограничение: Обучаемость всех оптимальностей высшего порядка сводится к уникальности оптимальной политики Беллмана
Универсальность вырожденности: Множества вырожденных МДП для различных порядков оптимальности полностью совпадают
Существование алгоритма: Несмотря на трудности, согласованные алгоритмы действительно существуют
Статья цитирует важные работы в области обучения с подкреплением и марковских процессов принятия решений, включая:
Puterman (1994): Классический учебник по марковским процессам принятия решений
Blackwell (1962): Исходное определение оптимальности Блэквелла
Kaufmann et al. (2016): Теория сложности идентификации оптимального рычага
Boone and Gaujal (2023): Обучаемость оптимальности Блэквелла в детерминированных МДП
Данная статья путём строгого теоретического анализа раскрывает фундаментальное и глубокое явление в обучении с подкреплением: сложность обучения оптимальности высшего порядка полностью определяется структурой оптимальности Беллмана. Этот результат имеет не только важное теоретическое значение, но также предоставляет важное руководство для практического проектирования алгоритмов.