2025-11-20T13:28:14.804433

Towards Blackwell Optimality: Bellman Optimality Is All You Can Get

Boone, Tuynman
Although average gain optimality is a commonly adopted performance measure in Markov Decision Processes (MDPs), it is often too asymptotic. Further incorporating measures of immediate losses leads to the hierarchy of bias optimalities, all the way up to Blackwell optimality. In this paper, we investigate the problem of identifying policies of such optimality orders. To that end, for each order, we construct a learning algorithm with vanishing probability of error. Furthermore, we characterize the class of MDPs for which identification algorithms can stop in finite time. That class corresponds to the MDPs with a unique Bellman optimal policy, and does not depend on the optimality order considered. Lastly, we provide a tractable stopping rule that when coupled to our learning algorithm triggers in finite time whenever it is possible to do so.
academic

К оптимальности Блэквелла: оптимальность Беллмана — это всё, что вы можете получить

Основная информация

  • ID статьи: 2510.13476
  • Название: Towards Blackwell Optimality: Bellman Optimality Is All You Can Get
  • Авторы: Victor Boone (Univ. Grenoble Alpes, Inria, CNRS, Grenoble INP, LIG & IRIT, Université de Toulouse), Adrienne Tuynman (Univ. Lille, Inria, CNRS, Centrale Lille, UMR 9189-CRIStAL)
  • Классификация: cs.LG (Машинное обучение)
  • Дата публикации: 15 октября 2025 г. (препринт arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2510.13476v1

Аннотация

Хотя оптимальность среднего выигрыша является обычной мерой производительности в марковских процессах принятия решений (МДП), она часто бывает чрезмерно асимптотической. Дальнейшее объединение мер мгновенных потерь привело к иерархии оптимальности смещения вплоть до оптимальности Блэквелла. В данной статье исследуется проблема идентификации политик такого порядка оптимальности. Для каждого порядка мы строим алгоритм обучения с исчезающей вероятностью ошибки. Кроме того, мы характеризуем класс МДП, для которых алгоритм идентификации может остановиться за конечное время. Этот класс соответствует МДП с уникальной оптимальной политикой Беллмана и не зависит от рассматриваемого порядка оптимальности. Наконец, мы предоставляем удобное правило остановки, которое при связывании с нашим алгоритмом обучения срабатывает за конечное время, когда это возможно.

Исследовательский контекст и мотивация

Определение проблемы

Основная проблема, исследуемая в данной работе, — это проблема идентифицируемости обучения политикам высшего порядка оптимальности в марковских процессах принятия решений. В частности:

  1. Ограничения традиционной оптимальности среднего выигрыша: В МДП традиционная оптимальность среднего выигрыша сосредоточена только на долгосрочной асимптотической производительности, игнорируя важность краткосрочных мгновенных вознаграждений.
  2. Иерархия оптимальности высшего порядка: От оптимальности выигрыша к оптимальности смещения и далее к оптимальности Блэквелла образуется полная иерархия оптимальности, где каждый уровень учитывает более тонкие различия в производительности.
  3. Проблема обучения: Статья демонстрирует через простой, но глубокий пример (Рисунок 1), что обучение политикам высшего порядка оптимальности сталкивается с фундаментальными трудностями даже в самых простых случаях.

Исследовательская мотивация

Основная мотивация статьи исходит из важного наблюдения: даже в простых МДП с единственным неизвестным параметром обучение политикам высшего порядка оптимальности может быть невозможным. Это кажущееся парадоксальным явление раскрывает сущностные трудности обучения оптимальности высшего порядка.

Ограничения существующих методов

  1. Отказ стандартных методов обучения: Традиционный выбор эмпирически оптимальной политики больше не применим при оптимальности высшего порядка
  2. Ограничения статистических тестов: Невозможно определить точное значение параметра через статистические тесты (например, θ=0)
  3. Проблема разрывности: Разрывность множества оптимальных политик в пространстве параметров приводит к трудностям обучения

Основные вклады

  1. Построение согласованного алгоритма HOPE: Для каждого порядка оптимальности n≥-1 предложен алгоритм Higher Order Policy iteration Epsilonized (HOPE) с исчезающей вероятностью ошибки.
  2. Полная характеризация класса невырожденных МДП: Доказано, что МДП является невырожденным (т.е. алгоритм идентификации может остановиться за конечное время) тогда и только тогда, когда он имеет уникальную оптимальную политику Беллмана.
  3. Теорема о коллапсе вырожденности: Доказано, что класс невырожденных МДП для всех порядков оптимальности (от оптимальности выигрыша до оптимальности Блэквелла) полностью совпадает — это удивительный результат.
  4. Предоставление вычислимого правила остановки: Дано удобное правило остановки, которое позволяет алгоритму HOPE остановиться за конечное время, когда это возможно.

Подробное описание методов

Определение задачи

Вход: Неизвестный коммуникативный МДП M = (Z, ν, p), где Z — пространство пар состояние-действие, ν — функция вознаграждения, p — ядро переходов Выход: Политика n-го порядка оптимальности π ∈ Π*_n(M) Цель: Построить алгоритм идентификации таким образом, чтобы вероятность ошибки рекомендуемой политики стремилась к 0

Архитектура основного алгоритма

Алгоритм HOPE (Algorithm 1)

Вход: Желаемый порядок оптимальности n ≥ -1
Инициализация: t ← 0
Цикл:
    1. Построить эмпирический МДП M̂_t
    2. Установить ε ← t^(-1/4)
    3. Вычислить ∏_s A_n(s) ← HOPI_{n,ε}(M̂_t)
    4. Рекомендовать любую политику из ∏_s A_n(s)
    5. Равномерно выбрать действие, наблюдать вознаграждение и следующее состояние
    6. t ← t + 1

Основная идея алгоритма HOPI

HOPI — это "эпсилонизированная" версия итерации политики высшего порядка, ключевые инновации которой заключаются в:

  1. Мягкая операция argmax: Ослабление точного ограничения уравнения Беллмана Δ^π_m(s,a) = 0 до Δ^π_m(s,a) ≤ ε
  2. Двухэтапное улучшение политики:
    • Первый этап: Поиск улучшения (m+1)-го порядка среди действий, известных как m-го порядка оптимальные
    • Второй этап: Дальнейшее уточнение до оптимальности (m+2)-го порядка
  3. Прогрессивный контроль точности: Выбор ε_t = t^(-1/4) обеспечивает согласованность алгоритма

Технические инновационные моменты

1. Итерация политики в условиях шума

Традиционная итерация политики требует точного удовлетворения уравнения Беллмана, но в среде обучения это невозможно. HOPI решает эту проблему путём введения параметра ослабления ε, позволяя алгоритму корректно работать в условиях шума.

2. Техника разбиения (Shattering)

Предложение 5: Для любой одноцепочечной оптимальной политики Беллмана π и точности ε > 0 существует M' ∈ M такой, что d_∞(M,M') < ε и π является уникальной оптимальной политикой выигрыша для M'.

Эта техника реализуется в два шага:

  • Сначала путём штрафования неоптимальных действий π становится уникальной оптимальной политикой Беллмана
  • Затем путём эргодического преобразования π становится уникальной оптимальной политикой выигрыша

3. Проектирование правила остановки

Определение функции порога:

β(M) := min{d_min(Δ*)/((1+4α)(2+sp(b*))), 1/α}

где α — наихудшее время достижения, этот порог обеспечивает точную меру радиуса окрестности.

Теоретические результаты

Основные теоремы

Теорема 1 (Согласованность)

Для всех n ≥ -1 алгоритм HOPE(n) согласован относительно Π*_n.

Теорема 2 (Характеризация невырожденности)

Пусть n ≥ -1. МДП M невырожден относительно Π*_n(M) тогда и только тогда, когда M имеет уникальную оптимальную политику Беллмана.

Следствие 3 (Коллапс вырожденности)

Множества вырожденных моделей относительно Π_{-1}, Π0, Π_1, ..., Π∞ полностью совпадают.

Схема доказательства

Необходимость невырожденности (Теорема 4)

Если M невырожден, то существует политика π ∈ Π*(M), остающаяся оптимальной в окрестности M. Доказательство использует непрерывность решений алгоритма.

Достаточность (Теоремы 10-11)

Путём построения явного правила остановки и доверительных интервалов доказано, что МДП с уникальной оптимальной политикой Беллмана действительно невырожден.

Экспериментальная установка и результаты

Теоретическая верификация

Статья является в основном теоретической работой, проверяющей все основные результаты через строгие математические доказательства. Ключевые проверки включают:

  1. Корректность алгоритма: Доказательство того, что HOPI в условиях без шума возвращает правильное множество оптимальных политик
  2. Гарантии согласованности: Доказательство того, что вероятность ошибки алгоритма HOPE действительно стремится к 0
  3. Эффективность правила остановки: Доказательство того, что предложенное правило остановки действительно срабатывает за конечное время

Анализ сложности

  • Временная сложность: Временная сложность определения уникальности оптимальной политики Беллмана составляет O(|Z| + |S|^4)
  • Сложность по выборкам: Хотя статья не предоставляет точные границы сложности по выборкам, доказано, что в невырожденном случае алгоритм обязательно сходится

Связанные работы

Идентификация оптимального рычага

Связано с проблемой идентификации оптимального рычага в многорычажных бандитах, но зависимость от состояния в условиях МДП делает проблему более сложной.

Обучение с подкреплением с средним вознаграждением

Недавние работы по идентификации оптимальных по выигрышу политик в условиях (ε,δ)-PAC, но эти работы в основном сосредоточены на приблизительной оптимальности, а не на точной оптимальности.

Вычисление оптимальности Блэквелла

Grand-Clément и Petrik (2023) и другие исследовали вычислительную сложность оптимальных политик Блэквелла на основе исторического определения коэффициента дисконтирования.

Связанные результаты в детерминированных МДП

Boone и Gaujal (2023) исследовали обучаемость оптимальных политик Блэквелла в МДП с детерминированными переходами; данная работа обобщает результаты на стохастический случай.

Заключение и обсуждение

Основные выводы

  1. Оптимальность Беллмана как фундаментальное ограничение: Обучаемость всех оптимальностей высшего порядка сводится к уникальности оптимальной политики Беллмана
  2. Универсальность вырожденности: Множества вырожденных МДП для различных порядков оптимальности полностью совпадают
  3. Существование алгоритма: Несмотря на трудности, согласованные алгоритмы действительно существуют

Ограничения

  1. Отсутствие PAC-установки: Работа в основном сосредоточена на точной оптимальности без рассмотрения приблизительной оптимальности
  2. Отсутствие границ сложности по выборкам: Не предоставлен точный анализ сложности по выборкам
  3. Практическое применение: Теоретические результаты могут ограничивать применение к практическим задачам

Будущие направления

  1. Расширение PAC-фреймворка: Исследование обучения приблизительно оптимальным политикам
  2. Анализ сложности по выборкам: Установление точных границ сложности по выборкам
  3. Оптимизация алгоритма: Улучшение практической производительности алгоритма HOPE

Глубокая оценка

Преимущества

  1. Теоретическая глубина: Обеспечивает полную теоретическую характеризацию проблемы обучения оптимальности высшего порядка
  2. Неожиданность результатов: Теорема о коллапсе вырожденности — удивительный и глубокий результат
  3. Технические инновации: Техника разбиения и эпсилонизированная итерация политики демонстрируют техническую инновативность
  4. Ясность изложения: Статья хорошо структурирована с строгими математическими доказательствами

Недостатки

  1. Ограничения практичности: Теоретические результаты показывают, что большинство практических МДП могут быть вырожденными
  2. Вычислительная сложность: Хотя предоставлен полиномиальный алгоритм, константы могут быть большими
  3. Отсутствие экспериментальной верификации: Как чисто теоретическая работа, не содержит экспериментальной верификации

Влияние

  1. Теоретический вклад: Предоставляет важный отрицательный результат для теории обучения с подкреплением
  2. Методологическое вдохновение: Техника разбиения может найти применение в других задачах
  3. Направление исследований: Указывает на важность PAC-установки для будущих исследований

Применимые сценарии

  1. Теоретические исследования: Предоставляет важный справочный материал для теоретических исследований обучения с подкреплением
  2. Проектирование алгоритмов: Обеспечивает теоретическое руководство для разработки практических алгоритмов обучения политикам
  3. Анализ задач: Помогает понять влияние структуры МДП на сложность обучения

Библиография

Статья цитирует важные работы в области обучения с подкреплением и марковских процессов принятия решений, включая:

  • Puterman (1994): Классический учебник по марковским процессам принятия решений
  • Blackwell (1962): Исходное определение оптимальности Блэквелла
  • Kaufmann et al. (2016): Теория сложности идентификации оптимального рычага
  • Boone and Gaujal (2023): Обучаемость оптимальности Блэквелла в детерминированных МДП

Данная статья путём строгого теоретического анализа раскрывает фундаментальное и глубокое явление в обучении с подкреплением: сложность обучения оптимальности высшего порядка полностью определяется структурой оптимальности Беллмана. Этот результат имеет не только важное теоретическое значение, но также предоставляет важное руководство для практического проектирования алгоритмов.