2025-11-13T03:28:10.622967

Distributionally Robust Markov Decision Processes and their Connection to Risk Measures

Bäuerle, Glauner
We consider robust Markov Decision Processes with Borel state and action spaces, unbounded cost and finite time horizon. Our formulation leads to a Stackelberg game against nature. Under integrability, continuity and compactness assumptions we derive a robust cost iteration for a fixed policy of the decision maker and a value iteration for the robust optimization problem. Moreover, we show the existence of deterministic optimal policies for both players. This is in contrast to classical zero-sum games. In case the state space is the real line we show under some convexity assumptions that the interchange of supremum and infimum is possible with the help of Sion's minimax Theorem. Further, we consider the problem with special ambiguity sets. In particular we are able to derive some cases where the robust optimization problem coincides with the minimization of a coherent risk measure. In the final section we discuss two applications: A robust LQ problem and a robust problem for managing regenerative energy.
academic

Дистрибуционно-робастные марковские процессы принятия решений и их связь с мерами риска

Основная информация

  • ID статьи: 2007.13103
  • Название: Distributionally Robust Markov Decision Processes and their Connection to Risk Measures
  • Авторы: Nicole Bäuerle, Alexander Glauner
  • Классификация: math.OC (математическая оптимизация и управление), q-fin.RM (количественное управление финансовыми рисками)
  • Дата публикации: 26 июля 2020 г.
  • Ссылка на статью: https://arxiv.org/abs/2007.13103

Аннотация

В данной работе исследуются робастные марковские процессы принятия решений (МППР) с борелевскими пространствами состояний и действий, неограниченными затратами и конечным временным горизонтом. Задача моделируется как игра Штакельберга между лицом, принимающим решение, и природой. При предположениях интегрируемости, непрерывности и компактности авторы выводят итерацию робастных затрат при фиксированной стратегии лица, принимающего решение, и итерацию значений для робастной задачи оптимизации. Кроме того, доказывается существование детерминированных оптимальных стратегий для обеих сторон, что контрастирует с классическими нулевыми играми. Когда пространство состояний является вещественной прямой, при определённых предположениях выпуклости теорема Сиона о минимаксе позволяет обменять верхнюю и нижнюю грани. Статья также рассматривает специальные случаи неопределённых множеств, в частности выводит условия, при которых робастная задача оптимизации совпадает с минимизацией когерентной меры риска.

Исследовательский контекст и мотивация

Постановка проблемы

Традиционные марковские процессы принятия решений предполагают, что все параметры и распределения известны или могут быть точно оценены. Однако в практических приложениях использование такой "оптимальной" стратегии может привести к значительному снижению производительности, когда истинные параметры или распределения отклоняются от предположений.

Исследовательская мотивация

  1. Проблема неопределённости модели: На практике вероятности переходов часто невозможно получить точно, существует неоднозначность модели
  2. Требования к неприятию риска: Парадокс Эллсберга показывает, что лица, принимающие решения, склонны избегать неоднозначности
  3. Теоретические ограничения: Существующие исследования робастных МППР в основном ограничены конечными пространствами состояний и действий
  4. Практические потребности: Необходимо решать реальные задачи с непрерывными пространствами состояний и неограниченными функциями затрат

Ограничения существующих подходов

  • Большинство исследований ограничены счётными или конечными пространствами состояний и действий
  • Отсутствует обработка непрерывных пространств и неограниченных затрат
  • Недостаточно глубокая связь с мерами риска
  • Отсутствуют доказательства существования детерминированных оптимальных стратегий

Основные вклады

  1. Расширение теоретической базы: Расширение существующей теории робастных МППР с счётных пространств на борелевы пространства с обработкой неограниченных функций затрат
  2. Моделирование теорией игр: Моделирование задачи как игры Штакельберга, где природа является ведомым игроком, а лицо, принимающее решение, — лидером
  3. Существование оптимальных стратегий: Доказательство существования детерминированных оптимальных стратегий для обеих сторон, что отличается от классических нулевых игр
  4. Условия обмена экстремумов: При предположениях выпуклости использование теоремы Сиона о минимаксе позволяет обменять верхнюю и нижнюю грани
  5. Связь с мерами риска: Установление эквивалентности между робастной оптимизацией и минимизацией когерентной меры риска при специальных неопределённых множествах
  6. Практические приложения: Предоставление двух примеров приложений: робастная задача ЛК и управление возобновляемыми источниками энергии

Подробное описание методов

Определение задачи

Рассмотрим марковский процесс принятия решений с конечным временным горизонтом N:

  • Пространство состояний: E (борелево пространство)
  • Пространство действий: A (борелево пространство)
  • Функция переходов: Tn:Dn×ZET_n: D_n \times Z \to E
  • Функция затрат: cn:Dn×ERc_n: D_n \times E \to \mathbb{R}
  • Возмущения: Z1,,ZNZ_1, \ldots, Z_N — независимые случайные элементы

Цель состоит в минимизации ожидаемых затрат в наихудшем случае: V0(x)=infπΠRsupγΓV0πγ(x)V_0(x) = \inf_{\pi \in \Pi^R} \sup_{\gamma \in \Gamma} V_0^{\pi\gamma}(x)

Архитектура модели

1. Моделирование неопределённых множеств

Определим неопределённое множество QnMq(Ωn,An,Pn)\mathcal{Q}_n \subseteq M_q(\Omega_n, \mathcal{A}_n, P_n), где:

  • Mq(Ωn,An,Pn)M_q(\Omega_n, \mathcal{A}_n, P_n) — множество вероятностных мер, абсолютно непрерывных относительно PnP_n
  • Наделено слабой* топологией σ(Lq,Lp)\sigma(L^q, L^p), где 1p+1q=1\frac{1}{p} + \frac{1}{q} = 1

2. Структура игры Штакельберга

  • Лицо, принимающее решение: выбирает стратегию π=(π0,π1,,πN1)\pi = (\pi_0, \pi_1, \ldots, \pi_{N-1})
  • Природа: после наблюдения действий лица, принимающего решение, выбирает γ=(γ0,,γN1)\gamma = (\gamma_0, \ldots, \gamma_{N-1})
  • Информационная структура: природа является ведомым игроком и может наблюдать действия лица, принимающего решение

3. Рекурсивные соотношения функции значения

При предположениях условий функция значения удовлетворяет уравнению Беллмана: Jn(x)=infaDn(x)supQQn+1LnJn+1(x,a,Q)J_n(x) = \inf_{a \in D_n(x)} \sup_{Q \in \mathcal{Q}_{n+1}} L_n J_{n+1}(x,a,Q)

где: Lnv(x,a,Q)=cn(x,a,Tn(x,a,z))+v(Tn(x,a,z))Q(dz)L_n v(x,a,Q) = \int c_n(x,a,T_n(x,a,z)) + v(T_n(x,a,z)) \, Q(dz)

Технические инновации

1. Применение теоремы об измеримом выборе

Использование теоремы об измеримом выборе Ридера для обработки проблем измеримости в непрерывных пространствах, обеспечивая существование оптимальных стратегий.

2. Обработка слабой* топологии

Применение слабой* топологии σ(Lq,Lp)\sigma(L^q, L^p) вместо топологии слабой сходимости для облегчения установления связи с рекурсивными мерами риска.

3. Техника граничных функций

Введение верхней и нижней граничных функций bˉ\bar{b} и b\underline{b} для обработки неограниченных затрат, обеспечивая корректную определённость функции значения.

4. Анализ выпуклости

При предположениях выпуклости модели использование теоремы Сиона о минимаксе для реализации: infaDn(x)supQQn+1LnJn+1(x,a,Q)=supQQn+1infaDn(x)LnJn+1(x,a,Q)\inf_{a \in D_n(x)} \sup_{Q \in \mathcal{Q}_{n+1}} L_n J_{n+1}(x,a,Q) = \sup_{Q \in \mathcal{Q}_{n+1}} \inf_{a \in D_n(x)} L_n J_{n+1}(x,a,Q)

Основные теоретические результаты

Теорема 3.6: Итерация значений робастной стратегии

При предположениях 2.1 и 3.1:

  1. Робастное значение стратегии Vnπ(hn)V_n^\pi(h_n) является измеримым и удовлетворяет рекурсивному соотношению
  2. Если неопределённое множество слабо* замкнуто, то существует оптимальное правило решения для природы

Теорема 3.10: Существование оптимальной стратегии

  1. Достаточно рассмотреть детерминированные марковские стратегии: Vn(hn)=Jn(xn)V_n(h_n) = J_n(x_n)
  2. JnBJ_n \in B и удовлетворяет уравнению Беллмана
  3. Существует марковская оптимальная стратегия для лица, принимающего решение

Теорема 5.2: Обмен экстремумов

В выпуклой модели: Jn(x)=infaDn(x)supQQn+1LnJn+1(x,a,Q)=supQQn+1infaDn(x)LnJn+1(x,a,Q)J_n(x) = \inf_{a \in D_n(x)} \sup_{Q \in \mathcal{Q}_{n+1}} L_n J_{n+1}(x,a,Q) = \sup_{Q \in \mathcal{Q}_{n+1}} \inf_{a \in D_n(x)} L_n J_{n+1}(x,a,Q)

Теорема 5.5: Существование равновесия Нэша

При предположениях выпуклости модели и слабой* замкнутости неопределённого множества существует пара стратегий равновесия Нэша.

Связь с мерами риска

Представление спектральной меры риска

Когда неопределённое множество имеет специальную структуру, робастная оптимизация эквивалентна оптимизации спектральной меры риска: ρϕ(X)=supYQdE[XY]\rho_\phi(X) = \sup_{Y \in \mathcal{Q}_d} E[XY]

где ϕ\phi — спектральная функция.

Когерентная мера риска

При инвариантных относительно закона неопределённых множествах задача может быть переписана как: infπΠMρ(n=0N1cn(Xn,dn(Xn),Xn+1)+cN(XN))\inf_{\pi \in \Pi^M} \rho\left(\sum_{n=0}^{N-1} c_n(X_n, d_n(X_n), X_{n+1}) + c_N(X_N)\right)

Экспериментальные приложения

Приложение 1: Робастная задача ЛК

Рассмотрим линейно-квадратичную задачу:

  • Пространство состояний: E=RE = \mathbb{R}, пространство действий: A=RdA = \mathbb{R}^d
  • Функция переходов: Tn(x,a,Zn+1)=Un+1x+Vn+1Ta+Wn+1T_n(x,a,Z_{n+1}) = U_{n+1}x + V_{n+1}^T a + W_{n+1}
  • Функция затрат: cn(x,a)=x2Qn+aTRnac_n(x,a) = x^2 Q_n + a^T R_n a

Ключевые результаты

  1. При предположении независимости оптимальная стратегия природы не зависит от состояния
  2. Возможно обменять экстремумы с использованием теоремы Сиона, упрощая решение
  3. Когда возможно выбрать EQ[UnVn]=0E^Q[U_n V_n] = 0, оптимальное управление равно dn(x)=0d_n^*(x) = 0

Приложение 2: Управление возобновляемыми источниками энергии

Совместное управление ветроэнергетической установкой и накопителем энергии:

  • Состояние: объём накопленной энергии в батарее x[0,K]x \in [0,K]
  • Действие: объявленный объём производства a[0,B]a \in [0,B]
  • Вознаграждение: PaPa (где P>0P > 0 — цена электроэнергии)
  • Штраф: пропорциональный штраф c>0c > 0 при дефиците

Уравнение Беллмана

Jn(x)=infaD(x)supQQ{aP+aBJn+1((x+za)K)Q(dz)+0a[(P+c)(x+za)+Jn+1((x+za)+)]Q(dz)}J_n(x) = \inf_{a \in D(x)} \sup_{Q \in \mathcal{Q}} \left\{-aP + \int_a^B J_{n+1}((x+z-a) \wedge K) Q(dz) + \int_0^a [(P+c)(x+z-a)^- + J_{n+1}((x+z-a)^+)] Q(dz)\right\}

Связанные работы

Развитие робастных МППР

  1. Iyengar (2005): Первое введение робастных МППР при условии прямоугольности
  2. Nilim & El Ghaoui (2005): Одновременная работа для конечных пространств состояний
  3. Wiesemann et al. (2013): Метод доверительных областей
  4. Xu & Mannor (2010): Вложенные неопределённые множества

Преимущества данной работы

  1. Расширение пространств: Расширение от конечных/счётных к общим борелевым пространствам
  2. Обработка затрат: Допущение неограниченных функций затрат
  3. Свойства стратегий: Доказательство существования детерминированных оптимальных стратегий
  4. Теоретическая глубина: Установление глубокой связи с мерами риска

Заключение и обсуждение

Основные выводы

  1. Успешное расширение теории робастных МППР на непрерывные пространства и неограниченные затраты
  2. Установление полной теории итерации значений и существования оптимальных стратегий
  3. Раскрытие глубокой связи между робастной оптимизацией и мерами риска
  4. Предоставление практических методов решения и примеров приложений

Ограничения

  1. Условия предположений: Требуются достаточно сильные предположения интегрируемости, непрерывности и компактности
  2. Требования выпуклости: Обмен экстремумов требует выпуклости структуры модели
  3. Вычислительная сложность: Вычисление supremum в непрерывных пространствах остаётся сложной задачей
  4. Выбор неопределённого множества: Разумное построение неопределённого множества в практических приложениях требует знаний предметной области

Направления будущих исследований

  1. Разработка алгоритмов: Проектирование эффективных численных алгоритмов решения
  2. Ослабление предположений: Исследование теоретических результатов при более общих условиях
  3. Расширение приложений: Конкретные приложения в финансах, исследовании операций и других областях
  4. Интеграция с обучением: Комбинирование с методами онлайн-обучения и адаптивными подходами

Глубокая оценка

Преимущества

  1. Значительный теоретический вклад: Фундаментальное расширение применимости робастных МППР
  2. Строгая методология: Применение глубоких теорий теории меры и функционального анализа
  3. Ясная структура: Логичное изложение от базовых предположений к основным теоремам
  4. Глубокие связи: Установление моста между теорией оптимизации и управлением рисками
  5. Практическая ценность: Предоставление применимой на практике базы моделирования

Недостатки

  1. Высокий технический уровень: Требуется сильный математический фундамент для полного понимания
  2. Вычислительные вызовы: Расстояние между теоретическими результатами и практическими вычислениями
  3. Ограничения предположений: Некоторые предположения могут быть сложны для удовлетворения в практических приложениях
  4. Недостаточная численная верификация: Отсутствие крупномасштабных численных экспериментов для верификации

Влияние

  1. Академическая ценность: Предоставление важной теоретической базы для робастной оптимизации и управления рисками
  2. Перспективы приложений: Широкие возможности приложений в управлении финансовыми рисками, энергетических системах и других областях
  3. Методологический вклад: Моделирование игры Штакельберга предоставляет новый подход к связанным задачам
  4. Основа для будущих исследований: Создание основы для дальнейшего теоретического развития и разработки алгоритмов

Применимые сценарии

  1. Финансовая инженерия: Оптимизация портфеля, управление рисками
  2. Энергетические системы: Планирование возобновляемых источников энергии, управление накопителями
  3. Управление цепочками поставок: Контроль запасов при неопределённом спросе
  4. Исследование операций: Распределение ресурсов, планирование производства

Список литературы

Статья ссылается на 75 связанных работ, включая:

  • Iyengar (2005): Основополагающая работа по робастному динамическому программированию
  • Sion (1958): Классический результат теоремы о минимаксе
  • Bäuerle & Rieder (2011): Монография по марковским процессам принятия решений
  • Epstein & Schneider (2003): Теория рекурсивных множественных приоров
  • Ruszczyński (2010): Динамическое программирование с неприятием риска

Общая оценка: Это высококачественная теоретическая работа, внёсшая значительный вклад в область пересечения робастной оптимизации и марковских процессов принятия решений. Несмотря на высокий технический уровень, она предоставляет прочную основу как для теоретического развития, так и для практических приложений в этой области.