We consider robust Markov Decision Processes with Borel state and action spaces, unbounded cost and finite time horizon. Our formulation leads to a Stackelberg game against nature. Under integrability, continuity and compactness assumptions we derive a robust cost iteration for a fixed policy of the decision maker and a value iteration for the robust optimization problem. Moreover, we show the existence of deterministic optimal policies for both players. This is in contrast to classical zero-sum games. In case the state space is the real line we show under some convexity assumptions that the interchange of supremum and infimum is possible with the help of Sion's minimax Theorem. Further, we consider the problem with special ambiguity sets. In particular we are able to derive some cases where the robust optimization problem coincides with the minimization of a coherent risk measure. In the final section we discuss two applications: A robust LQ problem and a robust problem for managing regenerative energy.
- ID статьи: 2007.13103
- Название: Distributionally Robust Markov Decision Processes and their Connection to Risk Measures
- Авторы: Nicole Bäuerle, Alexander Glauner
- Классификация: math.OC (математическая оптимизация и управление), q-fin.RM (количественное управление финансовыми рисками)
- Дата публикации: 26 июля 2020 г.
- Ссылка на статью: https://arxiv.org/abs/2007.13103
В данной работе исследуются робастные марковские процессы принятия решений (МППР) с борелевскими пространствами состояний и действий, неограниченными затратами и конечным временным горизонтом. Задача моделируется как игра Штакельберга между лицом, принимающим решение, и природой. При предположениях интегрируемости, непрерывности и компактности авторы выводят итерацию робастных затрат при фиксированной стратегии лица, принимающего решение, и итерацию значений для робастной задачи оптимизации. Кроме того, доказывается существование детерминированных оптимальных стратегий для обеих сторон, что контрастирует с классическими нулевыми играми. Когда пространство состояний является вещественной прямой, при определённых предположениях выпуклости теорема Сиона о минимаксе позволяет обменять верхнюю и нижнюю грани. Статья также рассматривает специальные случаи неопределённых множеств, в частности выводит условия, при которых робастная задача оптимизации совпадает с минимизацией когерентной меры риска.
Традиционные марковские процессы принятия решений предполагают, что все параметры и распределения известны или могут быть точно оценены. Однако в практических приложениях использование такой "оптимальной" стратегии может привести к значительному снижению производительности, когда истинные параметры или распределения отклоняются от предположений.
- Проблема неопределённости модели: На практике вероятности переходов часто невозможно получить точно, существует неоднозначность модели
- Требования к неприятию риска: Парадокс Эллсберга показывает, что лица, принимающие решения, склонны избегать неоднозначности
- Теоретические ограничения: Существующие исследования робастных МППР в основном ограничены конечными пространствами состояний и действий
- Практические потребности: Необходимо решать реальные задачи с непрерывными пространствами состояний и неограниченными функциями затрат
- Большинство исследований ограничены счётными или конечными пространствами состояний и действий
- Отсутствует обработка непрерывных пространств и неограниченных затрат
- Недостаточно глубокая связь с мерами риска
- Отсутствуют доказательства существования детерминированных оптимальных стратегий
- Расширение теоретической базы: Расширение существующей теории робастных МППР с счётных пространств на борелевы пространства с обработкой неограниченных функций затрат
- Моделирование теорией игр: Моделирование задачи как игры Штакельберга, где природа является ведомым игроком, а лицо, принимающее решение, — лидером
- Существование оптимальных стратегий: Доказательство существования детерминированных оптимальных стратегий для обеих сторон, что отличается от классических нулевых игр
- Условия обмена экстремумов: При предположениях выпуклости использование теоремы Сиона о минимаксе позволяет обменять верхнюю и нижнюю грани
- Связь с мерами риска: Установление эквивалентности между робастной оптимизацией и минимизацией когерентной меры риска при специальных неопределённых множествах
- Практические приложения: Предоставление двух примеров приложений: робастная задача ЛК и управление возобновляемыми источниками энергии
Рассмотрим марковский процесс принятия решений с конечным временным горизонтом N:
- Пространство состояний: E (борелево пространство)
- Пространство действий: A (борелево пространство)
- Функция переходов: Tn:Dn×Z→E
- Функция затрат: cn:Dn×E→R
- Возмущения: Z1,…,ZN — независимые случайные элементы
Цель состоит в минимизации ожидаемых затрат в наихудшем случае:
V0(x)=infπ∈ΠRsupγ∈ΓV0πγ(x)
Определим неопределённое множество Qn⊆Mq(Ωn,An,Pn), где:
- Mq(Ωn,An,Pn) — множество вероятностных мер, абсолютно непрерывных относительно Pn
- Наделено слабой* топологией σ(Lq,Lp), где p1+q1=1
- Лицо, принимающее решение: выбирает стратегию π=(π0,π1,…,πN−1)
- Природа: после наблюдения действий лица, принимающего решение, выбирает γ=(γ0,…,γN−1)
- Информационная структура: природа является ведомым игроком и может наблюдать действия лица, принимающего решение
При предположениях условий функция значения удовлетворяет уравнению Беллмана:
Jn(x)=infa∈Dn(x)supQ∈Qn+1LnJn+1(x,a,Q)
где:
Lnv(x,a,Q)=∫cn(x,a,Tn(x,a,z))+v(Tn(x,a,z))Q(dz)
Использование теоремы об измеримом выборе Ридера для обработки проблем измеримости в непрерывных пространствах, обеспечивая существование оптимальных стратегий.
Применение слабой* топологии σ(Lq,Lp) вместо топологии слабой сходимости для облегчения установления связи с рекурсивными мерами риска.
Введение верхней и нижней граничных функций bˉ и b для обработки неограниченных затрат, обеспечивая корректную определённость функции значения.
При предположениях выпуклости модели использование теоремы Сиона о минимаксе для реализации:
infa∈Dn(x)supQ∈Qn+1LnJn+1(x,a,Q)=supQ∈Qn+1infa∈Dn(x)LnJn+1(x,a,Q)
При предположениях 2.1 и 3.1:
- Робастное значение стратегии Vnπ(hn) является измеримым и удовлетворяет рекурсивному соотношению
- Если неопределённое множество слабо* замкнуто, то существует оптимальное правило решения для природы
- Достаточно рассмотреть детерминированные марковские стратегии: Vn(hn)=Jn(xn)
- Jn∈B и удовлетворяет уравнению Беллмана
- Существует марковская оптимальная стратегия для лица, принимающего решение
В выпуклой модели:
Jn(x)=infa∈Dn(x)supQ∈Qn+1LnJn+1(x,a,Q)=supQ∈Qn+1infa∈Dn(x)LnJn+1(x,a,Q)
При предположениях выпуклости модели и слабой* замкнутости неопределённого множества существует пара стратегий равновесия Нэша.
Когда неопределённое множество имеет специальную структуру, робастная оптимизация эквивалентна оптимизации спектральной меры риска:
ρϕ(X)=supY∈QdE[XY]
где ϕ — спектральная функция.
При инвариантных относительно закона неопределённых множествах задача может быть переписана как:
infπ∈ΠMρ(∑n=0N−1cn(Xn,dn(Xn),Xn+1)+cN(XN))
Рассмотрим линейно-квадратичную задачу:
- Пространство состояний: E=R, пространство действий: A=Rd
- Функция переходов: Tn(x,a,Zn+1)=Un+1x+Vn+1Ta+Wn+1
- Функция затрат: cn(x,a)=x2Qn+aTRna
- При предположении независимости оптимальная стратегия природы не зависит от состояния
- Возможно обменять экстремумы с использованием теоремы Сиона, упрощая решение
- Когда возможно выбрать EQ[UnVn]=0, оптимальное управление равно dn∗(x)=0
Совместное управление ветроэнергетической установкой и накопителем энергии:
- Состояние: объём накопленной энергии в батарее x∈[0,K]
- Действие: объявленный объём производства a∈[0,B]
- Вознаграждение: Pa (где P>0 — цена электроэнергии)
- Штраф: пропорциональный штраф c>0 при дефиците
Jn(x)=infa∈D(x)supQ∈Q{−aP+∫aBJn+1((x+z−a)∧K)Q(dz)+∫0a[(P+c)(x+z−a)−+Jn+1((x+z−a)+)]Q(dz)}
- Iyengar (2005): Первое введение робастных МППР при условии прямоугольности
- Nilim & El Ghaoui (2005): Одновременная работа для конечных пространств состояний
- Wiesemann et al. (2013): Метод доверительных областей
- Xu & Mannor (2010): Вложенные неопределённые множества
- Расширение пространств: Расширение от конечных/счётных к общим борелевым пространствам
- Обработка затрат: Допущение неограниченных функций затрат
- Свойства стратегий: Доказательство существования детерминированных оптимальных стратегий
- Теоретическая глубина: Установление глубокой связи с мерами риска
- Успешное расширение теории робастных МППР на непрерывные пространства и неограниченные затраты
- Установление полной теории итерации значений и существования оптимальных стратегий
- Раскрытие глубокой связи между робастной оптимизацией и мерами риска
- Предоставление практических методов решения и примеров приложений
- Условия предположений: Требуются достаточно сильные предположения интегрируемости, непрерывности и компактности
- Требования выпуклости: Обмен экстремумов требует выпуклости структуры модели
- Вычислительная сложность: Вычисление supremum в непрерывных пространствах остаётся сложной задачей
- Выбор неопределённого множества: Разумное построение неопределённого множества в практических приложениях требует знаний предметной области
- Разработка алгоритмов: Проектирование эффективных численных алгоритмов решения
- Ослабление предположений: Исследование теоретических результатов при более общих условиях
- Расширение приложений: Конкретные приложения в финансах, исследовании операций и других областях
- Интеграция с обучением: Комбинирование с методами онлайн-обучения и адаптивными подходами
- Значительный теоретический вклад: Фундаментальное расширение применимости робастных МППР
- Строгая методология: Применение глубоких теорий теории меры и функционального анализа
- Ясная структура: Логичное изложение от базовых предположений к основным теоремам
- Глубокие связи: Установление моста между теорией оптимизации и управлением рисками
- Практическая ценность: Предоставление применимой на практике базы моделирования
- Высокий технический уровень: Требуется сильный математический фундамент для полного понимания
- Вычислительные вызовы: Расстояние между теоретическими результатами и практическими вычислениями
- Ограничения предположений: Некоторые предположения могут быть сложны для удовлетворения в практических приложениях
- Недостаточная численная верификация: Отсутствие крупномасштабных численных экспериментов для верификации
- Академическая ценность: Предоставление важной теоретической базы для робастной оптимизации и управления рисками
- Перспективы приложений: Широкие возможности приложений в управлении финансовыми рисками, энергетических системах и других областях
- Методологический вклад: Моделирование игры Штакельберга предоставляет новый подход к связанным задачам
- Основа для будущих исследований: Создание основы для дальнейшего теоретического развития и разработки алгоритмов
- Финансовая инженерия: Оптимизация портфеля, управление рисками
- Энергетические системы: Планирование возобновляемых источников энергии, управление накопителями
- Управление цепочками поставок: Контроль запасов при неопределённом спросе
- Исследование операций: Распределение ресурсов, планирование производства
Статья ссылается на 75 связанных работ, включая:
- Iyengar (2005): Основополагающая работа по робастному динамическому программированию
- Sion (1958): Классический результат теоремы о минимаксе
- Bäuerle & Rieder (2011): Монография по марковским процессам принятия решений
- Epstein & Schneider (2003): Теория рекурсивных множественных приоров
- Ruszczyński (2010): Динамическое программирование с неприятием риска
Общая оценка: Это высококачественная теоретическая работа, внёсшая значительный вклад в область пересечения робастной оптимизации и марковских процессов принятия решений. Несмотря на высокий технический уровень, она предоставляет прочную основу как для теоретического развития, так и для практических приложений в этой области.