2025-11-10T02:48:02.300387

Markov Decision Processes with Recursive Risk Measures

BÃ¤uerle, Glauner

In this paper, we consider risk-sensitive Markov Decision Processes (MDPs) with Borel state and action spaces and unbounded cost under both finite and infinite planning horizons. Our optimality criterion is based on the recursive application of static risk measures. This is motivated by recursive utilities in the economic literature, has been studied before for the entropic risk measure and is extended here to an axiomatic characterization of suitable risk measures. We derive a Bellman equation and prove the existence of Markovian optimal policies. For an infinite planning horizon, the model is shown to be contractive and the optimal policy to be stationary. Moreover, we establish a connection to distributionally robust MDPs, which provides a global interpretation of the recursively defined objective function. Monotone models are studied in particular.

academic

Марковские процессы принятия решений с рекурсивными мерами риска

Основная информация

ID статьи: 2010.07220
Название: Markov Decision Processes with Recursive Risk Measures
Авторы: Nicole Bäuerle, Alexander Glauner
Классификация: math.OC (Оптимизация и управление), q-fin.RM (Количественные финансы - управление рисками)
Дата публикации: 14 октября 2020 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2010.07220

Аннотация

В статье исследуются чувствительные к риску марковские процессы принятия решений (МПР) с борелевскими пространствами состояний и действий, а также неограниченными затратами, охватывающие конечные и бесконечные горизонты планирования. Критерий оптимизации основан на рекурсивном применении статических мер риска. Этот подход вдохновлен рекурсивной полезностью из экономической литературы и ранее изучался на примере энтропийных мер риска. В статье расширяется применение на аксиоматические характеристики подходящих мер риска. Авторы выводят уравнение Беллмана и доказывают существование марковских оптимальных стратегий. Для бесконечного горизонта планирования модель доказывается сжимающей, а оптимальная стратегия является стационарной. Кроме того, устанавливается связь с распределительно-робастными МПР, обеспечивающая глобальную интерпретацию рекурсивно определённых целевых функций.

Научный контекст и мотивация

Постановка проблемы

Классическая теория марковских процессов принятия решений сосредоточена на минимизации ожидаемых дисконтированных затрат управляемых динамических систем на конечном или бесконечном временном горизонте. Однако простое математическое ожидание не отражает истинный риск решений, что особенно важно в приложениях, таких как управление денежными потоками.

Научная мотивация

Необходимость в чувствительности к риску: В финансовой и страховой сферах лица, принимающие решения, предпочитают использовать динамическую полезность для оценки производительности вместо простого ожидания
Временная согласованность: Существующая теория динамических мер риска показывает, что единственные временно согласованные меры риска — это те, которые итеративно применяют статические меры риска
Совершенствование теории: Необходимо разработать полный теоретический каркас для общих мер риска, а не только для конкретных энтропийных мер риска

Ограничения существующих подходов

Большинство исследований ограничены ограниченными случайными величинами или конкретными типами мер риска
Некоторые методы требуют косвенных предположений о свойствах мер риска
Отсутствует систематическое рассмотрение общих борелевских пространств и неограниченных функций затрат

Основные вклады

Расширение теоретического каркаса: Расширение теории МПР с рекурсивными мерами риска с энтропийных мер на общие аксиоматические меры риска
Вывод уравнения Беллмана: Вывод уравнения Беллмана для МПР с рекурсивными мерами риска и доказательство существования марковских оптимальных стратегий
Доказательство сжимаемости: Доказательство сжимаемости модели с бесконечным горизонтом и существования стационарной оптимальной стратегии
Связь с распределительной робастностью: Установление теоретической связи с распределительно-робастными МПР, обеспечивающей глобальную интерпретацию рекурсивных целевых функций
Анализ монотонных моделей: Углублённое исследование специальных моделей с монотонными свойствами, ослабляющее предположения о непрерывности

Подробное описание методов

Определение задачи

Рассмотрим марковский процесс принятия решений, где пространства состояний E и действий A являются борелевскими пространствами:

Переходы состояний задаются измеримой функцией переходов $T_n: D_n \times Z \to E$
Одношаговая функция затрат $c_n: D_n \times E \to \mathbb{R}$
Терминальная функция затрат $c_N: E \to \mathbb{R}$

Каркас рекурсивных мер риска

Свойства мер риска

В статье рассматриваются меры риска $\rho: L^p \to \overline{\mathbb{R}}$ со следующими свойствами:

Монетарность: Монотонность и инвариантность относительно сдвига
Согласованность: Положительная однородность и субаддитивность
Свойство Фату: Полунепрерывность снизу относительно управляемой сходимости

Определение рекурсивной стоимости

Для стратегии $\pi = (d_0, \ldots, d_{N-1})$ рекурсивно определяется функция стоимости: $V_N^\pi(h_N) = c_N(x_N)$ $V_n^\pi(h_n) = \rho_n\left(c_n(x_n, d_n(h_n), T_n(x_n, d_n(h_n), Z_{n+1})) + V_{n+1}^\pi(\cdot)\right)$

Технические инновации

1. Метод глобальных граничных функций

Предложена концепция глобальных верхних и нижних граничных функций, более подходящих для рекурсивных мер риска, чем традиционные локальные граничные функции:

Лемма 4.3: Для подходящих согласованных мер риска, если существуют локальные граничные функции, удовлетворяющие: $\rho_n(c_n(x,a,T_n(x,a,Z_{n+1}))) \geq \underline{b}(x)$ $\rho_n(-\underline{b}(T_n(x,a,Z_{n+1}))) \leq -\alpha\underline{b}(x)$

то глобальная граничная функция имеет вид $\underline{B} = \frac{1}{1-\alpha}\underline{b}$ .

2. Уравнение Беллмана

Теорема 4.7: При надлежащих предположениях функция стоимости удовлетворяет уравнению Беллмана: $J_N(x) = c_N(x)$ $J_n(x) = T_nJ_{n+1}(x) = \inf_{a \in D_n(x)} \rho_n(c_n(x,a,T_n(x,a,Z_{n+1})) + J_{n+1}(T_n(x,a,Z_{n+1})))$

3. Свойства сжимаемости

Лемма 5.4: Оператор Беллмана $T$ является сжимающим отображением с модулем $\alpha\beta$ на интервале $I = [\underline{B}, \overline{B}]$ .

Экспериментальная установка

Теоретическая верификация

Статья в основном проверяет эффективность методов посредством теоретического анализа и математических примеров, а не крупномасштабных численных экспериментов.

Прикладные примеры

Близорукость Value-at-Risk: В монотонных моделях доказано, что оптимальная стратегия при критерии VaR является близорукой
Задачи остановки: Демонстрируется сохранение структуры пороговых стратегий
Азартные игры в казино: Анализируются оптимальные стратегии ставок
Задача балансировки денежных средств: Доказывается оптимальность стратегий типа (S⁻, S⁺)

Результаты экспериментов

Основные теоретические результаты

Конечный горизонт

Доказано существование марковских оптимальных стратегий
Установлено рекурсивное уравнение Беллмана
Функция стоимости обладает полунепрерывностью снизу

Бесконечный горизонт

Теорема 5.5:
- Предельная функция стоимости является единственной неподвижной точкой оператора Беллмана
- Существует оптимальная стационарная стратегия
- Модель обладает свойством сжимаемости с модулем $\alpha\beta < 1$

Результаты для специальных случаев

Случай ограниченных затрат

Следствие 5.6: Когда одношаговые затраты ограничены, применима любая нормализованная монетарная мера риска с свойством Фату.

Монотонные модели

Предложение 7.5: При монотонных предположениях можно ослабить требование согласованности меры риска, требуя только совмонотонную аддитивность.

Анализ примеров

Близорукость Value-at-Risk

В монотонных моделях, когда функция затрат не зависит от действия: $J_n(x) = \inf_{a \in D(x)} h(\text{VaR}_\alpha(T(x,a,Z)))$ где $h$ — возрастающая полунепрерывная снизу функция, что приводит к тому, что оптимальная стратегия является стационарной и близорукой.

Задача балансировки денежных средств

Сохраняются структурные свойства классического МПР:

Существуют критические уровни $S^-$ и $S^+$
Оптимальная стратегия имеет форму $(S^-, S^+)$
Функция стоимости сохраняет выпуклость

Связанные работы

Теория динамических мер риска

Epstein & Schneider (2003): Рекурсивные модели с множественными приорами
Riedel (2004): Динамически согласованные меры риска
Shapiro (2012): Теория временной согласованности

Чувствительные к риску МПР

Ruszczyński (2010): Аксиоматический подход, ограничен ограниченными случайными величинами
Shen et al. (2013): Метод отображения риска
Chu & Zhang (2014): Согласованные меры риска, требуют предположения о существовании предела

Приложения конкретных мер риска

Asienkiewicz & Jaśkiewicz (2017): Энтропийные меры риска
Bäuerle & Jaśkiewicz (2017, 2018): Финансовые приложения

Заключение и обсуждение

Основные выводы

Рекурсивное применение статических мер риска обеспечивает единый теоретический каркас для чувствительных к риску МПР
При надлежащих предположениях можно построить полную теорию Беллмана
Монотонные модели позволяют значительно ослабить технические предположения
Связь с распределительно-робастными МПР обеспечивает глобальную интерпретацию

Ограничения

Технические предположения: Требуются относительно сложные предположения о глобальных граничных функциях
Вычислительная сложность: Статья недостаточно обсуждает методы численных расчётов
Эмпирическая верификация: Отсутствуют крупномасштабные численные эксперименты для проверки теоретических результатов

Направления будущих исследований

Разработка эффективных численных алгоритмов
Исследование более общих классов мер риска
Изучение алгоритмов обучения в чувствительной к риску среде

Глубокая оценка

Преимущества

Теоретическая строгость: Обеспечивает полный математический каркас с безупречными доказательствами
Общность: По сравнению с существующими работами применима к более широкому спектру мер риска и параметров моделей
Инновационность: Метод глобальных граничных функций и связь с распределительно-робастными МПР являются инновационными
Сохранение структуры: Доказывает, что многие структурные свойства классических МПР сохраняются в чувствительном к риску случае

Недостатки

Вычислительный аспект: Отсутствуют конкретные алгоритмы и методы численных расчётов
Практическое применение: Теоретический характер, относительно ограниченные примеры практического применения
Условия предположений: Некоторые технические предположения могут быть сложны для проверки в практических приложениях

Влияние

Теоретический вклад: Обеспечивает прочную теоретическую основу для чувствительных к риску МПР
Методологическая ценность: Метод рекурсивных мер риска может повлиять на направление исследований в смежных областях
Междисциплинарное значение: Связывает исследования в области исследования операций, финансовой математики и теории вероятностей

Области применения

Финансовая инженерия: Оптимизация портфеля, управление рисками
Страховая актуарная математика: Управление резервами, стратегии перестрахования
Управление цепочками поставок: Чувствительное к риску принятие решений в условиях неопределённости
Управление энергией: Чувствительное к риску диспетчеризация и ценообразование электроэнергии

Библиография

Статья цитирует 34 важные работы, охватывающие классические и передовые работы в основных областях теории мер риска, марковских процессов принятия решений и динамического программирования, обеспечивая прочную теоретическую основу для исследования.

Общая оценка: Это высококачественная теоретическая статья, вносящая значительный вклад в область чувствительных к риску марковских процессов принятия решений. Хотя она сосредоточена на теоретическом анализе, она закладывает важную основу для дальнейшего развития этой области.