2025-11-15T06:37:11.889364

Minimizing Spectral Risk Measures Applied to Markov Decision Processes

BÃ¤uerle, Glauner

We study the minimization of a spectral risk measure of the total discounted cost generated by a Markov Decision Process (MDP) over a finite or infinite planning horizon. The MDP is assumed to have Borel state and action spaces and the cost function may be unbounded above. The optimization problem is split into two minimization problems using an infimum representation for spectral risk measures. We show that the inner minimization problem can be solved as an ordinary MDP on an extended state space and give sufficient conditions under which an optimal policy exists. Regarding the infinite dimensional outer minimization problem, we prove the existence of a solution and derive an algorithm for its numerical approximation. Our results include the findings in BÃ¤uerle and Ott (2011) in the special case that the risk measure is Expected Shortfall. As an application, we present a dynamic extension of the classical static optimal reinsurance problem, where an insurance company minimizes its cost of capital.

academic

Минимизация спектральных мер риска, применённых к марковским процессам принятия решений

Основная информация

ID статьи: 2012.04521
Название: Minimizing Spectral Risk Measures Applied to Markov Decision Processes
Авторы: Nicole Bäuerle, Alexander Glauner
Классификация: math.OC (Оптимизация и управление), q-fin.RM (Количественные финансы - управление рисками)
Дата публикации: 8 декабря 2020 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2012.04521

Аннотация

В данной работе исследуется минимизация спектральных мер риска общего дисконтированного стоимости, порождаемой марковскими процессами принятия решений (MDP) с конечным или бесконечным горизонтом планирования. MDP предполагает наличие борелевских пространств состояний и действий, при этом функция стоимости может быть неограниченной сверху. Используя инфимальное представление спектральных мер риска, авторы разлагают задачу оптимизации на две подзадачи минимизации. Доказано, что внутреннюю задачу минимизации можно решить как обычный MDP на расширенном пространстве состояний, и приведены достаточные условия существования оптимальной политики. Для бесконечномерной внешней задачи минимизации доказано существование решения и выведены численные алгоритмы аппроксимации. Когда мера риска является условной стоимостью под риском (Expected Shortfall), результаты включают выводы Bäuerle и Ott (2011). В качестве приложения предложено динамическое расширение классической задачи оптимального перестрахования.

Исследовательский контекст и мотивация

Постановка проблемы

Традиционные марковские процессы принятия решений обычно используют критерий математического ожидания для оптимизации, что моделирует нейтральное к риску принятие решений. Однако в практических приложениях лица, принимающие решения, часто чувствительны к риску и должны учитывать неопределённость и факторы риска.

Исследовательская мотивация

Потребность в учёте риска: Традиционный критерий математического ожидания может привести к оптимальным политикам с высоким риском, что не соответствует предпочтениям реальных лиц, принимающих решения
Теоретический пробел: Существующая литература в основном сосредоточена на рекурсивных мерах риска или конкретных мерах риска (таких как условная стоимость под риском), отсутствует систематическое исследование общих спектральных мер риска
Практические приложения: Страховой и финансовый секторы требуют более тонких инструментов управления рисками

Ограничения существующих методов

Методы рекурсивных мер риска и методы общей стоимости существенно отличаются в теории
Существующие исследования в основном ограничены ограниченными функциями стоимости или конкретными предположениями об интегрируемости
Отсутствует обработка общих борелевских пространств состояний и действий

Основные вклады

Расширение теоретической базы: Расширение оптимизации спектральных мер риска от условной стоимости под риском к общему классу спектральных мер риска
Метод расширения пространства состояний: Предложена техника расширения пространства состояний для обработки нелинейных мер риска
Теория существования: Доказано существование оптимальных решений внутренней и внешней задач оптимизации
Численные алгоритмы: Разработаны конечномерные аппроксимационные алгоритмы для бесконечномерной внешней задачи оптимизации
Практические приложения: Предложена новая структура для динамической задачи оптимального перестрахования

Подробное описание методов

Определение задачи

Дан MDP $(E, A, D_n, T_n, c_n, Z_n)$ , где:

$E$ : борелевское пространство состояний
$A$ : борелевское пространство действий
$D_n$ : допустимые комбинации состояние-действие
$T_n$ : функция переходов
$c_n$ : функция стоимости одного этапа
$Z_n$ : случайные возмущения

Цель состоит в минимизации спектральной меры риска: $\inf_{\pi \in \Pi} \rho_\phi(C^{\pi x}_N)$

где $C^{\pi x}_N = \sum_{k=0}^{N-1} \beta^k c_k(X^\pi_k, d_k(H^\pi_k), X^\pi_{k+1}) + \beta^N c_N(X^\pi_N)$

Архитектура модели

1. Разложение задачи

Используя инфимальное представление спектральной меры риска (Предложение 2.6): $\rho_\phi(X) = \inf_{g \in G} \left\{ E[g(X)] + \int_0^1 g^*(φ(u)) du \right\}$

Исходная задача разлагается на:

Внутренняя задача: $\inf_{\pi \in \Pi} E[g(C^{\pi x})]$ (при фиксированном $g$ )
Внешняя задача: $\inf_{g \in G} \left\{ \inf_{\pi \in \Pi} E[g(C^{\pi x})] + \int_0^1 g^*(φ(u)) du \right\}$

2. Расширение пространства состояний

Исходное пространство состояний $E$ расширяется до $\hat{E} = E \times \mathbb{R}_+ \times (0,∞)$ :

$(x, s, t)$ : $x$ — исходное состояние, $s$ — накопленная стоимость, $t$ — коэффициент дисконтирования

Функция переходов становится: $\hat{T}_n(x, s, t, a, z) = \begin{pmatrix} T_n(x, a, z) \\ s + tc_n(x, a, T_n(x, a, z)) \\ βt \end{pmatrix}$

3. Уравнение Беллмана

На расширенном пространстве состояний функция стоимости удовлетворяет: $J_N(x, s, t) = g(s + tc_N(x))$ $J_n(x, s, t) = T_nJ_{n+1}(x, s, t) = \inf_{a \in D_n(x)} E[J_{n+1}(\hat{T}_n(x, s, t, a, Z_{n+1}))]$

Технические инновации

Обработка нелинейной стоимости: Преобразование нелинейной оптимизации в линейный MDP через расширение пространства состояний
Общие спектральные меры риска: Единообразная обработка всех спектральных мер риска, а не только условной стоимости под риском
Ослабление условий предположений: Требуется только нижняя ограниченность функции стоимости, без необходимости в верхней границе или условиях интегрируемости
Монотонные модели: Использование полунепрерывности вместо непрерывности на вещественном пространстве состояний

Экспериментальная установка

Теоретическая верификация

Статья в основном является теоретической работой, проверяющей эффективность методов посредством строгих математических доказательств:

Доказательства существования: Доказательство существования оптимальных решений внутренней и внешней задач
Анализ сходимости: Доказательство сходимости алгоритма конечномерной аппроксимации
Границы ошибок: Предоставление верхних границ ошибок численной аппроксимации

Верификация численного алгоритма

Кусочно-линейная аппроксимация: Аппроксимация функций $g \in G$ кусочно-линейными функциями
Граница ошибки: $\left|\inf_{g \in \hat{G}} K_m(g) - \inf_{g \in \hat{G}} K(g)\right| \leq 2φ(1)\frac{\hat{c}}{m-1}$

Результаты экспериментов

Основные теоретические результаты

1. Внутренняя задача (Теоремы 4.4, 5.1)

Доказано существование оптимальной марковской политики на расширенном пространстве состояний
Установлено уравнение Беллмана для функции стоимости
Обеспечена единообразная обработка случаев конечного и бесконечного горизонтов

2. Внешняя задача (Теорема 7.5)

Доказано существование решения внешней задачи оптимизации
Установлена компактность функционального пространства $(G, m)$
Доказана полунепрерывность снизу функции стоимости относительно $g$

3. Численная аппроксимация (Предложение 8.3)

Предоставлены границы ошибок конечномерной аппроксимации
Скорость сходимости составляет $O(1/m)$ , где $m$ — число сегментов

Прикладной пример: динамическое перестрахование

В задаче динамического оптимального перестрахования:

Установка модели: Динамика прибыли страховой компании $X_{n+1} = X_n + Z_{n+1} - f_n(Y_{n+1}) - π_R(f_n)$
Цель: Минимизация стоимости капитала $\inf_\pi r_{CoC} \cdot \rho_φ(\sum_{k=0}^{N-1} β^k(d_k(H^\pi_k)(Y_{k+1}) + π_R(d_k(H^\pi_k)) - Z_{k+1}))$
Структурные свойства: При предположениях выпуклости доказана оптимальность контрактов стоп-лосс перестрахования

Связанные работы

Литература по чувствительным к риску MDP

Рекурсивные методы: Ruszczyński (2010), Chu and Zhang (2014)
Методы общей стоимости: Bäuerle and Ott (2011), Chow et al. (2015)
Численные методы: Chow and Ghavamzadeh (2014), Tamar et al. (2015)

Преимущества данной работы

Единообразная обработка общих спектральных мер риска
Ослабление условий предположений модели
Предоставление полной теоретической базы и численных алгоритмов

Заключение и обсуждение

Основные выводы

Успешное разложение задачи оптимизации спектральных мер риска на обрабатываемые внутренние и внешние подзадачи
Доказательство существования оптимальной политики при более слабых предположениях
Разработка практических алгоритмов численной аппроксимации
Демонстрация практической ценности метода в динамическом перестраховании

Ограничения

Вычислительная сложность: Внешняя оптимизация остаётся бесконечномерной задачей с высокой вычислительной стоимостью
Ограничения предположений: Требуется структура борелевского пространства и конкретные предположения о непрерывности/монотонности
Численная точность: Кусочно-линейная аппроксимация может быть недостаточно точной в некоторых случаях

Направления будущих исследований

Разработка более эффективных численных алгоритмов
Расширение на более общие классы мер риска
Исследование методов аппроксимации для больших пространств состояний
Изучение дополнительных практических приложений

Глубокая оценка

Преимущества

Теоретическая строгость: Полные математические доказательства с ясной логикой
Методологическая инновативность: Техника расширения пространства состояний остроумна, разложение задачи естественно
Высокая универсальность: Единообразная обработка широкого класса спектральных мер риска
Практическая ценность: Предоставление реализуемых численных алгоритмов и практических приложений

Недостатки

Вычислительная сложность: Вычислительная сложность внешней оптимизации остаётся высокой
Экспериментальная верификация: Отсутствие крупномасштабных численных экспериментов для проверки производительности алгоритма
Сравнительный анализ: Недостаточно подробного сравнения производительности с существующими методами

Влияние

Теоретический вклад: Предоставление новой теоретической базы для чувствительных к риску MDP
Методологическая ценность: Техника расширения пространства состояний может быть обобщена на другие задачи нелинейной оптимизации
Перспективы применения: Значительная практическая ценность в области управления финансовыми рисками

Сценарии применения

Оптимизация финансовых портфелей
Проектирование страховых продуктов
Управление рисками в цепях поставок
Планирование энергетических систем
Любые задачи последовательного принятия решений, требующие учёта предпочтений по риску

Библиография

Данная работа в основном опирается на следующую важную литературу:

Bäuerle, N. and Ott, J. (2011). Markov decision processes with Average-Value-at-Risk criteria
Rockafellar, R. T. and Uryasev, S. (2000). Optimization of Conditional Value-at-Risk
Pichler, A. (2015). Premiums and reserves, adjusted by distortions
McNeil, A. J., Frey, R., and Embrechts, P. (2015). Quantitative Risk Management

Общая оценка: Это высококачественная теоретическая работа, внёсшая значительный вклад в область чувствительных к риску марковских процессов принятия решений. Статья отличается теоретической строгостью, методологической инновативностью и предоставляет ценные инструменты для практического управления рисками. Несмотря на некоторые недостатки в численных экспериментах, её теоретическая ценность и методологический вклад делают её важным источником в данной области.