2025-11-10T02:55:12.775124

Distributionally Robust Control with End-to-End Statistically Guaranteed Metric Learning

Wu, Ning, Shi

Wasserstein distributionally robust control (DRC) recently emerges as a principled paradigm for handling uncertainty in stochastic dynamical systems. However, it constructs data-driven ambiguity sets via uniform distribution shifts before sequentially incorporating them into downstream control synthesis. This segregation between ambiguity set construction and control objectives inherently introduces a structural misalignment, which undesirably leads to conservative control policies with sub-optimal performance. To address this limitation, we propose a novel end-to-end finite-horizon Wasserstein DRC framework that integrates the learning of anisotropic Wasserstein metrics with downstream control tasks in a closed-loop manner, thus enabling ambiguity sets to be systematically adjusted along performance-critical directions and yielding more effective control policies. This framework is formulated as a bilevel program: the inner level characterizes dynamical system evolution under DRC, while the outer level refines the anisotropic metric leveraging control-performance feedback across a range of initial conditions. To solve this program efficiently, we develop a stochastic augmented Lagrangian algorithm tailored to the bilevel structure. Theoretically, we prove that the learned ambiguity sets preserve statistical finite-sample guarantees under a novel radius adjustment mechanism, and we establish the well-posedness of the bilevel formulation by demonstrating its continuity with respect to the learnable metric. Furthermore, we show that the algorithm converges to stationary points of the outer level problem, which are statistically consistent with the optimal metric at a non-asymptotic convergence rate. Experiments on both numerical and inventory control tasks verify that the proposed framework achieves superior closed-loop performance and robustness compared against state-of-the-art methods.

academic

Распределительно-робастное управление с гарантированным статистически метрическим обучением "конец-в-конец"

Основная информация

ID статьи: 2510.10214
Название: Distributionally Robust Control with End-to-End Statistically Guaranteed Metric Learning
Авторы: Jingyi Wu, Chao Ning, Yang Shi
Классификация: math.OC cs.AI cs.SY eess.SY
Дата публикации: 11 октября 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2510.10214v1

Аннотация

Распределительно-робастное управление (DRC) на основе расстояния Вассерштейна в последнее время привлекает значительное внимание как принципиальная парадигма для обработки неопределённости в стохастических динамических системах. Однако существующие методы строят управляемые множества на основе данных посредством равномерного смещения распределения, а затем последовательно интегрируют их в синтез управления. Такое разделение между построением управляемого множества и целями управления по своей природе вводит структурное рассогласование, приводящее к консервативным стратегиям управления и субоптимальной производительности. Для решения этого ограничения в статье предлагается новая структура распределительно-робастного управления Вассерштейна на конечном горизонте "конец-в-конец", которая интегрирует обучение анизотропной метрике Вассерштейна с задачей управления в замкнутом цикле, позволяя управляемому множеству систематически адаптироваться вдоль критических по производительности направлений, обеспечивая более эффективные стратегии управления.

Исследовательский контекст и мотивация

Постановка проблемы

Стохастическое управление широко применяется в робототехнике, энергетических системах и финансах для принятия решений в условиях неопределённости. Классическая теория предполагает полное знание вероятностного распределения неопределённости управления, однако на практике такое распределение редко доступно, и контроллер должен быть разработан на основе приблизительной информации, выведенной из ограниченных данных. Эта неполнота приближения приводит к расхождению между оценённым и истинным распределениями, что значительно снижает производительность управления.

Ограничения существующих методов

Консервативность традиционного DRC Вассерштейна: Существующие методы используют изотропные шары Вассерштейна, рассматривая смещения распределения во всех направлениях как одинаково важные, игнорируя их неоднородное влияние на производительность управления
Структурное рассогласование последовательной обработки: Разделение между построением управляемого множества и синтезом управления приводит к проектированию управляемого множества, независимому от задачи, что порождает чрезмерно консервативные стратегии управления
Ограничения обобщения в управлении "конец-в-конец": Существующие методы управления "конец-в-конец" обычно обучаются на одном начальном условии, что приводит к переобучению и ограничивает практическую применимость

Исследовательская мотивация

Данная работа направлена на преодоление разделения между проектированием управляемого множества и производительностью управления путём интеграции DRC на основе Вассерштейна с обучением "конец-в-конец", адаптируя метрику Вассерштейна на основе обратной связи производительности управления при сохранении статистических гарантий на конечной выборке.

Основные вклады

Первая структура DRC Вассерштейна "конец-в-конец": Предложена первая структура, которая посредством двухуровневой оптимизации связывает проектирование управляемого множества и управление в режиме обратной связи с обобщением на разнообразные начальные условия
Анизотропное управляемое множество Вассерштейна, ориентированное на задачу управления: Предложен механизм адаптации радиуса с теоретически установленными статистическими гарантиями на конечной выборке
Строгое теоретическое обоснование: Доказана непрерывность анизотропной метрики, установлена сходимость алгоритма, выведена неасимптотическая статистическая согласованность изученной метрики

Подробное описание метода

Определение задачи

Рассмотрим линейную систему с аддитивным возмущением: $x_{t+1} = Ax_t + Bu_t + w_t$

где $x_t \in \mathbb{R}^{n_x}$ , $u_t \in \mathbb{R}^{n_u}$ , $w_t \in \mathbb{R}^{n_x}$ — состояние системы, управляющее воздействие и неопределённое возмущение соответственно. Система подчинена ограничениям: $F_x^T x_t + F_u^T u_t + f \leq 0$

Архитектура модели

1. Анизотропное управляемое множество Вассерштейна

Определим анизотропное расстояние Вассерштейна: $d_W^{\Lambda}(P,Q) = \left(\inf_{\pi \in \mathcal{P}(\mathcal{Z}^2)} \mathbb{E}_{(\tilde{z},z)\sim\pi}[\|\tilde{z}-z\|_{\Lambda}^p]\right)^{1/p}$

где $\|\cdot\|_{\Lambda} := \|\Lambda\cdot\|$ — взвешенная норма, индуцированная положительно определённой матрицей $\Lambda$ .

На этой основе построим анизотропное управляемое множество: $\mathcal{B}_{\varepsilon(\Lambda)}^{\Lambda}(\hat{P}_N) := \{P : d_W^{\Lambda}(P, \hat{P}_N) \leq \varepsilon(\Lambda)\}$

2. Двухуровневая структура оптимизации

Внутренняя задача: Решение задачи DRC при заданной матрице метрики $\Lambda$ : $\min_{v,M} \sup_{Q \in \mathcal{B}_{\varepsilon(\Lambda)}^{\Lambda}(\hat{P}_N)} \mathbb{E}_{w\sim Q}[h(y,z)]$

Внешняя задача: Обучение оптимальной матрице метрики: $\min_{\Lambda \in \mathcal{A}} \mathbb{E}_{x_0,w}\left[\max_{1\leq j \leq n_j} \tilde{a}_j^T \begin{bmatrix} x_1 \\ \vdots \\ x_L \end{bmatrix} + \tilde{b}_j^T \begin{bmatrix} x_0 \\ u_0 \\ \vdots \\ u_{L-1} \end{bmatrix} + \tilde{c}_j\right]$

3. Алгоритм решения

Разработан стохастический расширенный алгоритм Лагранжа, включающий:

Внешний уровень: Защищённое обновление двойственных переменных и параметров штрафа
Внутренний уровень: Оценка консервативной матрицы Якобиана на основе мини-выборок

Технические инновации

Геометрически-осведомлённая адаптация радиуса: Предложен механизм адаптации $\varepsilon(\Lambda) = \sigma_{\max}(\Lambda)\varepsilon$ , обеспечивающий статистические гарантии
Вычисление консервативной матрицы Якобиана: Обработка негладких задач оптимизации посредством теории дифференцируемости по путям
Обучение на множественных начальных условиях: Предотвращение переобучения и повышение способности к обобщению

Экспериментальная установка

Сценарии экспериментов

1. Численные эксперименты

Динамика системы: $x^+ = \begin{bmatrix} 0.95 & -0.02 \\ 0 & 0.2 \end{bmatrix}x + \begin{bmatrix} 0.5 \\ -0.01 \end{bmatrix}u + w$
Ограничения: $x_1 \leq 20, x_2 \geq -3.2$
Распределение возмущений: $w \sim \mathcal{N}(0, 2I_2)$
Область начальных состояний: $X_0 := \{x_0 \in \mathbb{R}^2 : [12, 12] \leq x_0 \leq [16, 16]\}$

2. Управление запасами

Временной горизонт: $T = 5$
Коэффициенты стоимости: $c_1 = 10, c_2 = 50, c_B = 5, c_H = 80$
Распределение спроса: Усечённое нормальное распределение $\mathcal{N}(5,3)$ с носителем на $[1,10]$
Начальные запасы: $X_0 = [1,5]$

Метрики оценки

Средняя стоимость в замкнутом цикле
Частота нарушения ограничений
Робастность распределения стоимости

Методы сравнения

W-DRC: Традиционное распределительно-робастное управление Вассерштейна
E2E-Pointwise-DRC: Вариант обучения "конец-в-конец" с фиксированным начальным состоянием
E2E-Regionwise-DRC: Предложенный в работе метод

Результаты экспериментов

Основные результаты

Численные эксперименты

Метод	Средняя стоимость	Частота нарушения ограничений
W-DRC	862.8	8%
E2E-Pointwise-DRC	84.87	7.8%
E2E-Regionwise-DRC	46.24	7.8%

Предложенный метод снижает стоимость на 90.2% по сравнению с традиционным методом и на 45.5% по сравнению с базовым методом обучения.

Управление запасами

Метод	Средняя стоимость
W-DRC	808.48
E2E-Pointwise-DRC	549.75
E2E-Regionwise-DRC	397.90

Предложенный метод снижает стоимость на 50.8% по сравнению с традиционным методом и на 27.6% по сравнению с базовым методом обучения.

Экспериментальные выводы

Последовательное превосходство: Предложенный метод достигает минимальной стоимости при всех начальных состояниях
Способность к обобщению: Обучение на множественных начальных условиях значительно улучшает способность к обобщению на невидимые начальные состояния
Сохранение безопасности: Все методы поддерживают частоту нарушения ограничений ниже 10%, что соответствует требованиям безопасности

Теоретический анализ

Статистические гарантии

Теорема 1: При предположении о лёгких хвостах анизотропное управляемое множество Вассерштейна удовлетворяет тем же гарантиям на конечной выборке: $\mathbb{P}^N\{P \in \mathcal{B}_{\varepsilon(\Lambda)}^{\Lambda}(\hat{P}_N)\} \geq \begin{cases} 1-c_1\exp(-c_2N\varepsilon^{\max\{m,2\}}), & \varepsilon \leq 1 \\ 1-c_1\exp(-c_2N\varepsilon^a), & \varepsilon > 1 \end{cases}$

Анализ сходимости

Теорема 6: При надлежащих предположениях алгоритм сходится к точке стационарности Кларка внешней задачи, удовлетворяя обобщённым условиям KKT.

Теорема 8: Установлена экспоненциальная скорость сходимости: $\text{Prob}\{d(\tau_N, \Phi^*) \geq \epsilon\} \leq c(\epsilon)e^{-\beta(\epsilon)N}$

Связанные работы

Распределительно-робастное управление

Методы DRC на основе информации о моментах
Развитие DRC Вассерштейна и его приложения в предсказательном управлении моделью и обучении с подкреплением

Управление "конец-в-конец"

Номинальные методы управления "конец-в-конец"
Механизмы безопасности в робастном управлении "конец-в-конец"

Данная работа впервые объединяет DRC Вассерштейна с обучением "конец-в-конец", заполняя пробел в этой междисциплинарной области.

Заключение и обсуждение

Основные выводы

Успешно предложена первая структура DRC Вассерштейна "конец-в-конец"
Теоретически обоснована статистическая эффективность анизотропного управляемого множества
Экспериментально подтверждена превосходная производительность на различных задачах управления

Ограничения

Текущая структура ограничена линейными системами
Вычислительная сложность алгоритма относительно высока
Требуется достаточное количество обучающих данных для обеспечения статистических свойств

Направления будущих исследований

Расширение на нелинейные системы
Разработка более эффективных алгоритмов решения
Исследование механизмов онлайн-обучения и адаптивного обновления

Глубокая оценка

Преимущества

Теоретическая строгость: Предоставлен полный теоретический анализ, включая статистические гарантии, непрерывность и сходимость
Методологическая инновативность: Впервые объединены обучение "конец-в-конец" и DRC Вассерштейна
Достаточность экспериментов: Эффективность подтверждена на численных и практических задачах управления
Практическая ценность: Значительное улучшение производительности управления при сохранении ограничений безопасности

Недостатки

Вычислительная сложность: Двухуровневая структура оптимизации увеличивает вычислительную нагрузку
Область применения: В настоящее время применимо только к линейным системам
Чувствительность к параметрам: Производительность алгоритма может быть чувствительна к гиперпараметрам

Влияние

Данная работа открывает новое направление в области распределительно-робастного управления и окажет значительное влияние на кросс-дисциплинарные исследования в теории управления и машинном обучении. Идея обучения "конец-в-конец" может быть обобщена на другие задачи робастного управления.

Сценарии применения

Линейные системы управления с неопределённостью
Приложения, требующие сохранения производительности при различных условиях эксплуатации
Задачи управления с высокими требованиями к безопасности

Библиография

Статья ссылается на 45 соответствующих работ, охватывающих распределительно-робастную оптимизацию, предсказательное управление моделью, обучение с подкреплением и другие важные области, обеспечивая прочную теоретическую базу для исследования.