In this paper, we consider the nonlinear constrained optimization problem (NCP) with constraint set $\{x \in \mathcal{X}: c(x) = 0\}$, where $\mathcal{X}$ is a closed convex subset of $\mathbb{R}^n$. Building upon the forward-backward envelope framework for optimization over $\mathcal{X}$, we propose a forward-backward semi-envelope (FBSE) approach for solving (NCP). In the proposed semi-envelope approach, we eliminate the constraint $x \in \mathcal{X}$ through a specifically designed envelope scheme while preserving the constraint $x \in \mathcal{M} := \{x \in \mathbb{R}^n: c(x) = 0\}$. We establish that the forward-backward semi-envelope for (NCP) is well-defined and locally Lipschitz smooth over a neighborhood of $\mathcal{M}$. Furthermore, we prove that (NCP) and its corresponding forward-backward semi-envelope have the same first-order stationary points within a neighborhood of $\mathcal{X} \cap \mathcal{M}$. Consequently, our proposed forward-backward semi-envelope approach enables direct application of optimization methods over $\mathcal{M}$ while inheriting their convergence properties for (NCP). Additionally, we develop an inexact projected gradient descent method for minimizing the forward-backward semi-envelope over $\mathcal{M}$ and establish its global convergence. Preliminary numerical experiments demonstrate the practical efficiency and potential of our proposed approach.
- ID статьи: 2510.22223
- Название: Partial Envelope for Optimization Problem with Nonconvex Constraints
- Авторы: Xiaoyin Hu, Xin Liu, Kim-Chuan Toh, Nachuan Xiao
- Классификация: math.OC (Математическая оптимизация и управление)
- Дата подачи: 25 октября 2025 г.
- Ссылка на статью: https://arxiv.org/abs/2510.22223v1
В данной работе исследуется задача нелинейной оптимизации с ограничениями (NCP) вида {x∈X:c(x)=0}, где X — замкнутое выпуклое подмножество Rn. На основе прямо-обратной оболочечной схемы на X авторы предлагают метод прямо-обратной частичной оболочки (FBSE). Данный метод устраняет ограничение x∈X посредством специально разработанной оболочечной схемы, сохраняя при этом ограничение x∈M:={x∈Rn:c(x)=0}. Доказано, что FBSE хорошо определена и локально липшицева гладкая в окрестности M, и что NCP и FBSE имеют одинаковые точки первого порядка стационарности в окрестности X∩M. Кроме того, авторы разработали неточный метод проективного градиентного спуска и установили его глобальную сходимость и сложность итераций O(ε−2).
В работе исследуется задача оптимизации с ограничениями следующего вида:
minx∈Rnf(x)+IX(x)при условииx∈M:={x∈Rn:c(x)=0}
где IX(x) — индикаторная функция множества X, а X — компактное выпуклое подмножество с легко вычисляемым оператором проекции. Данная задача эквивалентна минимизации f(x) на множестве {x∈X:c(x)=0}.
Данный класс задач оптимизации охватывает несколько важных моделей оптимизации:
- Оптимизация с равенствами и неравенствами
- Задачи конического программирования (например, полуопределённое программирование)
- Оптимизация на многообразиях
Области применения включают:
- Задачи машинного обучения
- Обработку сигналов
- Проектирование механизмов и другие
Ограничения традиционных оболочечных методов:
- Прямо-обратная оболочка (Forward-Backward Envelope) и оболочка Моро зависят от выпуклости множества ограничений
- При рассмотрении NCP как задачи без ограничений с индикаторной функцией IX∩M оболочечная функция становится негладкой из-за невыпуклости M∩X
- Проекция на X∩M вычислительно дорогостояща, даже если ΠM и ΠX легко вычисляются
Ограничения методов растворения ограничений:
Недавно предложенные методы растворения ограничений (constraint dissolving approach) разделяют ограничения через точную штрафную функцию:
minx∈Xhcdf(x):=f(A(x))+2β∥c(x)∥2
но требуют выбора штрафного параметра β, что на практике является сложной задачей.
Авторы ставят центральный вопрос:
Можно ли разработать оболочечный метод для задач оптимизации с ограничениями вида NCP, который не вводит никаких штрафных параметров?
- Предложение метода прямо-обратной частичной оболочки (FBSE): новая оболочечная схема, которая устраняет только выпуклое ограничение x∈X, сохраняя невыпуклое равенство c(x)=0, без введения штрафных параметров
- Установление теоретической эквивалентности: доказано, что в окрестности X∩M NCP и FBSE имеют одинаковые точки первого порядка стационарности (для достаточно малого параметра оболочки μ)
- Доказательство хороших свойств гладкости: показано, что FBSE хорошо определена в окрестности M, непрерывно дифференцируема, и её градиент локально липшицев непрерывен
- Разработка эффективного алгоритма: предложен неточный метод проективного градиентного спуска, избегающий вычисления членов Гессиана в полном градиенте H(x), с доказанными:
- Глобальной сходимостью
- Сложностью итераций O(ε−2)
- Численная верификация: эксперименты на задачах оптимизации с ограничениями конуса полуопределённости показывают, что метод превосходит существующие решатели по точности и эффективности
Исходная задача (NCP):
minx∈Rnf(x)+IX(x)при условииc(x)=0
Ключевые предположения (Assumption 1.1):
- f:Rn→R дважды дифференцируема на Rn
- c:Rn→Rp дважды дифференцируема с локально липшицевой второй производной
- Условие невырожденности ограничений: для всех x∈K:=X∩M,
∇c(x)⊤lin(TX(x))=Rp
Определяется отображение Q:Rn→S+n×n, удовлетворяющее:
- Q(x) локально липшицева гладкая
- Для всех x∈X, null(Q(x))=range(NX(x))
Отображение растворения ограничений:
A(x)=x−Q(x)∇c(x)(∇c(x)⊤Q(x)∇c(x)+τ(x)Ip)−1c(x)
где τ(x):=Lτ(∥c(x)∥2+dist(x,X)2), Lτ>0 — предустановленный параметр.
Задача FBSE:
minx∈Rnψμ(x)при условииx∈M
где функция частичной оболочки определяется как:
ψμ(x):=minw∈Xf(x)+⟨J(x)∇f(x),w−x⟩+2μ1∥w−x∥2
Ключевое отображение:
J(x):=In−∇c(x)(∇c(x)⊤Q(x)∇c(x)+τ(x)Ip)−1∇c(x)⊤Q(x)
Оптимальное решение:
Tμ(x):=argminw∈Xf(x)+⟨J(x)∇f(x),w−x⟩+2μ1∥w−x∥2=ΠX(x−μJ(x)∇f(x))
Согласно Lemma 3.7, градиент ψμ имеет вид:
∇ψμ(x)=μ1(In−μH(x))(x−Tμ(x))+(In−J(x))∇f(x)
где H(x)=J(x)∇2f(x)+∇J(x)[∇f(x)].
Ключевая инновация: в отличие от традиционных оболочечных методов, обрабатывающих всё множество ограничений X∩M, FBSE использует стратегию "частичной оболочки":
- Устраняет выпуклое ограничение x∈X через оболочечную технику
- Сохраняет невыпуклое равенство c(x)=0
- Избегает вычислительных трудностей проекции на невыпуклое множество
Lemma 3.2: для всех x∈X∩M, J(x)∇c(x)=0
Lemma 3.3: для всех d∈range(NX(x)), J(x)d=d
Эти свойства гарантируют:
- В допустимых точках J(x) проецирует градиент в касательное пространство
- Сохраняется информация о направлениях нормального конуса
Proposition 3.9: если x∈X∩M — точка первого порядка стационарности NCP, то x — точка первого порядка стационарности FBSE.
Theorem 3.10 (основной теоретический результат): для достаточно малого μ≤μmax, если x∈Kρ — точка первого порядка стационарности FBSE, то x — точка первого порядка стационарности NCP.
Ключ доказательства: через доказательство ∥Tμ(x)−x∥=0, в сочетании с положительной определённостью нижней границы ∇c(x)⊤Q(Tμ(x))∇c(x) (≥σQ/4).
Конструкция алгоритма (уравнение 3.20):
gk=μ1(In−∇c(xk)∇c(xk)†)(xk−Tμ(xk))xk+1=ΠM(xk−ηkgk)
Преимущества:
- Использует μ1(x−Tμ(x)) как неточную оценку ∇ψμ
- Избегает вычисления H(x) (содержит Гессиан)
- Проекция на null(∇c(xk)⊤) (касательное пространство M)
Proposition 3.13: свойство достаточного убывания
⟨(In−∇c(x)∇c(x)†)∇ψμ(x),Tμ(x)−x⟩≤−2μ1(8MQMc2+2σQσQ)2∥x−Tμ(x)∥2
Задача оптимизации:
minX∈Sn×n⟨B,X⟩+21⟨X,H(X)⟩+6ν∥X∥F3при условии∥X∥F2=1,X⪰0,∥X∥2≤M
- Тестируемые размеры: n∈{10,20,30,50}
- B∈Sn×n генерируется случайно (стандартное нормальное распределение)
- H:Sn×n→Sn×n — самосопряжённое линейное отображение
- Параметры: ν=1.0, M=106, μ=0.01
Задача оптимизации:
minX∈Rn×n⟨B0,X⟩+21⟨X,H(X)⟩+6ν∥X∥F3при условииB(X)=b,X⪰0,∥X∥2≤M
- Тестируемые размеры: n∈{10,20,30,50}
- B:Sn×n→Rm — линейное отображение
- Параметры: ν=1.0, μ=0.001
- Стационарность: dist(0,∇f(y)+NX(y)+range(∇c(y))), где y=ΠX(x)
- Нарушение допустимости: ∥c(ΠX(x))∥
- Значение целевой функции
- Количество итераций и количество вычислений функции
- Время CPU (в секундах)
- PGD: предложенный в работе метод проективного градиентного спуска (с адаптивным шагом Барзилаи-Борвейна и немонотонным поиском линии)
- TRCON: решатель оптимизации с доверительной областью из SciPy
- SLSQP: последовательное программирование наименьших квадратов из SciPy
- RGD: риманов градиентный спуск из PyManopt
- RCG: риманов сопряжённый градиент из PyManopt
- Среда программирования: Python 3.12.2
- Оборудование: AMD Ryzen 7 5700 CPU, 16 GB RAM
- Допуск: 10−5
- Максимальное время выполнения: 300 секунд
- Оператор проекции (Эксперимент 1):
Q(X):Y↦Φ(X2ΘM(X)2Y)
где Φ(M)=(M+M⊤)/2 — оператор симметризации
| n | Решатель | Значение цели | Итерации | Стационарность | Допустимость | Время CPU(s) |
|---|
| 10 | PGD | -9.446e-01 | 94 | 5.435e-06 | 0.000e+00 | 0.218 |
| TRCON | -9.446e-01 | 86 | 1.525e-05 | 9.864e-11 | 0.483 |
| RGD | -9.663e-01 | 65 | 1.207e-01 | 8.476e-02 | 0.308 |
| 20 | PGD | -1.658e+00 | 94 | 8.917e-06 | 2.220e-16 | 0.231 |
| TRCON | -1.658e+00 | 76 | 4.922e-05 | 1.644e-12 | 0.728 |
| 30 | PGD | -1.847e+00 | 84 | 4.833e-06 | 4.441e-16 | 0.351 |
| TRCON | -1.847e+00 | 65 | 8.923e-05 | 3.127e-11 | 1.299 |
| 50 | PGD | -2.323e+00 | 91 | 5.830e-06 | 2.220e-16 | 1.082 |
| TRCON | -2.323e+00 | 67 | 1.216e-04 | 9.163e-11 | 31.039 |
Ключевые выводы:
- Высокая точность: PGD и TRCON достигают допуска 10−5, значения целей совпадают
- Эффективность: PGD при n=50 работает в 28.7 раз быстрее TRCON (1.082s vs 31.039s)
- Отказ риманова метода: показатели стационарности RGD и RCG на уровне 10−1, далеко от сходимости
- Отказ SLSQP: превышает время ожидания при n≥30
| n | Решатель | Значение цели | Итерации | Стационарность | Допустимость | Время CPU(s) |
|---|
| 10 | PGD | 1.090e+03 | 97 | 3.604e-06 | 8.555e-13 | 0.205 |
| TRCON | 1.090e+03 | 204 | 1.289e-05 | 1.158e-12 | 0.893 |
| 20 | PGD | 3.330e+03 | 274 | 7.954e-06 | 4.433e-13 | 0.811 |
| TRCON | 3.330e+03 | 510 | 3.451e-05 | 1.592e-12 | 6.337 |
| 30 | PGD | 2.936e+04 | 173 | 7.645e-06 | 1.775e-12 | 3.350 |
| TRCON | 2.935e+04 | 349 | 8.346e-05 | 7.227e-11 | 19.249 |
| 50 | PGD | 8.555e+04 | 262 | 6.413e-06 | 5.687e-12 | 7.197 |
| TRCON | - | - | - | - | >300 |
Ключевые выводы:
- Масштабируемость: PGD решает при n=50, когда TRCON превышает время ожидания
- Преимущество в скорости: при n=30 PGD работает в 5.7 раз быстрее TRCON
- Полный отказ SLSQP: все тестовые примеры не сходятся или численно нестабильны
- Верификация эквивалентности: эксперименты подтверждают теоретическую эквивалентность NCP и FBSE в точках первого порядка стационарности (PGD и TRCON получают одинаковые значения целей)
- Эффективность неточного градиента: использование μ1(x−Tμ(x)) как приближённого градиента, избегая вычисления H(x), всё ещё гарантирует сходимость
- Ограничения риманова метода:
- RGD/RCG оптимизируют на сферическом многообразии, но не учитывают PSD ограничение
- Плохие показатели стационарности указывают на неполную сходимость к стационарной точке NCP
- Вызовы универсальных решателей:
- SLSQP чувствителен к невыпуклым ограничениям, численно нестабилен
- TRCON надёжен, но вычислительно дорогостоящ
- Преимущества FBSE:
- Преобразует задачу с невыпуклыми ограничениями в задачу с равенствами
- Сохраняет структуру задачи
- Позволяет разработку эффективных алгоритмов
- Patrinos & Bemporad (2013): первое предложение для выпуклой композитной оптимизации
- Stella et al. (2017): квазиньютоновские методы
- Themelis et al. (2018): алгоритмы с немонотонным поиском линии
- Ограничение: требует выпуклость X, неприменимо к X∩M
- Moreau (1965): классическая техника сглаживания
- Davis & Drusvyatskiy (2019): случайный субградиентный метод для слабо выпуклых функций
- Ограничение: подзадачи обычно не имеют замкнутого решения, практически невычислимы
- Xiao et al. (2025): предложение отображения растворения ограничений A(x) и точной штрафной функции
- Отличие данной работы: FBSE избегает введения штрафного параметра, напрямую обрабатывает равенства
- Последовательное квадратичное программирование (SQP): требует информацию второго порядка
- Увеличенный метод Лагранжа: требует настройку штрафного параметра и множителя Лагранжа
- Преимущество данной работы: требует только информацию первого порядка, простой выбор параметров
- Absil et al. (2008): алгоритмы оптимизации на многообразиях
- Связь с данной работой: когда M — многообразие, FBSE можно рассматривать как частный случай оптимизации на многообразиях
- Расширение данной работы: обработка более общих нелинейных равенств
- Теоретические вклады:
- Установление эквивалентности NCP и FBSE в точках первого порядка стационарности (Theorem 3.10)
- Доказательство липшицевой гладкости ψμ (Lemma 3.7)
- Соотношение между ε-стационарными точками (Theorem 3.12)
- Вклады в алгоритмы:
- Предложение неточного метода проективного градиентного спуска, избегающего вычисления Гессиана
- Доказательство сложности итераций O(ε−2) (Theorem 3.17)
- Экспериментальная верификация эффективности алгоритма
- Методологические вклады:
- Стратегия "частичной оболочки": избирательная обработка ограничений
- Отсутствие штрафного параметра: избегает трудностей настройки параметров
- Модульная конструкция: может комбинироваться с существующими решателями равенств
- Условие невырожденности ограничений (Assumption 1.1(3)): требует ∇c(x)⊤lin(TX(x))=Rp, может не выполняться в некоторых приложениях
- Локальные свойства: эквивалентность справедлива только в окрестности Kρ, где ρ зависит от нескольких констант
- Параметр оболочки μ: требует μ≤μmax, где μmax вычисляется через несколько трудно оцениваемых констант (Таблицы 1-2)
- На практике: статья рекомендует адаптивную оценку или методы Монте-Карло, но не обсуждает подробно
- Зависит от структуры задачи: требует конструкции Q(x), удовлетворяющей Assumption 1.2 для конкретного X
- Таблица 3 охватывает только типичные случаи: для сложных ограничений конструкция Q(x) может быть нетривиальной
- Ограниченные размеры тестов: максимум n=50, большие задачи не тестировались
- Узкий класс задач: тестировались только SDP задачи, другие приложения не проверены
- Теоретические расширения:
- Ослабление условия невырожденности ограничений
- Анализ глобальной сходимости (вместо локальной эквивалентности)
- Исследование свойств сходимости второго порядка
- Улучшения алгоритма:
- Разработка стратегий адаптивного выбора μ
- Комбинирование со второй информацией (например, BFGS) для ускорения
- Проектирование специализированных алгоритмов для конкретных структур
- Расширение приложений:
- Тестирование на большем числе приложений (машинное обучение, обработка сигналов)
- Обработка больших задач
- Расширение на неравенства
- Оболочка Моро (Moreau half-envelope):
- Статья упоминает, но не обсуждает подробно ψM,μ(x):=argminy∈Xf(y)+2μ1∥y−x∥2
- Может быть применима к негладким целевым функциям
- Полная теоретическая схема: от хорошей определённости (Lemma 3.1) к эквивалентности (Theorem 3.10) и сходимости (Theorem 3.17), логика безупречна
- Богатые технические леммы: Lemma 3.2-3.8 обеспечивают прочную основу для основных теорем
- Явные константы: Таблицы 1-2 детально перечисляют все релевантные константы, облегчая теоретический анализ
- Идея частичной оболочки: впервые предложена стратегия избирательной обработки ограничений, преодолевает ограничения традиционных оболочечных методов
- Конструкция без штрафного параметра: в сравнении с методами растворения ограничений избегает трудностей настройки штрафного параметра
- Техника неточного градиента: умело использует μ1(x−Tμ(x)), снижает вычислительную сложность
- Лёгкая реализация: проекции на M и X имеют известные методы
- Численная стабильность: в экспериментах показатели стационарности достигают 10−6
- Вычислительная эффективность: значительное ускорение по сравнению с TRCON (максимум 28.7 раз)
- Логичная структура: от мотивации к теории и экспериментам, иерархия ясна
- Стандартная нотация: Section 2.1 специально определяет символы, избегает путаницы
- Подробные доказательства: ключевые теоремы имеют чёткие шаги доказательства
- Практичность μmax: определение в Таблице 2 включает sup и inf, практическое вычисление затруднено
- Отсутствие глобальных свойств: не обсуждается, как алгоритм входит в окрестность Kρ
- Зависимость от констант: ρ и μmax зависят от нескольких трудно оцениваемых констант, может привести к консервативным оценкам
- Неполное сравнение:
- Не сравнивается со специализированными SDP решателями (SDPT3, MOSEK)
- Не тестируется увеличенный метод Лагранжа
- Недостаточное разнообразие задач: тестировались только SDP задачи, не охватываются другие приложения (оптимизация на многообразиях, машинное обучение)
- Неизвестная масштабируемость: максимум n=50, производительность на больших задачах неизвестна
- Конструкция проективного отображения:
- Таблица 3 предоставляет Q(x) для 4 типичных ограничений
- Для сложных ограничений (например, пересечение нескольких ограничений) конструкция Q(x) может быть сложной
- Ограничения предположений: условие невырожденности ограничений может не выполняться в некоторых задачах
- Выбор размера шага: уравнение (3.22) даёт ηmax, но реальный алгоритм использует шаг Барзилаи-Борвейна, связь не ясна
- Требование начальной точки: алгоритм требует x0∈X∩M, но как получить допустимую начальную точку не обсуждается
- Оболочка Моро: упоминается, но не анализируется подробно, это упущение
- Теоретическое значение:
- Расширяет применимость оболочечных методов (от выпуклых к смешанным ограничениям)
- Предоставляет новый теоретический инструмент (схема частичной оболочки)
- Методологическое значение:
- Вдохновляет идею "избирательной обработки ограничений"
- Предлагает новую перспективу для оптимизации с невыпуклыми ограничениями
- Непосредственное применение: может использоваться для решения SDP, оптимизации на многообразиях и других задач
- Потенциальные приложения: машинное обучение с ограничениями справедливости, ограничения разреженности
- Реализация ПО: команда авторов имеет опыт разработки пакета CDOpt, возможен выпуск инструментария
- Преимущества:
- Описание алгоритма ясно (уравнение 3.20)
- Экспериментальная установка подробна
- Проективные отображения имеют явные формулы (Таблица 3)
- Недостатки:
- Код не опубликован
- Некоторые детали реализации (параметры немонотонного поиска линии) не даны
- Краткосрочные:
- Ослабление теоретических предположений
- Расширение на неравенства
- Больше тестов приложений
- Долгосрочные:
- Развитие общей теории "частичной оболочки"
- Комбинирование с другими техниками оптимизации (ADMM, проксимальные методы)
- Распределённые/стохастические версии
- Структура ограничений:
- X — простое выпуклое множество (проекция легко вычисляется)
- c(x)=0 — гладкое равенство
- Выполняется условие невырожденности ограничений
- Размер задачи: средний (n∼102)
- Требуемая точность: средняя (ε∼10−5)
- Полуопределённое программирование: эксперименты уже проверены
- Оптимизация на многообразиях: например, оптимизация на многообразии Штифеля
- Машинное обучение:
- Обучение нейронных сетей с равенствами
- Классификация с ограничениями справедливости
- Обработка сигналов: задачи восстановления с ограничениями норм
- Доминирующие неравенства: FBSE обрабатывает только равенства
- Сложная проекция на X: если ΠX вычислительно дорога
- Требуемая очень высокая точность: сложность O(ε−2) может быть недостаточна
- Сверхбольшие задачи: проекция и вычисление градиента могут стать узким местом
- Stella et al. (2017): Forward–backward quasi-newton methods for nonsmooth optimization problems. Computational Optimization and Applications
- Расширение прямо-обратной оболочки квазиньютоновскими методами
- Xiao et al. (2023): Dissolving constraints for Riemannian optimization. Mathematics of Operations Research
- Теоретическая основа методов растворения ограничений
- Xiao et al. (2025): An exact penalty approach for equality constrained optimization over a convex set. arXiv preprint
- Предшествующая работа, предложившая отображение растворения ограничений
- Absil et al. (2008): Optimization algorithms on matrix manifolds. Princeton University Press
- Классический учебник по оптимизации на многообразиях
- Rockafellar & Wets (2009): Variational analysis. Springer
- Теоретическая основа вариационного анализа, используется для анализа проекций и нормальных конусов
Общая оценка: это отличная статья с строгой теорией и инновационным методом. Идея "частичной оболочки" предлагает новый взгляд на решение задач оптимизации со смешанными ограничениями, теоретический анализ полон, численные эксперименты предварительно верифицируют эффективность метода. Основные недостатки — практичность теоретических констант, полнота экспериментов и проверка масштабируемости. Данная работа вносит важный вклад в область невыпуклой оптимизации с ограничениями и имеет высокую академическую ценность и прикладной потенциал. Рекомендуется дальнейшая работа по ослаблению теоретических предположений, расширению тестов приложений и обработке больших задач.