2025-11-22T15:28:16.372787

An Augmented Lagrangian Value Function Method for Lower-level Constrained Stochastic Bilevel Optimization

Nie, Li, Wen
Recently, lower-level constrained bilevel optimization has attracted increasing attention. However, existing methods mostly focus on either deterministic cases or problems with linear constraints. The main challenge in stochastic cases with general constraints is the bias and variance of the hyper-gradient, arising from the inexact solution of the lower-level problem. In this paper, we propose a novel stochastic augmented Lagrangian value function method for solving stochastic bilevel optimization problems with nonlinear lower-level constraints. Our approach reformulates the original bilevel problem using an augmented Lagrangian-based value function and then applies a penalized stochastic gradient method that carefully manages the noise from stochastic oracles. We establish an equivalence between the stochastic single-level reformulation and the original constrained bilevel problem and provide a non-asymptotic rate of convergence for the proposed method. The rate is further enhanced by employing variance reduction techniques. Extensive experiments on synthetic problems and real-world applications demonstrate the effectiveness of our approach.
academic

Метод увеличенной функции Лагранжа для стохастической двухуровневой оптимизации с ограничениями нижнего уровня

Основная информация

  • ID статьи: 2509.24249
  • Название: An Augmented Lagrangian Value Function Method for Lower-level Constrained Stochastic Bilevel Optimization
  • Авторы: Hantao Nie (Пекинский университет), Jiaxiang Li (Университет Миннесоты), Zaiwen Wen (Пекинский университет)
  • Классификация: math.OC (математическая оптимизация и управление)
  • Дата публикации: январь 2025 г. (препринт arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2509.24249v2

Аннотация

В данной работе предлагается новый метод стохастической увеличенной функции Лагранжа для решения задач стохастической двухуровневой оптимизации с нелинейными ограничениями нижнего уровня. Метод переформулирует исходную двухуровневую задачу через увеличенную функцию Лагранжа и применяет штрафной метод стохастического градиента для тщательного управления шумом от стохастического оракула. Авторы устанавливают эквивалентность между стохастической одноуровневой переформулировкой и исходной ограниченной двухуровневой задачей, предоставляют анализ неасимптотической скорости сходимости. Скорость сходимости дополнительно улучшена с помощью техники редукции дисперсии. Обширные эксперименты на синтетических задачах и реальных приложениях подтверждают эффективность предложенного метода.

Исследовательский контекст и мотивация

  1. Проблемный контекст: Двухуровневая оптимизация с ограничениями нижнего уровня (LC-BLO) широко применяется в машинном обучении, включая оптимизацию гиперпараметров, метаобучение, обучение с подкреплением и другие области. Такие задачи имеют иерархическую структуру, где решение верхнего уровня зависит от оптимального решения ограниченной задачи оптимизации нижнего уровня.
  2. Ограничения существующих методов:
    • Большинство существующих методов сосредоточены только на детерминированном случае или задачах с линейными ограничениями
    • Отсутствуют эффективные решения для нелинейных ограниченных задач в стохастическом случае
    • Основные вызовы связаны с смещением гиперградиента и дисперсией, вызванными неточным решением задачи нижнего уровня
  3. Технические вызовы:
    • Негладкость гиперцелевой функции
    • Смещение гиперградиента из-за неточного решения задачи нижнего уровня
    • Управление шумом от стохастического оракула
  4. Исследовательская мотивация: Заполнить пробел в теории и алгоритмах для стохастической нелинейной ограниченной двухуровневой оптимизации, предоставить теоретически обоснованные эффективные алгоритмы для практических приложений машинного обучения.

Основные вклады

  1. Новый метод переформулировки: Предложена переформулировка двухуровневой задачи на основе стохастической увеличенной функции Лагранжа и её оболочки Моро, эффективно обрабатывающая шум от неточного решения задачи нижнего уровня
  2. Теоретическая эквивалентность: Установлена эквивалентность между стохастической одноуровневой переформулировкой и исходной двухуровневой задачей, обеспечивающая практичный и теоретически обоснованный метод
  3. Первый анализ сходимости: Предоставлен первый анализ сходимости для метода функции стоимости нелинейной LC-BLO в стохастическом случае, доказаны сложности выборки Õ(cε⁻²), Õ(cc₁²ε⁻²)
  4. Улучшение редукции дисперсии: Применение техники редукции дисперсии улучшает сложность выборки для переменных верхнего уровня до Õ(c^1.5ε⁻^1.5)

Детальное описание метода

Определение задачи

Рассмотрим задачу стохастической двухуровневой оптимизации с ограничениями нижнего уровня:

Задача нижнего уровня:

min_{y∈Y} G(x,y) = E_{ξ~D_ξ}[g(x,y;ξ)]
s.t. H_i(x,y) ≤ 0, i = 1,...,p

Задача верхнего уровня:

min_{x∈X} F(x,y*(x)) = E_{ζ~D_ζ}[f(x,y*(x);ζ)]
s.t. y*(x) ∈ arg min_{y∈Y(x)} G(x,y)

где Y(x) := {y ∈ Y | H(x,y) ≤ 0} — допустимое множество нижнего уровня.

Архитектура модели

1. Переформулировка через увеличенную функцию Лагранжа

Введём штрафной член увеличенной функции Лагранжа:

A_{γ₁}(x,y,z) = (1/2γ₁)∑ᵢ[γ₁zᵢ + Hᵢ(x,y)]²₊

Определим увеличенную функцию Лагранжа:

L_{γ₁}(x,y,z) = G(x,y) + A_{γ₁}(x,y,z)

2. Оболочка Моро функции стоимости

Построим двойственную функцию и её оболочку Моро:

D_{γ₁}(x,z) = min_{y∈Y} L_{γ₁}(x,y,z)
E^{γ₂}_{γ₁}(x,z) = max_{λ∈ℝ^p₊} {D_{γ₁}(x,λ) - (γ₂/2)||λ-z||²}

3. Одноуровневая переформулировка

Переформулируем исходную двухуровневую задачу как:

min_{(x,y,z)∈X×Y×ℝ^p₊} F(x,y)
s.t. Ĝ(x,y,z;ξ) ≤ ε₁, (1/2)∑ᵢ[Hᵢ(x,y)]²₊ ≤ ε₂²

где Ĝ(x,y,z;ξ) = G(x,y) - ℓ_γ(x,z,ŵ(ξ),λ̂(ξ)).

4. Штрафной метод

Применим переформулировку через увеличенную функцию Лагранжа:

min_{(x,y,z)∈X×Y×Z} E_ξ[Ψ(x,y,z;ξ)]

где Ψ(x,y,z;ξ) := F(x,y) + c₁Ĝ(x,y,z;ξ) + (c₂/2)∑ᵢHᵢ(x,y)²₊

Технические инновации

  1. Двойная циклическая структура алгоритма:
    • Внутренний цикл: использование стохастического метода увеличенной функции Лагранжа (SALM) для решения подзадач
    • Внешний цикл: применение стохастического градиентного спуска к переформулированной задаче
  2. Механизм контроля смещения: Управление точностью решения нижнего уровня для смягчения проблемы смещённого градиента
  3. Техника редукции дисперсии: Применение правил обновления, подобных STORM, для снижения сложности выборки переменных верхнего уровня

Экспериментальная установка

Наборы данных

  1. Синтетические задачи: Тестовые примеры из Jiang et al. (2012) с добавленным гауссовским шумом σ = 0.1
  2. Оптимизация гиперпараметров SVM: На наборах данных Diabetes и Fourclass
  3. Настройка коэффициента затухания: Оптимизация параметра затухания веса нейронной сети с двумя слоями на наборе данных digit

Метрики оценки

  • Точность на тестовом наборе
  • Время сходимости
  • Количество итераций
  • Значение целевой функции

Сравниваемые методы

  • LV-HBA: Метод на основе функции стоимости Лагранжа
  • GAM: Метод увеличенного градиента
  • BLOCC: Метод управления ограничениями двухуровневой оптимизации
  • SALVF: Предложенный базовый метод
  • SALVF-VR: Предложенный метод с редукцией дисперсии

Детали реализации

  • Размер шага внутреннего цикла: ηⱼ = η/(j+1), ρⱼ = ρ/(j+1)
  • Размер шага внешнего цикла: αₖ = α < 1/(2L_Ψ)
  • Размеры выборок: rₖ = r, qₖ = q, sₖ = s (константы)
  • Штрафные параметры: c₁, c₂ выбираются согласно теоретическому анализу

Результаты экспериментов

Основные результаты

  1. Синтетические задачи: Оба метода SALVF и SALVF-VR сходятся к окрестности глобального оптимума, распределение SALVF-VR более сконцентрировано, что подтверждает эффект ускорения редукции дисперсии
  2. Оптимизация гиперпараметров SVM:
    • SALVF превосходит все базовые методы по точности на тестовом наборе
    • Хотя BLOCC также достигает сравнимой пиковой точности, SALVF более эффективен по времени итерации
    • На наборе данных Diabetes достигается примерно 80% точности на тестовом наборе, на наборе Fourclass — примерно 75%
  3. Настройка коэффициента затухания:
    • Все методы двухуровневой оптимизации превосходят базовый метод без затухания, эффективно снижая переобучение
    • SALVF оптимален по временной эффективности благодаря простоте двойной циклической структуры итераций

Теоретические результаты

  1. Сложность выборки:
    • SALVF: (Õ(cε⁻²), Õ(cc₁²ε⁻²))
    • SALVF-VR: (Õ(c^1.5ε⁻^1.5), Õ(c^1.5c₁²ε⁻^2.5))
  2. Скорость сходимости:
    • SALVF: Õ(cε⁻¹) сложность итераций
    • SALVF-VR: Õ(c^1.5ε⁻^1.5) сложность итераций

Экспериментальные находки

  1. Эффективность редукции дисперсии: SALVF-VR показывает значительное улучшение в концентрации распределения и скорости сходимости по сравнению с SALVF
  2. Преимущество временной эффективности: Двойная циклическая структура имеет явное вычислительное преимущество перед трёхциклическими методами (например, BLOCC)
  3. Проверка практичности: Превосходная производительность на реальных задачах машинного обучения подтверждает практическую ценность метода

Связанные работы

Основные направления исследований

  1. Методы неявного градиента (IG): Сосредоточены на вычислении гиперградиента, но требуют вторых производных, что дорого вычислительно
  2. Методы функции стоимости нижнего уровня (LLVF): Вводят функцию стоимости задачи нижнего уровня как альтернативу без гессиана
  3. Штрафные методы: Преобразуют ограниченные задачи в неограниченные для решения

Преимущества данной работы

  1. Первый анализ для стохастического нелинейного ограниченного случая: Существующие работы сосредоточены на детерминированном или линейно ограниченном случаях
  2. Теоретические гарантии: Предоставляется анализ неасимптотической скорости сходимости
  3. Практичность: Не требует вычисления гессиана, подходит для крупномасштабных задач

Заключение и обсуждение

Основные выводы

  1. Успешно решена важная, но недостаточно изученная задача стохастической нелинейной ограниченной двухуровневой оптимизации
  2. Предложенный метод увеличенной функции Лагранжа показывает превосходные результаты как в теории, так и на практике
  3. Техника редукции дисперсии эффективно улучшает производительность алгоритма

Ограничения

  1. Зависимость сложности выборки: Сложность выборки для переменных нижнего уровня остаётся высокой (O(c₁²ε⁻¹))
  2. Выбор параметров: Выбор штрафных параметров c₁, c₂ зависит от параметров задачи и может требовать настройки
  3. Предположение о сильной выпуклости: Задача нижнего уровня должна удовлетворять предположению о сильной выпуклости

Направления будущих исследований

  1. Улучшение сложности выборки: Исследование возможности одновременного снижения сложности выборки для переменных верхнего и нижнего уровней
  2. Адаптивный выбор параметров: Разработка стратегий адаптивного выбора штрафных параметров
  3. Расширение на невыпуклый случай: Распространение метода на случай невыпуклой задачи нижнего уровня

Глубокая оценка

Достоинства

  1. Значительный теоретический вклад: Впервые предоставлен полный теоретический анализ для стохастической нелинейной ограниченной двухуровневой оптимизации
  2. Искусный дизайн метода: Переформулировка через увеличенную функцию Лагранжа сохраняет эквивалентность задачи и улучшает свойства алгоритма
  3. Полные эксперименты: Всесторонняя проверка от синтетических задач до реальных приложений
  4. Ясное изложение: Строгие математические выводы и чёткое изложение

Недостатки

  1. Вычислительная сложность: Двойная циклическая структура всё ещё приводит к высокой вычислительной стоимости
  2. Условия предположений: Требуются несколько технических предположений (сильная выпуклость, условие Слейтера и т.д.)
  3. Чувствительность к параметрам: Производительность алгоритма может быть чувствительна к выбору штрафных параметров

Влияние

  1. Академическая ценность: Заполняет важный теоретический пробел, обеспечивает основу для последующих исследований
  2. Практическая ценность: Имеет потенциальное применение в нескольких важных приложениях машинного обучения
  3. Воспроизводимость: Предоставляет подробное описание алгоритма и теоретический анализ

Применимые сценарии

  1. Оптимизация гиперпараметров: Особенно для задач настройки гиперпараметров с ограничениями
  2. Метаобучение: Обучение стратегиям обучения в условиях ограничений
  3. Обучение с подкреплением: Задачи оптимизации политики с ограничениями
  4. Поиск нейросетевой архитектуры: Оптимизация архитектуры при ограничениях ресурсов

Библиография

Статья цитирует 49 связанных работ, включая:

  • Классические работы и последние достижения в двухуровневой оптимизации
  • Теоретические основы методов увеличенной функции Лагранжа
  • Стохастическую оптимизацию и техники редукции дисперсии
  • Примеры приложений в машинном обучении

Общая оценка: Это высококачественная статья, сочетающая теорию и приложения, достигшая существенного прогресса в важной и сложной задаче, внёсшая значительный вклад в область стохастической ограниченной двухуровневой оптимизации. Метод новаторский, теория строгая, эксперименты полные, работа имеет хорошую академическую ценность и практические перспективы.