An Augmented Lagrangian Value Function Method for Lower-level Constrained Stochastic Bilevel Optimization
Nie, Li, Wen
Recently, lower-level constrained bilevel optimization has attracted increasing attention. However, existing methods mostly focus on either deterministic cases or problems with linear constraints. The main challenge in stochastic cases with general constraints is the bias and variance of the hyper-gradient, arising from the inexact solution of the lower-level problem. In this paper, we propose a novel stochastic augmented Lagrangian value function method for solving stochastic bilevel optimization problems with nonlinear lower-level constraints. Our approach reformulates the original bilevel problem using an augmented Lagrangian-based value function and then applies a penalized stochastic gradient method that carefully manages the noise from stochastic oracles. We establish an equivalence between the stochastic single-level reformulation and the original constrained bilevel problem and provide a non-asymptotic rate of convergence for the proposed method. The rate is further enhanced by employing variance reduction techniques. Extensive experiments on synthetic problems and real-world applications demonstrate the effectiveness of our approach.
academic
Метод увеличенной функции Лагранжа для стохастической двухуровневой оптимизации с ограничениями нижнего уровня
В данной работе предлагается новый метод стохастической увеличенной функции Лагранжа для решения задач стохастической двухуровневой оптимизации с нелинейными ограничениями нижнего уровня. Метод переформулирует исходную двухуровневую задачу через увеличенную функцию Лагранжа и применяет штрафной метод стохастического градиента для тщательного управления шумом от стохастического оракула. Авторы устанавливают эквивалентность между стохастической одноуровневой переформулировкой и исходной ограниченной двухуровневой задачей, предоставляют анализ неасимптотической скорости сходимости. Скорость сходимости дополнительно улучшена с помощью техники редукции дисперсии. Обширные эксперименты на синтетических задачах и реальных приложениях подтверждают эффективность предложенного метода.
Проблемный контекст: Двухуровневая оптимизация с ограничениями нижнего уровня (LC-BLO) широко применяется в машинном обучении, включая оптимизацию гиперпараметров, метаобучение, обучение с подкреплением и другие области. Такие задачи имеют иерархическую структуру, где решение верхнего уровня зависит от оптимального решения ограниченной задачи оптимизации нижнего уровня.
Ограничения существующих методов:
Большинство существующих методов сосредоточены только на детерминированном случае или задачах с линейными ограничениями
Отсутствуют эффективные решения для нелинейных ограниченных задач в стохастическом случае
Основные вызовы связаны с смещением гиперградиента и дисперсией, вызванными неточным решением задачи нижнего уровня
Технические вызовы:
Негладкость гиперцелевой функции
Смещение гиперградиента из-за неточного решения задачи нижнего уровня
Управление шумом от стохастического оракула
Исследовательская мотивация: Заполнить пробел в теории и алгоритмах для стохастической нелинейной ограниченной двухуровневой оптимизации, предоставить теоретически обоснованные эффективные алгоритмы для практических приложений машинного обучения.
Новый метод переформулировки: Предложена переформулировка двухуровневой задачи на основе стохастической увеличенной функции Лагранжа и её оболочки Моро, эффективно обрабатывающая шум от неточного решения задачи нижнего уровня
Теоретическая эквивалентность: Установлена эквивалентность между стохастической одноуровневой переформулировкой и исходной двухуровневой задачей, обеспечивающая практичный и теоретически обоснованный метод
Первый анализ сходимости: Предоставлен первый анализ сходимости для метода функции стоимости нелинейной LC-BLO в стохастическом случае, доказаны сложности выборки Õ(cε⁻²), Õ(cc₁²ε⁻²)
Улучшение редукции дисперсии: Применение техники редукции дисперсии улучшает сложность выборки для переменных верхнего уровня до Õ(c^1.5ε⁻^1.5)
Синтетические задачи: Оба метода SALVF и SALVF-VR сходятся к окрестности глобального оптимума, распределение SALVF-VR более сконцентрировано, что подтверждает эффект ускорения редукции дисперсии
Оптимизация гиперпараметров SVM:
SALVF превосходит все базовые методы по точности на тестовом наборе
Хотя BLOCC также достигает сравнимой пиковой точности, SALVF более эффективен по времени итерации
На наборе данных Diabetes достигается примерно 80% точности на тестовом наборе, на наборе Fourclass — примерно 75%
Настройка коэффициента затухания:
Все методы двухуровневой оптимизации превосходят базовый метод без затухания, эффективно снижая переобучение
SALVF оптимален по временной эффективности благодаря простоте двойной циклической структуры итераций
Эффективность редукции дисперсии: SALVF-VR показывает значительное улучшение в концентрации распределения и скорости сходимости по сравнению с SALVF
Преимущество временной эффективности: Двойная циклическая структура имеет явное вычислительное преимущество перед трёхциклическими методами (например, BLOCC)
Проверка практичности: Превосходная производительность на реальных задачах машинного обучения подтверждает практическую ценность метода
Первый анализ для стохастического нелинейного ограниченного случая: Существующие работы сосредоточены на детерминированном или линейно ограниченном случаях
Теоретические гарантии: Предоставляется анализ неасимптотической скорости сходимости
Практичность: Не требует вычисления гессиана, подходит для крупномасштабных задач
Значительный теоретический вклад: Впервые предоставлен полный теоретический анализ для стохастической нелинейной ограниченной двухуровневой оптимизации
Искусный дизайн метода: Переформулировка через увеличенную функцию Лагранжа сохраняет эквивалентность задачи и улучшает свойства алгоритма
Полные эксперименты: Всесторонняя проверка от синтетических задач до реальных приложений
Ясное изложение: Строгие математические выводы и чёткое изложение
Классические работы и последние достижения в двухуровневой оптимизации
Теоретические основы методов увеличенной функции Лагранжа
Стохастическую оптимизацию и техники редукции дисперсии
Примеры приложений в машинном обучении
Общая оценка: Это высококачественная статья, сочетающая теорию и приложения, достигшая существенного прогресса в важной и сложной задаче, внёсшая значительный вклад в область стохастической ограниченной двухуровневой оптимизации. Метод новаторский, теория строгая, эксперименты полные, работа имеет хорошую академическую ценность и практические перспективы.