An Augmented Lagrangian Value Function Method for Lower-level Constrained Stochastic Bilevel Optimization
Nie, Li, Wen
Recently, lower-level constrained bilevel optimization has attracted increasing attention. However, existing methods mostly focus on either deterministic cases or problems with linear constraints. The main challenge in stochastic cases with general constraints is the bias and variance of the hyper-gradient, arising from the inexact solution of the lower-level problem. In this paper, we propose a novel stochastic augmented Lagrangian value function method for solving stochastic bilevel optimization problems with nonlinear lower-level constraints. Our approach reformulates the original bilevel problem using an augmented Lagrangian-based value function and then applies a penalized stochastic gradient method that carefully manages the noise from stochastic oracles. We establish an equivalence between the stochastic single-level reformulation and the original constrained bilevel problem and provide a non-asymptotic rate of convergence for the proposed method. The rate is further enhanced by employing variance reduction techniques. Extensive experiments on synthetic problems and real-world applications demonstrate the effectiveness of our approach.
academic
Une Méthode de Fonction Valeur Lagrangienne Augmentée pour l'Optimisation Bilatérale Stochastique avec Contraintes au Niveau Inférieur
Cet article propose une nouvelle méthode stochastique de fonction valeur lagrangienne augmentée pour les problèmes d'optimisation bilatérale stochastique avec contraintes non linéaires au niveau inférieur. La méthode reformule le problème bilatéral original via une fonction valeur lagrangienne augmentée et applique une méthode de gradient stochastique pénalisé pour gérer soigneusement le bruit provenant d'oracles stochastiques. Les auteurs établissent l'équivalence entre la reconstruction unilatérale stochastique et le problème bilatéral contraint original, et fournissent une analyse de convergence non asymptotique. La convergence est améliorée par des techniques de réduction de variance. Des expériences extensives sur des problèmes synthétiques et des applications réelles valident l'efficacité de la méthode.
Contexte du problème: L'optimisation bilatérale avec contraintes au niveau inférieur (LC-BLO) est largement appliquée en apprentissage automatique, notamment en optimisation d'hyperparamètres, apprentissage par méta-apprentissage et apprentissage par renforcement. Ces problèmes possèdent une structure hiérarchique où la solution du niveau supérieur dépend de la solution optimale du problème d'optimisation contraint au niveau inférieur.
Limitations des méthodes existantes:
La plupart des méthodes existantes se concentrent uniquement sur les cas déterministes ou les problèmes avec contraintes linéaires
Les problèmes avec contraintes non linéaires en contexte stochastique manquent de solutions efficaces
Les principaux défis résident dans la non-lissité de la fonction hypergradient et la variance due à la résolution inexacte du problème inférieur
Défis techniques:
Non-lissité de la fonction hypergradient
Biais du hypergradient causé par la résolution inexacte du problème inférieur
Gestion du bruit provenant d'oracles stochastiques
Motivation de la recherche: Combler le vide théorique et algorithmique dans l'optimisation bilatérale stochastique avec contraintes non linéaires, en fournissant des algorithmes efficaces avec garanties théoriques pour les applications pratiques d'apprentissage automatique.
Méthode de Reformulation Novatrice: Propose une reformulation du problème bilatéral basée sur la fonction lagrangienne augmentée stochastique et son enveloppe de Moreau, gérant efficacement le bruit causé par la résolution inexacte du problème inférieur
Équivalence Théorique: Établit l'équivalence entre la reconstruction unilatérale stochastique et le problème bilatéral original, fournissant une méthode pratique avec des fondations théoriques solides
Première Analyse de Convergence: Fournit la première analyse de convergence pour les méthodes de fonction valeur dans le contexte stochastique pour LC-BLO non linéaire, prouvant une complexité d'échantillonnage de Õ(cε⁻²), Õ(cc₁²ε⁻²)
Amélioration par Réduction de Variance: Améliore la complexité d'échantillonnage pour les variables du niveau supérieur à Õ(c^1.5ε⁻^1.5) via des techniques de réduction de variance
Boucle interne: Utilise la méthode lagrangienne augmentée stochastique (SALM) pour résoudre les sous-problèmes
Boucle externe: Applique la descente de gradient stochastique au problème reformulé
Mécanisme de Contrôle du Biais: Atténue le problème du biais du hypergradient en contrôlant la précision de la solution au niveau inférieur
Technique de Réduction de Variance: Adopte des règles de mise à jour similaires à STORM pour réduire la complexité d'échantillonnage des variables du niveau supérieur
Problèmes synthétiques: Exemples de test de Jiang et al. (2012), avec bruit gaussien σ = 0,1
Optimisation d'hyperparamètres SVM: Réalisée sur les ensembles de données Diabetes et Fourclass
Ajustement de la décroissance des poids: Optimisation des paramètres de décroissance des poids pour un MLP à deux couches sur l'ensemble de données digit
Problèmes synthétiques: SALVF et SALVF-VR convergent tous deux vers le voisinage de la solution optimale globale, avec une distribution plus concentrée pour SALVF-VR, validant l'effet d'accélération de la réduction de variance
Optimisation d'hyperparamètres SVM:
SALVF surpasse toutes les méthodes de base en termes de précision de test
Bien que BLOCC atteigne également une précision maximale comparable, SALVF est plus efficace en termes de temps d'itération
Atteint environ 80% de précision de test sur l'ensemble de données Diabetes et environ 75% sur l'ensemble de données Fourclass
Ajustement de la décroissance des poids:
Toutes les méthodes bilatérales surpassent le référence sans décroissance des poids, réduisant efficacement le surapprentissage
SALVF est optimal en termes d'efficacité temporelle, grâce à la simplicité du processus d'itération à double boucle
Efficacité de la Réduction de Variance: SALVF-VR montre des améliorations significatives par rapport à SALVF en termes de concentration de distribution et de vitesse de convergence
Avantage d'Efficacité Temporelle: La structure à double boucle présente un avantage computationnel évident par rapport aux méthodes à triple boucle (comme BLOCC)
Validation Pratique: Performance excellente sur les tâches réelles d'apprentissage automatique, validant la valeur pratique de la méthode
Méthodes de Gradient Implicite (IG): Se concentrent principalement sur le calcul du hypergradient, mais nécessitent des dérivées secondes avec coûts computationnels élevés
Méthodes de Fonction Valeur au Niveau Inférieur (LLVF): Introduisent la fonction valeur du problème inférieur comme alternative sans Hessien
Méthodes de Pénalité: Transforment les problèmes contraints en problèmes sans contrainte
Première Analyse Stochastique avec Contraintes Non Linéaires: Les travaux existants se concentrent principalement sur les cas déterministes ou avec contraintes linéaires
Garanties Théoriques: Fournit une analyse de convergence non asymptotique
Praticité: Pas besoin de calcul du Hessien, adapté aux problèmes à grande échelle
Dépendance de la Complexité d'Échantillonnage: La complexité d'échantillonnage pour les variables du niveau inférieur reste relativement élevée (O(c₁²ε⁻¹))
Sélection des Paramètres: Le choix des paramètres de pénalité c₁, c₂ dépend des paramètres du problème et peut nécessiter un ajustement
Hypothèse de Convexité Forte: Le problème au niveau inférieur doit satisfaire l'hypothèse de convexité forte
Amélioration de la Complexité d'Échantillonnage: Explorer si la complexité d'échantillonnage pour les variables du niveau supérieur et inférieur peut être réduite simultanément
Sélection Adaptative des Paramètres: Développer des stratégies pour sélectionner adaptivement les paramètres de pénalité
Extension Non-Convexe: Étendre à des cas où le problème au niveau inférieur est non-convexe
Contributions Théoriques Significatives: Fournit pour la première fois une analyse théorique complète de l'optimisation bilatérale stochastique avec contraintes non linéaires
Conception de Méthode Ingénieuse: La reformulation lagrangienne augmentée préserve l'équivalence du problème tout en améliorant les propriétés de l'algorithme
Expériences Complètes: Validation exhaustive des problèmes synthétiques aux applications réelles
Rédaction Claire: Dérivations mathématiques rigoureuses et expressions claires
Travaux classiques et progrès récents en optimisation bilatérale
Fondations théoriques des méthodes lagrangiennes augmentées
Techniques d'optimisation stochastique et de réduction de variance
Cas d'application en apprentissage automatique
Évaluation Globale: Cet article est un travail de haute qualité qui équilibre théorie et applications, réalisant des progrès substantiels sur un problème important mais difficile, apportant une contribution significative au domaine de l'optimisation bilatérale stochastique avec contraintes. La méthode est novatrice, la théorie rigoureuse, les expériences complètes, avec une excellente valeur académique et des perspectives pratiques prometteuses.