2025-11-22T15:28:16.372787

An Augmented Lagrangian Value Function Method for Lower-level Constrained Stochastic Bilevel Optimization

Nie, Li, Wen

Recently, lower-level constrained bilevel optimization has attracted increasing attention. However, existing methods mostly focus on either deterministic cases or problems with linear constraints. The main challenge in stochastic cases with general constraints is the bias and variance of the hyper-gradient, arising from the inexact solution of the lower-level problem. In this paper, we propose a novel stochastic augmented Lagrangian value function method for solving stochastic bilevel optimization problems with nonlinear lower-level constraints. Our approach reformulates the original bilevel problem using an augmented Lagrangian-based value function and then applies a penalized stochastic gradient method that carefully manages the noise from stochastic oracles. We establish an equivalence between the stochastic single-level reformulation and the original constrained bilevel problem and provide a non-asymptotic rate of convergence for the proposed method. The rate is further enhanced by employing variance reduction techniques. Extensive experiments on synthetic problems and real-world applications demonstrate the effectiveness of our approach.

academic

Une Méthode de Fonction Valeur Lagrangienne Augmentée pour l'Optimisation Bilatérale Stochastique avec Contraintes au Niveau Inférieur

Informations Fondamentales

ID de l'article: 2509.24249
Titre: An Augmented Lagrangian Value Function Method for Lower-level Constrained Stochastic Bilevel Optimization
Auteurs: Hantao Nie (Université de Pékin), Jiaxiang Li (Université du Minnesota), Zaiwen Wen (Université de Pékin)
Classification: math.OC (Optimisation et Contrôle Mathématiques)
Date de publication: Janvier 2025 (prépublication arXiv)
Lien de l'article: https://arxiv.org/abs/2509.24249v2

Résumé

Cet article propose une nouvelle méthode stochastique de fonction valeur lagrangienne augmentée pour les problèmes d'optimisation bilatérale stochastique avec contraintes non linéaires au niveau inférieur. La méthode reformule le problème bilatéral original via une fonction valeur lagrangienne augmentée et applique une méthode de gradient stochastique pénalisé pour gérer soigneusement le bruit provenant d'oracles stochastiques. Les auteurs établissent l'équivalence entre la reconstruction unilatérale stochastique et le problème bilatéral contraint original, et fournissent une analyse de convergence non asymptotique. La convergence est améliorée par des techniques de réduction de variance. Des expériences extensives sur des problèmes synthétiques et des applications réelles valident l'efficacité de la méthode.

Contexte et Motivation de la Recherche

Contexte du problème: L'optimisation bilatérale avec contraintes au niveau inférieur (LC-BLO) est largement appliquée en apprentissage automatique, notamment en optimisation d'hyperparamètres, apprentissage par méta-apprentissage et apprentissage par renforcement. Ces problèmes possèdent une structure hiérarchique où la solution du niveau supérieur dépend de la solution optimale du problème d'optimisation contraint au niveau inférieur.
Limitations des méthodes existantes:
- La plupart des méthodes existantes se concentrent uniquement sur les cas déterministes ou les problèmes avec contraintes linéaires
- Les problèmes avec contraintes non linéaires en contexte stochastique manquent de solutions efficaces
- Les principaux défis résident dans la non-lissité de la fonction hypergradient et la variance due à la résolution inexacte du problème inférieur
Défis techniques:
- Non-lissité de la fonction hypergradient
- Biais du hypergradient causé par la résolution inexacte du problème inférieur
- Gestion du bruit provenant d'oracles stochastiques
Motivation de la recherche: Combler le vide théorique et algorithmique dans l'optimisation bilatérale stochastique avec contraintes non linéaires, en fournissant des algorithmes efficaces avec garanties théoriques pour les applications pratiques d'apprentissage automatique.

Contributions Principales

Méthode de Reformulation Novatrice: Propose une reformulation du problème bilatéral basée sur la fonction lagrangienne augmentée stochastique et son enveloppe de Moreau, gérant efficacement le bruit causé par la résolution inexacte du problème inférieur
Équivalence Théorique: Établit l'équivalence entre la reconstruction unilatérale stochastique et le problème bilatéral original, fournissant une méthode pratique avec des fondations théoriques solides
Première Analyse de Convergence: Fournit la première analyse de convergence pour les méthodes de fonction valeur dans le contexte stochastique pour LC-BLO non linéaire, prouvant une complexité d'échantillonnage de Õ(cε⁻²), Õ(cc₁²ε⁻²)
Amélioration par Réduction de Variance: Améliore la complexité d'échantillonnage pour les variables du niveau supérieur à Õ(c^1.5ε⁻^1.5) via des techniques de réduction de variance

Détails de la Méthode

Définition du Problème

Considérons le problème d'optimisation bilatérale stochastique avec contraintes au niveau inférieur:

Problème au niveau inférieur:

min_{y∈Y} G(x,y) = E_{ξ~D_ξ}[g(x,y;ξ)]
s.t. H_i(x,y) ≤ 0, i = 1,...,p

Problème au niveau supérieur:

min_{x∈X} F(x,y*(x)) = E_{ζ~D_ζ}[f(x,y*(x);ζ)]
s.t. y*(x) ∈ arg min_{y∈Y(x)} G(x,y)

où Y(x) := {y ∈ Y | H(x,y) ≤ 0} est le domaine réalisable au niveau inférieur.

Architecture du Modèle

1. Reformulation Lagrangienne Augmentée

Introduction du terme de pénalité lagrangienne augmentée:

A_{γ₁}(x,y,z) = (1/2γ₁)∑ᵢ[γ₁zᵢ + Hᵢ(x,y)]²₊

Définition de la fonction lagrangienne augmentée:

L_{γ₁}(x,y,z) = G(x,y) + A_{γ₁}(x,y,z)

2. Fonction Valeur Enveloppe de Moreau

Construction de la fonction duale et de son enveloppe de Moreau:

D_{γ₁}(x,z) = min_{y∈Y} L_{γ₁}(x,y,z)
E^{γ₂}_{γ₁}(x,z) = max_{λ∈ℝ^p₊} {D_{γ₁}(x,λ) - (γ₂/2)||λ-z||²}

3. Reconstruction Unilatérale

Reformulation du problème bilatéral original en:

min_{(x,y,z)∈X×Y×ℝ^p₊} F(x,y)
s.t. Ĝ(x,y,z;ξ) ≤ ε₁, (1/2)∑ᵢ[Hᵢ(x,y)]²₊ ≤ ε₂²

où Ĝ(x,y,z;ξ) = G(x,y) - ℓ_γ(x,z,ŵ(ξ),λ̂(ξ)).

4. Méthode de Pénalité

Adoption de la reformulation pénalisée lagrangienne augmentée:

min_{(x,y,z)∈X×Y×Z} E_ξ[Ψ(x,y,z;ξ)]

où Ψ(x,y,z;ξ) := F(x,y) + c₁Ĝ(x,y,z;ξ) + (c₂/2)∑ᵢHᵢ(x,y)²₊

Points d'Innovation Technique

Structure d'Algorithme à Double Boucle:
- Boucle interne: Utilise la méthode lagrangienne augmentée stochastique (SALM) pour résoudre les sous-problèmes
- Boucle externe: Applique la descente de gradient stochastique au problème reformulé
Mécanisme de Contrôle du Biais: Atténue le problème du biais du hypergradient en contrôlant la précision de la solution au niveau inférieur
Technique de Réduction de Variance: Adopte des règles de mise à jour similaires à STORM pour réduire la complexité d'échantillonnage des variables du niveau supérieur

Configuration Expérimentale

Ensembles de Données

Problèmes synthétiques: Exemples de test de Jiang et al. (2012), avec bruit gaussien σ = 0,1
Optimisation d'hyperparamètres SVM: Réalisée sur les ensembles de données Diabetes et Fourclass
Ajustement de la décroissance des poids: Optimisation des paramètres de décroissance des poids pour un MLP à deux couches sur l'ensemble de données digit

Métriques d'Évaluation

Précision de test
Temps de convergence
Nombre d'itérations
Valeur de la fonction objectif

Méthodes de Comparaison

LV-HBA: Méthode basée sur la fonction valeur lagrangienne
GAM: Méthode d'augmentation de gradient
BLOCC: Méthode de contrôle des contraintes d'optimisation bilatérale
SALVF: Méthode de base proposée dans cet article
SALVF-VR: Version avec réduction de variance proposée dans cet article

Détails d'Implémentation

Pas de la boucle interne: ηⱼ = η/(j+1), ρⱼ = ρ/(j+1)
Pas de la boucle externe: αₖ = α < 1/(2L_Ψ)
Tailles d'échantillon: rₖ = r, qₖ = q, sₖ = s (constantes)
Paramètres de pénalité: c₁, c₂ sélectionnés selon l'analyse théorique

Résultats Expérimentaux

Résultats Principaux

Problèmes synthétiques: SALVF et SALVF-VR convergent tous deux vers le voisinage de la solution optimale globale, avec une distribution plus concentrée pour SALVF-VR, validant l'effet d'accélération de la réduction de variance
Optimisation d'hyperparamètres SVM:
- SALVF surpasse toutes les méthodes de base en termes de précision de test
- Bien que BLOCC atteigne également une précision maximale comparable, SALVF est plus efficace en termes de temps d'itération
- Atteint environ 80% de précision de test sur l'ensemble de données Diabetes et environ 75% sur l'ensemble de données Fourclass
Ajustement de la décroissance des poids:
- Toutes les méthodes bilatérales surpassent le référence sans décroissance des poids, réduisant efficacement le surapprentissage
- SALVF est optimal en termes d'efficacité temporelle, grâce à la simplicité du processus d'itération à double boucle

Résultats Théoriques

Complexité d'Échantillonnage:
- SALVF: (Õ(cε⁻²), Õ(cc₁²ε⁻²))
- SALVF-VR: (Õ(c^1.5ε⁻^1.5), Õ(c^1.5c₁²ε⁻^2.5))
Taux de Convergence:
- SALVF: Complexité d'itération Õ(cε⁻¹)
- SALVF-VR: Complexité d'itération Õ(c^1.5ε⁻^1.5)

Découvertes Expérimentales

Efficacité de la Réduction de Variance: SALVF-VR montre des améliorations significatives par rapport à SALVF en termes de concentration de distribution et de vitesse de convergence
Avantage d'Efficacité Temporelle: La structure à double boucle présente un avantage computationnel évident par rapport aux méthodes à triple boucle (comme BLOCC)
Validation Pratique: Performance excellente sur les tâches réelles d'apprentissage automatique, validant la valeur pratique de la méthode

Travaux Connexes

Principales Directions de Recherche

Méthodes de Gradient Implicite (IG): Se concentrent principalement sur le calcul du hypergradient, mais nécessitent des dérivées secondes avec coûts computationnels élevés
Méthodes de Fonction Valeur au Niveau Inférieur (LLVF): Introduisent la fonction valeur du problème inférieur comme alternative sans Hessien
Méthodes de Pénalité: Transforment les problèmes contraints en problèmes sans contrainte

Avantages de Cet Article

Première Analyse Stochastique avec Contraintes Non Linéaires: Les travaux existants se concentrent principalement sur les cas déterministes ou avec contraintes linéaires
Garanties Théoriques: Fournit une analyse de convergence non asymptotique
Praticité: Pas besoin de calcul du Hessien, adapté aux problèmes à grande échelle

Conclusion et Discussion

Conclusions Principales

Résout avec succès le problème important mais insuffisamment étudié de l'optimisation bilatérale stochastique avec contraintes non linéaires
La méthode de fonction valeur lagrangienne augmentée proposée montre d'excellentes performances théoriques et pratiques
Les techniques de réduction de variance améliorent efficacement les performances de l'algorithme

Limitations

Dépendance de la Complexité d'Échantillonnage: La complexité d'échantillonnage pour les variables du niveau inférieur reste relativement élevée (O(c₁²ε⁻¹))
Sélection des Paramètres: Le choix des paramètres de pénalité c₁, c₂ dépend des paramètres du problème et peut nécessiter un ajustement
Hypothèse de Convexité Forte: Le problème au niveau inférieur doit satisfaire l'hypothèse de convexité forte

Directions Futures

Amélioration de la Complexité d'Échantillonnage: Explorer si la complexité d'échantillonnage pour les variables du niveau supérieur et inférieur peut être réduite simultanément
Sélection Adaptative des Paramètres: Développer des stratégies pour sélectionner adaptivement les paramètres de pénalité
Extension Non-Convexe: Étendre à des cas où le problème au niveau inférieur est non-convexe

Évaluation Approfondie

Points Forts

Contributions Théoriques Significatives: Fournit pour la première fois une analyse théorique complète de l'optimisation bilatérale stochastique avec contraintes non linéaires
Conception de Méthode Ingénieuse: La reformulation lagrangienne augmentée préserve l'équivalence du problème tout en améliorant les propriétés de l'algorithme
Expériences Complètes: Validation exhaustive des problèmes synthétiques aux applications réelles
Rédaction Claire: Dérivations mathématiques rigoureuses et expressions claires

Insuffisances

Complexité Computationnelle: La structure à double boucle entraîne toujours des coûts computationnels relativement élevés
Conditions d'Hypothèses: Nécessite plusieurs hypothèses techniques (convexité forte, condition de Slater, etc.)
Sensibilité aux Paramètres: Les performances de l'algorithme peuvent être sensibles au choix des paramètres de pénalité

Impact

Valeur Académique: Comble un vide théorique important et fournit une base pour les recherches ultérieures
Valeur Pratique: Potentiel d'application dans plusieurs domaines importants de l'apprentissage automatique
Reproductibilité: Fournit des descriptions d'algorithmes détaillées et des analyses théoriques

Scénarios d'Application

Optimisation d'Hyperparamètres: Particulièrement pour les problèmes d'ajustement d'hyperparamètres avec contraintes
Apprentissage par Méta-Apprentissage: Nécessite d'apprendre des stratégies d'apprentissage sous des conditions de contrainte
Apprentissage par Renforcement: Problèmes d'optimisation de politique avec contraintes
Recherche d'Architecture Neuronale: Optimisation d'architecture sous contraintes de ressources

Références

L'article cite 49 références connexes, incluant principalement:

Travaux classiques et progrès récents en optimisation bilatérale
Fondations théoriques des méthodes lagrangiennes augmentées
Techniques d'optimisation stochastique et de réduction de variance
Cas d'application en apprentissage automatique

Évaluation Globale: Cet article est un travail de haute qualité qui équilibre théorie et applications, réalisant des progrès substantiels sur un problème important mais difficile, apportant une contribution significative au domaine de l'optimisation bilatérale stochastique avec contraintes. La méthode est novatrice, la théorie rigoureuse, les expériences complètes, avec une excellente valeur académique et des perspectives pratiques prometteuses.