An Augmented Lagrangian Value Function Method for Lower-level Constrained Stochastic Bilevel Optimization
Nie, Li, Wen
Recently, lower-level constrained bilevel optimization has attracted increasing attention. However, existing methods mostly focus on either deterministic cases or problems with linear constraints. The main challenge in stochastic cases with general constraints is the bias and variance of the hyper-gradient, arising from the inexact solution of the lower-level problem. In this paper, we propose a novel stochastic augmented Lagrangian value function method for solving stochastic bilevel optimization problems with nonlinear lower-level constraints. Our approach reformulates the original bilevel problem using an augmented Lagrangian-based value function and then applies a penalized stochastic gradient method that carefully manages the noise from stochastic oracles. We establish an equivalence between the stochastic single-level reformulation and the original constrained bilevel problem and provide a non-asymptotic rate of convergence for the proposed method. The rate is further enhanced by employing variance reduction techniques. Extensive experiments on synthetic problems and real-world applications demonstrate the effectiveness of our approach.
academic
Eine Augmentierte-Lagrange-Wertfunktionsmethode für stochastische zweistufige Optimierung mit Nebenbedingungen auf der unteren Ebene
In dieser Arbeit wird eine neuartige stochastische Augmentierte-Lagrange-Wertfunktionsmethode für stochastische zweistufige Optimierungsprobleme mit nichtlinearen Nebenbedingungen auf der unteren Ebene vorgestellt. Die Methode formuliert das ursprüngliche zweistufige Problem durch die Augmentierte-Lagrange-Wertfunktion neu und wendet eine Straf-Stochastische-Gradient-Methode an, um das Rauschen von stochastischen Orakeln sorgfältig zu verwalten. Die Autoren etablieren die Äquivalenz zwischen der stochastischen einstufigen Rekonstruktion und dem ursprünglichen eingeschränkten zweistufigen Problem und bieten eine nicht-asymptotische Konvergenzratenanalyse. Die Konvergenzrate wird durch Varianzreduktionsmethoden weiter verbessert. Umfangreiche Experimente mit synthetischen Problemen und realen Anwendungen validieren die Wirksamkeit der Methode.
Problemhintergrund: Zweistufige Optimierung mit Nebenbedingungen auf der unteren Ebene (LC-BLO) hat breite Anwendungen im Bereich des maschinellen Lernens, einschließlich Hyperparameter-Optimierung, Meta-Learning und Reinforcement Learning. Diese Probleme haben eine hierarchische Struktur, bei der die Lösung des oberen Problems von der optimalen Lösung des eingeschränkten Optimierungsproblems auf der unteren Ebene abhängt.
Einschränkungen bestehender Methoden:
Die meisten bestehenden Methoden konzentrieren sich nur auf deterministische Fälle oder lineare Nebenbedingungsprobleme
Es fehlen effektive Lösungen für nichtlineare Nebenbedingungsprobleme im stochastischen Fall
Die Hauptherausforderungen liegen in der Hypergradient-Verzerrung und Varianz aufgrund ungenauer Lösungen des unteren Problems
Technische Herausforderungen:
Nicht-Glattheit der Hyperziel-Funktion
Hypergradient-Verzerrung aufgrund ungenauer Lösungen des unteren Problems
Rauschverwaltung durch stochastische Orakel
Forschungsmotivation: Schließung der Lücke in Theorie und Algorithmen für stochastische nichtlineare eingeschränkte zweistufige Optimierung und Bereitstellung von theoretisch garantierten effizienten Algorithmen für praktische Anwendungen im maschinellen Lernen.
Neuartige Rekonstruktionsmethode: Vorschlag einer Rekonstruktion des zweistufigen Problems basierend auf stochastischen Augmentierten-Lagrange-Funktionen und ihrer Moreau-Einhüllung, die das Rauschen aufgrund ungenauer Lösungen des unteren Problems effektiv handhabt
Theoretische Äquivalenz: Etablierung der Äquivalenz zwischen der stochastischen einstufigen Rekonstruktion und dem ursprünglichen zweistufigen Problem, was eine praktische und theoretisch fundierte Methode bietet
Erste Konvergenzanalyse: Bereitstellung der ersten Konvergenzanalyse für Wertfunktionsmethoden bei nichtlinearem LC-BLO in stochastischen Einstellungen, mit Nachweis von Stichprobenkomplexität Õ(cε⁻²), Õ(cc₁²ε⁻²)
Varianzreduktionsverbesserung: Verbesserung der Stichprobenkomplexität der oberen Variablen auf Õ(c^1.5ε⁻^1.5) durch Varianzreduktionsmethoden
Synthetische Probleme: Testbeispiele von Jiang et al. (2012) mit hinzugefügtem Gaußschen Rauschen σ = 0,1
SVM-Hyperparameter-Optimierung: Durchgeführt auf den Datensätzen Diabetes und Fourclass
Gewichtsabfall-Abstimmung: Verwendung eines zweischichtigen MLP auf dem Digit-Datensatz für die Optimierung von Gewichtsabfall-Parametern des neuronalen Netzes
Synthetische Probleme: Sowohl SALVF als auch SALVF-VR konvergieren gegen die Nähe der globalen optimalen Lösung, mit konzentrierterer Verteilung bei SALVF-VR, was die Beschleunigungseffekte der Varianzreduktion validiert
SVM-Hyperparameter-Optimierung:
SALVF übertrifft alle Baseline-Methoden in Bezug auf Testgenauigkeit
Obwohl BLOCC auch ähnliche Spitzengenauigkeit erreichen kann, ist SALVF zeiteffizienter in Iterationen
Erreicht etwa 80% Testgenauigkeit auf dem Diabetes-Datensatz und etwa 75% auf dem Fourclass-Datensatz
Gewichtsabfall-Abstimmung:
Alle zweistufigen Methoden übertreffen die Baseline ohne Gewichtsabfall und reduzieren effektiv Überanpassung
SALVF ist zeitlich am effizientesten, profitierend von der Einfachheit des doppelten Iterationsprozesses
Wirksamkeit der Varianzreduktion: SALVF-VR zeigt signifikante Verbesserungen gegenüber SALVF in Bezug auf Verteilungskonzentration und Konvergenzgeschwindigkeit
Zeiteffizienz-Vorteil: Die Doppelschleifenstruktur hat deutliche Rechenvorteil gegenüber Dreischleifenmethoden (wie BLOCC)
Praktische Validierung: Ausgezeichnete Leistung bei echten Aufgaben des maschinellen Lernens, validiert den praktischen Wert der Methode
Implizite Gradient-Methoden (IG): Konzentrieren sich hauptsächlich auf die Berechnung von Hypergradienten, erfordern aber zweite Ableitungen mit hohen Rechenkosten
Wertfunktionsmethoden der unteren Ebene (LLVF): Führen die Wertfunktion des unteren Problems ein als Hessian-freie Alternative
Strafmethoden: Konvertieren eingeschränkte Probleme in uneingeschränkte Probleme zur Lösung
Erste stochastische nichtlineare Nebenbedingungsanalyse: Bestehende Arbeiten konzentrieren sich hauptsächlich auf deterministische oder lineare Nebenbedingungsfälle
Verbesserung der Stichprobenkomplexität: Erkundung, ob die Stichprobenkomplexität sowohl der oberen als auch der unteren Variablen gleichzeitig reduziert werden kann
Adaptive Parameterauswahl: Entwicklung von Strategien zur adaptiven Auswahl von Strafparametern
Nicht-konvexe Erweiterung: Erweiterung auf Fälle, in denen das untere Problem nicht-konvex ist
Bedeutende theoretische Beiträge: Erste umfassende theoretische Analyse für stochastische nichtlineare eingeschränkte zweistufige Optimierung
Geschickte Methodengestaltung: Die Augmentierte-Lagrange-Rekonstruktion erhält sowohl die Problemäquivalenz als auch verbessert die Algorithmuseigenschaften
Umfangreiche Experimente: Vollständige Validierung von synthetischen Problemen bis zu realen Anwendungen
Klare Darstellung: Strenge mathematische Ableitungen und klare Ausdrucksweise
Das Papier zitiert 49 verwandte Literaturquellen, hauptsächlich einschließlich:
Klassische Arbeiten und neueste Fortschritte in zweistufiger Optimierung
Theoretische Grundlagen von Augmentierten-Lagrange-Methoden
Stochastische Optimierung und Varianzreduktionsmethoden
Anwendungsfälle im maschinellen Lernen
Gesamtbewertung: Dies ist ein hochqualitatives Papier, das Theorie und Anwendung kombiniert und wesentliche Fortschritte bei einem wichtigen aber schwierigen Problem erzielt. Die Methode ist neuartig, die Theorie ist streng, die Experimente sind umfassend und es hat großen akademischen Wert und praktische Aussichten. Der Beitrag zur Forschung im Bereich der stochastischen eingeschränkten zweistufigen Optimierung ist bedeutsam.