Existing methods for solving Riemannian bilevel optimization (RBO) problems require prior knowledge of the problem's first- and second-order information and curvature parameter of the Riemannian manifold to determine step sizes, which poses practical limitations when these parameters are unknown or computationally infeasible to obtain. In this paper, we introduce the Adaptive Riemannian Hypergradient Descent (AdaRHD) algorithm for solving RBO problems. To our knowledge, AdaRHD is the first method to incorporate a fully adaptive step size strategy that eliminates the need for problem-specific parameters in RBO. We prove that AdaRHD achieves an $\mathcal{O}(1/ε)$ iteration complexity for finding an $ε$-stationary point, thus matching the complexity of existing non-adaptive methods. Furthermore, we demonstrate that substituting exponential mappings with retraction mappings maintains the same complexity bound. Experiments demonstrate that AdaRHD achieves comparable performance to existing non-adaptive approaches while exhibiting greater robustness.
- Paper-ID: 2504.06042
- Titel: An Adaptive Algorithm for Bilevel Optimization on Riemannian Manifolds
- Autoren: Xu Shi, Rufeng Xiao, Rujun Jiang (Fakultät für Datenwissenschaft, Fudan-Universität)
- Klassifizierung: math.OC (Optimierung und Kontrolle)
- Veröffentlichungskonferenz: NeurIPS 2025 (39. Konferenz für Neuronale Informationsverarbeitungssysteme)
- Paper-Link: https://arxiv.org/abs/2504.06042
Bestehende Methoden zur Lösung von Riemannschen zweistufigen Optimierungsproblemen (RBO) erfordern Vorkenntnisse über Informationen erster und zweiter Ordnung sowie Krümmungsparameter der Riemannschen Mannigfaltigkeit zur Bestimmung der Schrittweite. Dies stellt praktische Einschränkungen dar, wenn Parameter unbekannt oder rechnerisch nicht durchführbar sind. In diesem Papier wird der adaptive Riemannsche Hypergradientenabstieg (AdaRHD) zur Lösung von RBO-Problemen vorgeschlagen. Soweit wir wissen, ist AdaRHD die erste Methode in RBO, die eine vollständig adaptive Schrittweiten-Strategie verwendet und die Abhängigkeit von problemspezifischen Parametern eliminiert. Wir zeigen, dass AdaRHD eine Iterationskomplexität von O(1/ε) zum Finden eines ε-stationären Punktes erreicht, was der Komplexität bestehender nicht-adaptiver Methoden entspricht. Darüber hinaus zeigen wir, dass die Ersetzung der Exponentialabbildung durch eine Kontraktionsabbildung die gleiche Komplexitätsgrenze beibehält. Experimente zeigen, dass AdaRHD eine vergleichbare Leistung mit bestehenden nicht-adaptiven Methoden erzielt und gleichzeitig robustere Eigenschaften aufweist.
Zweistufige Optimierungsprobleme haben breite Anwendungen im maschinellen Lernen, einschließlich Reinforcement Learning, Meta-Learning, Hyperparameter-Optimierung und adversariales Lernen. Riemannsche zweistufige Optimierung (RBO) ist die Erweiterung zweistufiger Optimierung auf Riemannsche Mannigfaltigkeiten mit der allgemeinen Form:
minx∈MxF(x):=f(x,y∗(x))s.t. y∗(x)=argminy∈Myg(x,y)
wobei Mx,My Riemannsche Mannigfaltigkeiten sind, f,g glatte Funktionen sind, und g(x,y) bezüglich y geodätisch stark konvex ist.
- Parameterabhängigkeit: Bestehende RBO-Methoden (wie RHGD, RieBO usw.) erfordern Vorkenntnisse über Parameter der starken Konvexität, Lipschitz-Konstanten und Krümmungsparameter zur Bestimmung der Schrittweite
- Praktische Einschränkungen: Diese Parameter sind in praktischen Anwendungen oft schwer zu schätzen oder rechnerisch zu aufwändig
- Unzureichende Robustheit: Strategien mit fester Schrittweite sind empfindlich gegenüber Initialisierung und Problembedingungen
Die Kernmotivation dieses Papiers ist die Entwicklung eines vollständig adaptiven RBO-Algorithmus, der:
- Keine Vorkenntnisse über problemspezifische Parameter benötigt
- Die Schrittweite automatisch an Problemeigenschaften anpasst
- Die theoretische Komplexität nicht-adaptiver Methoden beibehält
- Stärkere praktische Robustheit bietet
- Erster adaptiver RBO-Algorithmus: Vorschlag von AdaRHD, dem ersten Riemannschen zweistufigen Optimierungsalgorithmus mit vollständig adaptiver Schrittweiten-Strategie, der die Abhängigkeit von starker Konvexität, Lipschitz-Konstanten und Krümmungsparametern eliminiert
- Theoretische Komplexitätsübereinstimmung: Beweis, dass AdaRHD eine Iterationskomplexität von O(1/ε) zum Finden eines ε-stationären Punktes erreicht, was der Komplexität bestehender nicht-adaptiver Methoden entspricht
- Erweiterung auf Kontraktionsabbildungen: Beweis, dass die Ersetzung der Exponentialabbildung durch rechnerisch effizientere Kontraktionsabbildungen die gleiche Komplexitätsgarantie beibehält
- Experimentelle Validierung: Validierung der Algorithmuseffektivität und Robustheit auf mehreren RBO-Problemen, einschließlich Riemannscher Hyperrepräsentationslernens und robuster Optimierungsprobleme
Betrachten Sie das Riemannsche zweistufige Optimierungsproblem:
- Oberes Problem: Minimierung von F(x)=f(x,y∗(x)) auf der Mannigfaltigkeit Mx
- Unteres Problem: Für gegebenes x, Lösen von y∗(x)=argminyg(x,y) auf der Mannigfaltigkeit My
- Einschränkungen: g(x,y) ist geodätisch stark konvex bezüglich y, f muss nicht konvex sein
Der Riemannsche Hypergradient ist definiert als:
GF(x)=Gxf(x,y∗(x))−Gxy2g(x,y∗(x))[Hy−1g(x,y∗(x))[Gyf(x,y∗(x))]]
Da eine exakte Berechnung schwierig ist, wird ein approximierter Riemannscher Hypergradient verwendet:
G^F(x,y^,v^)=Gxf(x,y^)−Gxy2g(x,y^)[v^]
wobei y^ eine Näherungslösung des unteren Problems ist und v^ eine Näherungslösung des linearen Systems ist.
Algorithmus 1: Hauptschritte von AdaRHD
- Lösung des unteren Problems: Verwendung adaptiven Gradientenabstiegs
- Schrittweiten-Update: bk+12=bk2+∥Gyg(xt,ytk)∥2
- Iterations-Update: ytk+1=Expytk(−bk+11Gyg(xt,ytk))
- Lösung des linearen Systems: Zwei Strategien
- Gradientenabstieg: Ähnlich dem unteren Problem mit adaptiver Schrittweite
- Konjugierter Gradient: Verwendung der konjugierten Gradienten-Methode im Tangentialraum
- Oberes Update: Adaptiver Hypergradientenabstieg
- Schrittweiten-Update: at+12=at2+∥G^F(xt,ytKt,vtNt)∥2
- Iterations-Update: xt+1=Expxt(−at+11G^F(xt,ytKt,vtNt))
- Kumulative Gradienten-Norm-Strategie: Verwendung des "Kehrwerts der kumulativen Riemannschen Gradienten-Norm" als adaptive Schrittweite, ohne Vorkenntnisse über Problemparameter
- Dreischichtige Adaptivität: Adaptive Schrittweiten für oberes, unteres Problem und lineares System, bildend einen vollständigen adaptiven Rahmen
- Kontraktionsabbildungs-Optimierung: Bereitstellung einer Version mit Kontraktionsabbildungen statt Exponentialabbildungen zur Reduzierung der Rechenkomplexität
- Theoretische Garantien: Strenge Konvergenzanalyse, die technische Herausforderungen der Riemannschen Geometrie bewältigt
- Einfache Matrixähnlichkeitsprobleme: Optimierung auf Stiefel- und SPD-Mannigfaltigkeiten
- Datengröße: n=100 und n=1000
- Parametereinstellung: d=50, r=20, λ=0,01
- Tiefes Hyperrepräsentationslernens: AFEW-Emotionserkennungsdatensatz
- 3-schichtige SPD-Netzwerk-Architektur
- 7 Emotionsklassen, 1747 Trainingsproben
- Unausgewogene Klassenverteilung
- Robuste Optimierungsprobleme:
- Robustes Karcher-Mittel-Problem
- Robustes Maximum-Likelihood-Schätzungsproblem
- RHGD-20/50: Riemannscher Hypergradientenabstieg mit maximalen Iterationen 20/50 für das untere Problem
- AdaRHD-GD: AdaRHD mit Gradientenabstieg zur Lösung des linearen Systems
- AdaRHD-CG: AdaRHD mit konjugiertem Gradienten zur Lösung des linearen Systems
- Wert der oberen Zielfunktion
- Fehler der Hypergradient-Schätzung
- Validierungsgenauigkeit
- Konvergenzzeit und Iterationszahl
Experimente mit einfachen Problemen:
- AdaRHD zeigt schnellere Konvergenzgeschwindigkeit bei beiden Datengröße
- Fehler der Hypergradient-Schätzung ist niedriger, besonders bei AdaRHD-CG
- Vorteil in Rechenzeit, besonders bei großskaligen Problemen
Robustheitsanalyse:
- AdaRHD zeigt signifikante Robustheit unter verschiedenen Anfangsschrittweiten-Einstellungen
- RHGD schlägt bei großen Schrittweiten (5, 1, 0,5) fehl, während AdaRHD stabil konvergiert
- AdaRHD-CG ist am schnellsten beim Erreichen von 85% Validierungsgenauigkeit
- Robustheitsvorteil: AdaRHD ist unempfindlich gegenüber der Wahl der Anfangsschrittweite, während RHGD bei ungeeigneten Schrittweiten völlig fehlschlägt
- Effizienzsteigerung: Obwohl AdaRHD mehr äußere Iterationen benötigt, ist die Gesamtrechenzeit aufgrund der adaptiven Strategie wettbewerbsfähig
- Methodenwahl: AdaRHD-CG ist AdaRHD-GD in Genauigkeit und Robustheit überlegen, letzteres konvergiert jedoch schneller in der Anfangsphase
Theorem 3.1: Unter Standardannahmen erfüllt AdaRHD:
T1∑t=0T−1∥GF(xt)∥xt2≤TC=O(T1)
Korollar 3.1: Komplexität zum Erreichen eines ε-stationären Punktes:
- Gesamtiterationen: T = O(1/ε)
- Gradienten-Komplexität: Gf=O(1/ε), Gg=O(1/ε2)
- Hessian-Vektor-Produkt-Komplexität: AdaRHD-GD ist O(1/ε²), AdaRHD-CG ist Õ(1/ε)
- Geometrische Struktur: Die Krümmung der Riemannschen Mannigfaltigkeit führt zu zusätzlicher Analysekomplexität
- Dreiecksabstands-Schranken: Erfordert Verwendung von Riemannschen Mannigfaltigkeits-spezifischen Dreiecksabstands-Schranken statt euklidischer Entsprechungen
- Adaptive Schrittweiten-Analyse: Adaptive Strategien können zu Divergenzverhalten in der Anfangsphase führen, erfordern strenge theoretische Behandlung
- Euklidische zweistufige Optimierung: AID, ITD, Neumann-Reihen, konjugierte Gradienten und andere Methoden
- Neuere adaptive Methoden: D-TFBO usw.
- Klassische Methoden: Riemannscher Gradientenabstieg, nichtlinearer konjugierter Gradient, Varianzreduktion stochastischer Gradienten usw.
- Adaptive Methoden: RASA, RAMSGrad, Riemannian SAM usw.
- RieBO/RieSBO: Deterministische und stochastische Riemannsche zweistufige Optimierung
- RHGD: Riemannscher Hypergradientenabstiegs-Rahmen
- RF2SA: Vollständig zufällige Erste-Ordnung-Methode
- AdaRHD ist der erste vollständig adaptive Riemannsche zweistufige Optimierungsalgorithmus, der die Abhängigkeit von problemspezifischen Parametern eliminiert
- Theoretisch erreicht die gleiche O(1/ε)-Komplexität wie nicht-adaptive Methoden
- Experimente validieren die Effektivität des Algorithmus und signifikante Robustheitsvorzüge
- Komplexitätslücke: Gradienten- und Hessian-Vektor-Produkt-Komplexität sind um den Faktor 1/ε höher als nicht-adaptive Methoden
- Annahmebedingungen: Erfordert immer noch geodätische starke Konvexität des unteren Problems
- Einfach- vs. Doppelschleife: Derzeit nur Doppelschleife-Algorithmen berücksichtigt
- Einfachschleife-Algorithmen: Entwurf adaptiver Einfachschleife-Riemannscher zweistufiger Optimierungsalgorithmen
- Stochastische Einstellung: Erweiterung auf stochastische Riemannsche zweistufige Optimierung
- Schwache Konvexität: Behandlung geodätisch konvexer (nicht stark konvexer) unterer Ziele
- Komplexitätsoptimierung: Erkundung adaptiver Strategien zur Beseitigung der 1/ε-Lücke
- Theoretische Innovation: Erste vollständig adaptive Implementierung in RBO mit strenger theoretischer Analyse
- Praktischer Wert: Signifikante Verbesserung der Algorithmus-Robustheit und Benutzerfreundlichkeit
- Technische Tiefe: Erfolgreiche Bewältigung technischer Herausforderungen der Riemannschen Geometrie
- Umfassende Experimente: Vollständige Validierung über mehrere Anwendungsszenarien
- Komplexitätskosten: Adaptivität geht mit zusätzlichen Rechenkomplexitätskosten einher
- Annahmebeschränkungen: Erfordert immer noch relativ starke Annahmebedingungen
- Anwendungsbereich: Hauptsächlich auf spezifische Riemannsche Mannigfaltigkeiten konzentriert
- Akademischer Beitrag: Wichtiger Fortschritt im Schnittstellenbereich von Riemannscher Optimierung und zweistufiger Optimierung
- Praktischer Wert: Bietet robustere Werkzeuge für Riemannsche zweistufige Optimierung in praktischen Anwendungen
- Nachfolgeforschung: Legt Grundlagen für weitere Forschung zu adaptiver Riemannscher Optimierung
- Riemannsches Meta-Learning und Neuronale Architektursuche
- Bildsegmentierung und Low-Rank-Adaptation
- Robuste Statistik und geometrisches maschinelles Lernen
- Alle Anwendungen, die zweistufige Optimierung unter Mannigfaltigkeits-Einschränkungen erfordern
Dieses Papier leistet einen wichtigen Beitrag im Bereich der Riemannschen zweistufigen Optimierung und realisiert erstmals ein vollständig adaptives Algorithmus-Design, das die theoretische Komplexität beibehält und gleichzeitig die praktische Anwendbarkeit und Robustheit erheblich verbessert. Trotz gewisser Komplexitätskosten machen seine theoretischen Innovationen und praktischen Werte es zu einem wichtigen Fortschritt in diesem Bereich.