2025-11-21T05:43:14.438076

An Adaptive Algorithm for Bilevel Optimization on Riemannian Manifolds

Shi, Xiao, Jiang

Existing methods for solving Riemannian bilevel optimization (RBO) problems require prior knowledge of the problem's first- and second-order information and curvature parameter of the Riemannian manifold to determine step sizes, which poses practical limitations when these parameters are unknown or computationally infeasible to obtain. In this paper, we introduce the Adaptive Riemannian Hypergradient Descent (AdaRHD) algorithm for solving RBO problems. To our knowledge, AdaRHD is the first method to incorporate a fully adaptive step size strategy that eliminates the need for problem-specific parameters in RBO. We prove that AdaRHD achieves an $\mathcal{O}(1/Îµ)$ iteration complexity for finding an $Îµ$-stationary point, thus matching the complexity of existing non-adaptive methods. Furthermore, we demonstrate that substituting exponential mappings with retraction mappings maintains the same complexity bound. Experiments demonstrate that AdaRHD achieves comparable performance to existing non-adaptive approaches while exhibiting greater robustness.

academic

Un Algoritmo Adattivo per l'Ottimizzazione Bilivello su Varietà Riemanniane

Informazioni Fondamentali

ID Articolo: 2504.06042
Titolo: An Adaptive Algorithm for Bilevel Optimization on Riemannian Manifolds
Autori: Xu Shi, Rufeng Xiao, Rujun Jiang (Scuola di Data Science, Università di Fudan)
Classificazione: math.OC (Ottimizzazione e Controllo)
Conferenza di Pubblicazione: NeurIPS 2025 (39ª Conferenza sui Sistemi di Elaborazione dell'Informazione Neurale)
Link Articolo: https://arxiv.org/abs/2504.06042

Riassunto

I metodi esistenti per risolvere problemi di ottimizzazione bilivello riemanniana (RBO) richiedono la conoscenza preliminare delle informazioni del primo e secondo ordine del problema e dei parametri di curvatura della varietà riemanniana per determinare la dimensione del passo, il che comporta limitazioni pratiche quando i parametri sono sconosciuti o il calcolo non è fattibile. Questo articolo propone l'algoritmo di discesa del supergradiente riemanniano adattivo (AdaRHD) per risolvere i problemi RBO. A nostra conoscenza, AdaRHD è il primo metodo in RBO che adotta una strategia di dimensione del passo completamente adattiva, eliminando la necessità di parametri specifici del problema. Dimostriamo che AdaRHD raggiunge una complessità iterativa O(1/ε) per trovare punti ε-stazionari, corrispondente alla complessità dei metodi non adattivi esistenti. Inoltre, dimostriamo che la sostituzione della mappa esponenziale con una mappa di contrazione mantiene lo stesso limite di complessità. Gli esperimenti mostrano che AdaRHD raggiunge prestazioni comparabili ai metodi non adattivi esistenti mentre dimostra una robustezza superiore.

Contesto di Ricerca e Motivazione

Contesto del Problema

I problemi di ottimizzazione bilivello hanno ampie applicazioni nel campo dell'apprendimento automatico, inclusi l'apprendimento per rinforzo, il meta-apprendimento, l'ottimizzazione degli iperparametri e l'apprendimento avversariale. L'ottimizzazione bilivello riemanniana (RBO) è un'estensione dell'ottimizzazione bilivello su varietà riemanniane, con forma generale:

$\min_{x \in \mathcal{M}_x} F(x) := f(x, y^*(x))$ $\text{s.t. } y^*(x) = \arg\min_{y \in \mathcal{M}_y} g(x,y)$

dove $\mathcal{M}_x, \mathcal{M}_y$ sono varietà riemanniane, $f,g$ sono funzioni lisce e $g(x,y)$ è geodetica fortemente convessa rispetto a $y$ .

Limitazioni dei Metodi Esistenti

Dipendenza dai Parametri: I metodi RBO esistenti (come RHGD, RieBO, ecc.) richiedono la conoscenza preliminare di parametri di forte convessità, costanti di Lipschitz, parametri di curvatura, ecc. per determinare la dimensione del passo
Limitazioni Pratiche: Questi parametri sono spesso difficili da stimare o hanno costi computazionali eccessivi nelle applicazioni reali
Robustezza Insufficiente: Le strategie di dimensione del passo fissa sono sensibili all'inizializzazione e alle condizioni del problema

Motivazione della Ricerca

La motivazione centrale di questo articolo è progettare un algoritmo RBO completamente adattivo che possa:

Operare senza conoscenza preliminare di parametri specifici del problema
Regolare automaticamente la dimensione del passo per adattarsi alle caratteristiche del problema
Mantenere una complessità teorica comparabile ai metodi non adattivi
Fornire una robustezza pratica superiore

Contributi Principali

Primo Algoritmo RBO Adattivo: Propone AdaRHD, il primo algoritmo di ottimizzazione bilivello riemanniana che adotta una strategia di dimensione del passo completamente adattiva, eliminando la dipendenza da forte convessità, costanti di Lipschitz e parametri di curvatura
Corrispondenza della Complessità Teorica: Dimostra che AdaRHD raggiunge una complessità iterativa O(1/ε) per trovare punti ε-stazionari, corrispondente alla complessità dei metodi non adattivi esistenti
Estensione della Mappa di Contrazione: Dimostra che la sostituzione della mappa esponenziale con una mappa di contrazione computazionalmente più efficiente mantiene le stesse garanzie di complessità
Verifica Sperimentale: Valida l'efficacia e la robustezza dell'algoritmo su molteplici problemi RBO, inclusi l'apprendimento di rappresentazioni super-riemanniane e problemi di ottimizzazione robusta

Dettagli del Metodo

Definizione del Compito

Consideriamo il problema di ottimizzazione bilivello riemanniana:

Problema di Livello Superiore: Minimizzare $F(x) = f(x, y^*(x))$ sulla varietà $\mathcal{M}_x$
Problema di Livello Inferiore: Per un dato $x$ , risolvere $y^*(x) = \arg\min_y g(x,y)$ sulla varietà $\mathcal{M}_y$
Vincoli: $g(x,y)$ è geodetica fortemente convessa rispetto a $y$ , $f$ non richiede convessità

Tecnica Principale: Supergradiente Riemanniano

Il supergradiente riemanniano è definito come: $G_F(x) = G_x f(x, y^*(x)) - G^2_{xy}g(x, y^*(x))[H^{-1}_y g(x, y^*(x))[G_y f(x, y^*(x))]]$

Poiché il calcolo esatto è difficile, si utilizza il supergradiente riemanniano approssimato: $\hat{G}_F(x, \hat{y}, \hat{v}) = G_x f(x, \hat{y}) - G^2_{xy}g(x, \hat{y})[\hat{v}]$

dove $\hat{y}$ è una soluzione approssimata del problema di livello inferiore e $\hat{v}$ è una soluzione approssimata del sistema lineare.

Architettura dell'Algoritmo AdaRHD

Algoritmo 1: Passaggi Principali di AdaRHD

Risoluzione del Problema di Livello Inferiore: Utilizzando discesa del gradiente adattiva
- Aggiornamento della dimensione del passo: $b^2_{k+1} = b^2_k + \|G_y g(x_t, y^k_t)\|^2$
- Aggiornamento iterativo: $y^{k+1}_t = \text{Exp}_{y^k_t}(-\frac{1}{b_{k+1}} G_y g(x_t, y^k_t))$
Risoluzione del Sistema Lineare: Due strategie
- Discesa del Gradiente: Dimensione del passo adattiva simile al problema di livello inferiore
- Gradiente Coniugato: Utilizzo del metodo del gradiente coniugato nello spazio tangente
Aggiornamento di Livello Superiore: Discesa del supergradiente adattiva
- Aggiornamento della dimensione del passo: $a^2_{t+1} = a^2_t + \|\hat{G}_F(x_t, y^{K_t}_t, v^{N_t}_t)\|^2$
- Aggiornamento iterativo: $x_{t+1} = \text{Exp}_{x_t}(-\frac{1}{a_{t+1}} \hat{G}_F(x_t, y^{K_t}_t, v^{N_t}_t))$

Punti di Innovazione Tecnica

Strategia della Norma del Gradiente Cumulativa: Adotta il "reciproco della norma del gradiente riemanniano cumulativo" come dimensione del passo adattiva, senza necessità di conoscere i parametri del problema
Adattività a Tre Livelli: Applica la dimensione del passo adattiva al livello superiore, inferiore e al sistema lineare, formando un framework adattivo completo
Ottimizzazione della Mappa di Contrazione: Fornisce una versione che utilizza la mappa di contrazione al posto della mappa esponenziale, riducendo la complessità computazionale
Garanzie Teoriche: Analisi di convergenza rigorosa che affronta le sfide tecniche derivanti dalla struttura geometrica della varietà riemanniana

Configurazione Sperimentale

Dataset e Problemi

Semplice Problema di Similarità Matriciale: Ottimizzazione su varietà di Stiefel e varietà SPD
- Scala dei dati: n=100 e n=1000
- Impostazioni dei parametri: d=50, r=20, λ=0.01
Apprendimento di Rappresentazioni Super Profonde: Dataset di riconoscimento delle emozioni AFEW
- Architettura di rete SPD a 3 livelli
- 7 categorie di emozioni, 1747 campioni di addestramento
- Distribuzione delle classi sbilanciata
Problemi di Ottimizzazione Robusta:
- Problema della media di Karcher robusta
- Problema della stima di massima verosimiglianza robusta

Metodi di Confronto

RHGD-20/50: Discesa del supergradiente riemanniano, numero massimo di iterazioni del problema di livello inferiore 20/50
AdaRHD-GD: AdaRHD che utilizza discesa del gradiente per risolvere il sistema lineare
AdaRHD-CG: AdaRHD che utilizza gradiente coniugato per risolvere il sistema lineare

Metriche di Valutazione

Valore della funzione obiettivo di livello superiore
Errore di stima del supergradiente
Accuratezza di validazione
Tempo di convergenza e numero di iterazioni

Risultati Sperimentali

Risultati Principali

Esperimenti su Problemi Semplici:

AdaRHD mostra una velocità di convergenza più rapida su entrambe le scale di dati
Errore di stima del supergradiente inferiore, in particolare per AdaRHD-CG
Vantaggi nel tempo di calcolo, specialmente su problemi su larga scala

Analisi di Robustezza:

AdaRHD mostra una robustezza significativa con diverse impostazioni di dimensione del passo iniziale
RHGD fallisce con dimensioni di passo grandi (5, 1, 0.5), mentre AdaRHD converge ancora stabilmente
AdaRHD-CG è il più veloce nel raggiungere l'85% di accuratezza di validazione

Scoperte Chiave

Vantaggio di Robustezza: AdaRHD è insensibile alla scelta della dimensione del passo iniziale, mentre RHGD fallisce completamente con dimensioni di passo inadatte
Miglioramento dell'Efficienza: Sebbene AdaRHD richieda più iterazioni esterne, grazie alla strategia adattiva, il tempo di calcolo totale rimane competitivo
Selezione del Metodo: AdaRHD-CG supera AdaRHD-GD in termini di precisione e robustezza, ma quest'ultimo converge più rapidamente nella fase iniziale

Analisi Teorica

Risultati di Complessità

Teorema 3.1: Sotto le ipotesi standard, AdaRHD soddisfa: $\frac{1}{T}\sum_{t=0}^{T-1} \|G_F(x_t)\|^2_{x_t} \leq \frac{C}{T} = O\left(\frac{1}{T}\right)$

Corollario 3.1: Complessità per raggiungere un punto ε-stazionario:

Numero totale di iterazioni: T = O(1/ε)
Complessità del gradiente: $G_f = O(1/ε)$ , $G_g = O(1/ε^2)$
Complessità del prodotto Hessiano-vettore: O(1/ε²) per AdaRHD-GD, Õ(1/ε) per AdaRHD-CG

Sfide Tecniche

Struttura Geometrica: La curvatura della varietà riemanniana introduce complessità analitica aggiuntiva
Disuguaglianza Triangolare Geodetica: Richiede l'uso di disuguaglianze triangolari specifiche della varietà riemanniana anziché i corrispondenti euclidei
Analisi della Dimensione del Passo Adattiva: La strategia adattiva potrebbe causare comportamenti divergenti nella fase iniziale, richiedendo un trattamento teorico rigoroso

Lavori Correlati

Ottimizzazione Bilivello

Ottimizzazione bilivello euclidea: Metodi AID, ITD, serie di Neumann, gradiente coniugato, ecc.
Metodi adattivi recenti: D-TFBO, ecc.

Ottimizzazione Riemanniana

Metodi classici: Discesa del gradiente riemanniano, gradiente coniugato non lineare, gradiente stocastico con varianza ridotta, ecc.
Metodi adattivi: RASA, RAMSGrad, Riemannian SAM, ecc.

Ottimizzazione Bilivello Riemanniana

RieBO/RieSBO: Ottimizzazione bilivello riemanniana deterministica e stocastica
RHGD: Framework di discesa del supergradiente riemanniano
RF2SA: Metodo del primo ordine completamente casuale

Conclusioni e Discussione

Conclusioni Principali

AdaRHD è il primo algoritmo di ottimizzazione bilivello riemanniana completamente adattivo, eliminando la dipendenza da parametri specifici del problema
Teoricamente raggiunge la stessa complessità O(1/ε) dei metodi non adattivi
Gli esperimenti verificano l'efficacia dell'algoritmo e i vantaggi significativi di robustezza

Limitazioni

Divario di Complessità: La complessità del gradiente e del prodotto Hessiano-vettore è superiore di 1/ε rispetto ai metodi non adattivi
Condizioni di Ipotesi: Richiede ancora la forte convessità geodetica del problema di livello inferiore
Algoritmo a Ciclo Singolo vs Doppio: Attualmente considera solo algoritmi a ciclo doppio

Direzioni Future

Algoritmo a Ciclo Singolo: Progettare algoritmi di ottimizzazione bilivello riemanniana adattivi a ciclo singolo
Impostazione Stocastica: Estendere all'ottimizzazione bilivello riemanniana stocastica
Convessità Debole: Affrontare obiettivi di livello inferiore geodetica convessi (non fortemente convessi)
Ottimizzazione della Complessità: Esplorare strategie adattive per eliminare il divario di 1/ε

Valutazione Approfondita

Punti di Forza

Innovazione Teorica: Prima realizzazione di adattività completa in RBO con analisi teorica rigorosa
Valore Pratico: Miglioramento significativo della robustezza e della facilità d'uso dell'algoritmo
Profondità Tecnica: Affrontamento con successo delle sfide tecniche derivanti dalla geometria riemanniana
Verifica Sperimentale Completa: Validazione completa su molteplici scenari di applicazione

Carenze

Costo di Complessità: L'adattività comporta un costo di complessità computazionale aggiuntiva
Limitazioni delle Ipotesi: Richiede ancora condizioni di ipotesi relativamente forti
Ambito di Applicazione: Principalmente concentrato su varietà riemanniane specifiche

Impatto

Contributo Accademico: Fornisce un progresso importante nel campo interdisciplinare dell'ottimizzazione riemanniana e dell'ottimizzazione bilivello
Valore Pratico: Fornisce strumenti più robusti per l'ottimizzazione bilivello riemanniana nelle applicazioni pratiche
Ricerca Successiva: Pone le basi per ulteriori ricerche sull'ottimizzazione riemanniana adattiva

Scenari di Applicazione

Meta-apprendimento riemanniano e ricerca dell'architettura neurale
Segmentazione di immagini e adattamento di basso rango
Statistica robusta e apprendimento automatico geometrico
Qualsiasi applicazione che richieda ottimizzazione bilivello sotto vincoli di varietà

Questo articolo fornisce un contributo importante nel campo dell'ottimizzazione bilivello riemanniana, realizzando per la prima volta un design di algoritmo completamente adattivo che, pur mantenendo la complessità teorica, migliora significativamente la praticità e la robustezza. Nonostante un certo costo di complessità, la sua innovazione teorica e il suo valore pratico lo rendono un progresso importante in questo campo.