Existing methods for solving Riemannian bilevel optimization (RBO) problems require prior knowledge of the problem's first- and second-order information and curvature parameter of the Riemannian manifold to determine step sizes, which poses practical limitations when these parameters are unknown or computationally infeasible to obtain. In this paper, we introduce the Adaptive Riemannian Hypergradient Descent (AdaRHD) algorithm for solving RBO problems. To our knowledge, AdaRHD is the first method to incorporate a fully adaptive step size strategy that eliminates the need for problem-specific parameters in RBO. We prove that AdaRHD achieves an $\mathcal{O}(1/ε)$ iteration complexity for finding an $ε$-stationary point, thus matching the complexity of existing non-adaptive methods. Furthermore, we demonstrate that substituting exponential mappings with retraction mappings maintains the same complexity bound. Experiments demonstrate that AdaRHD achieves comparable performance to existing non-adaptive approaches while exhibiting greater robustness.
- ID Articolo: 2504.06042
- Titolo: An Adaptive Algorithm for Bilevel Optimization on Riemannian Manifolds
- Autori: Xu Shi, Rufeng Xiao, Rujun Jiang (Scuola di Data Science, Università di Fudan)
- Classificazione: math.OC (Ottimizzazione e Controllo)
- Conferenza di Pubblicazione: NeurIPS 2025 (39ª Conferenza sui Sistemi di Elaborazione dell'Informazione Neurale)
- Link Articolo: https://arxiv.org/abs/2504.06042
I metodi esistenti per risolvere problemi di ottimizzazione bilivello riemanniana (RBO) richiedono la conoscenza preliminare delle informazioni del primo e secondo ordine del problema e dei parametri di curvatura della varietà riemanniana per determinare la dimensione del passo, il che comporta limitazioni pratiche quando i parametri sono sconosciuti o il calcolo non è fattibile. Questo articolo propone l'algoritmo di discesa del supergradiente riemanniano adattivo (AdaRHD) per risolvere i problemi RBO. A nostra conoscenza, AdaRHD è il primo metodo in RBO che adotta una strategia di dimensione del passo completamente adattiva, eliminando la necessità di parametri specifici del problema. Dimostriamo che AdaRHD raggiunge una complessità iterativa O(1/ε) per trovare punti ε-stazionari, corrispondente alla complessità dei metodi non adattivi esistenti. Inoltre, dimostriamo che la sostituzione della mappa esponenziale con una mappa di contrazione mantiene lo stesso limite di complessità. Gli esperimenti mostrano che AdaRHD raggiunge prestazioni comparabili ai metodi non adattivi esistenti mentre dimostra una robustezza superiore.
I problemi di ottimizzazione bilivello hanno ampie applicazioni nel campo dell'apprendimento automatico, inclusi l'apprendimento per rinforzo, il meta-apprendimento, l'ottimizzazione degli iperparametri e l'apprendimento avversariale. L'ottimizzazione bilivello riemanniana (RBO) è un'estensione dell'ottimizzazione bilivello su varietà riemanniane, con forma generale:
minx∈MxF(x):=f(x,y∗(x))s.t. y∗(x)=argminy∈Myg(x,y)
dove Mx,My sono varietà riemanniane, f,g sono funzioni lisce e g(x,y) è geodetica fortemente convessa rispetto a y.
- Dipendenza dai Parametri: I metodi RBO esistenti (come RHGD, RieBO, ecc.) richiedono la conoscenza preliminare di parametri di forte convessità, costanti di Lipschitz, parametri di curvatura, ecc. per determinare la dimensione del passo
- Limitazioni Pratiche: Questi parametri sono spesso difficili da stimare o hanno costi computazionali eccessivi nelle applicazioni reali
- Robustezza Insufficiente: Le strategie di dimensione del passo fissa sono sensibili all'inizializzazione e alle condizioni del problema
La motivazione centrale di questo articolo è progettare un algoritmo RBO completamente adattivo che possa:
- Operare senza conoscenza preliminare di parametri specifici del problema
- Regolare automaticamente la dimensione del passo per adattarsi alle caratteristiche del problema
- Mantenere una complessità teorica comparabile ai metodi non adattivi
- Fornire una robustezza pratica superiore
- Primo Algoritmo RBO Adattivo: Propone AdaRHD, il primo algoritmo di ottimizzazione bilivello riemanniana che adotta una strategia di dimensione del passo completamente adattiva, eliminando la dipendenza da forte convessità, costanti di Lipschitz e parametri di curvatura
- Corrispondenza della Complessità Teorica: Dimostra che AdaRHD raggiunge una complessità iterativa O(1/ε) per trovare punti ε-stazionari, corrispondente alla complessità dei metodi non adattivi esistenti
- Estensione della Mappa di Contrazione: Dimostra che la sostituzione della mappa esponenziale con una mappa di contrazione computazionalmente più efficiente mantiene le stesse garanzie di complessità
- Verifica Sperimentale: Valida l'efficacia e la robustezza dell'algoritmo su molteplici problemi RBO, inclusi l'apprendimento di rappresentazioni super-riemanniane e problemi di ottimizzazione robusta
Consideriamo il problema di ottimizzazione bilivello riemanniana:
- Problema di Livello Superiore: Minimizzare F(x)=f(x,y∗(x)) sulla varietà Mx
- Problema di Livello Inferiore: Per un dato x, risolvere y∗(x)=argminyg(x,y) sulla varietà My
- Vincoli: g(x,y) è geodetica fortemente convessa rispetto a y, f non richiede convessità
Il supergradiente riemanniano è definito come:
GF(x)=Gxf(x,y∗(x))−Gxy2g(x,y∗(x))[Hy−1g(x,y∗(x))[Gyf(x,y∗(x))]]
Poiché il calcolo esatto è difficile, si utilizza il supergradiente riemanniano approssimato:
G^F(x,y^,v^)=Gxf(x,y^)−Gxy2g(x,y^)[v^]
dove y^ è una soluzione approssimata del problema di livello inferiore e v^ è una soluzione approssimata del sistema lineare.
Algoritmo 1: Passaggi Principali di AdaRHD
- Risoluzione del Problema di Livello Inferiore: Utilizzando discesa del gradiente adattiva
- Aggiornamento della dimensione del passo: bk+12=bk2+∥Gyg(xt,ytk)∥2
- Aggiornamento iterativo: ytk+1=Expytk(−bk+11Gyg(xt,ytk))
- Risoluzione del Sistema Lineare: Due strategie
- Discesa del Gradiente: Dimensione del passo adattiva simile al problema di livello inferiore
- Gradiente Coniugato: Utilizzo del metodo del gradiente coniugato nello spazio tangente
- Aggiornamento di Livello Superiore: Discesa del supergradiente adattiva
- Aggiornamento della dimensione del passo: at+12=at2+∥G^F(xt,ytKt,vtNt)∥2
- Aggiornamento iterativo: xt+1=Expxt(−at+11G^F(xt,ytKt,vtNt))
- Strategia della Norma del Gradiente Cumulativa: Adotta il "reciproco della norma del gradiente riemanniano cumulativo" come dimensione del passo adattiva, senza necessità di conoscere i parametri del problema
- Adattività a Tre Livelli: Applica la dimensione del passo adattiva al livello superiore, inferiore e al sistema lineare, formando un framework adattivo completo
- Ottimizzazione della Mappa di Contrazione: Fornisce una versione che utilizza la mappa di contrazione al posto della mappa esponenziale, riducendo la complessità computazionale
- Garanzie Teoriche: Analisi di convergenza rigorosa che affronta le sfide tecniche derivanti dalla struttura geometrica della varietà riemanniana
- Semplice Problema di Similarità Matriciale: Ottimizzazione su varietà di Stiefel e varietà SPD
- Scala dei dati: n=100 e n=1000
- Impostazioni dei parametri: d=50, r=20, λ=0.01
- Apprendimento di Rappresentazioni Super Profonde: Dataset di riconoscimento delle emozioni AFEW
- Architettura di rete SPD a 3 livelli
- 7 categorie di emozioni, 1747 campioni di addestramento
- Distribuzione delle classi sbilanciata
- Problemi di Ottimizzazione Robusta:
- Problema della media di Karcher robusta
- Problema della stima di massima verosimiglianza robusta
- RHGD-20/50: Discesa del supergradiente riemanniano, numero massimo di iterazioni del problema di livello inferiore 20/50
- AdaRHD-GD: AdaRHD che utilizza discesa del gradiente per risolvere il sistema lineare
- AdaRHD-CG: AdaRHD che utilizza gradiente coniugato per risolvere il sistema lineare
- Valore della funzione obiettivo di livello superiore
- Errore di stima del supergradiente
- Accuratezza di validazione
- Tempo di convergenza e numero di iterazioni
Esperimenti su Problemi Semplici:
- AdaRHD mostra una velocità di convergenza più rapida su entrambe le scale di dati
- Errore di stima del supergradiente inferiore, in particolare per AdaRHD-CG
- Vantaggi nel tempo di calcolo, specialmente su problemi su larga scala
Analisi di Robustezza:
- AdaRHD mostra una robustezza significativa con diverse impostazioni di dimensione del passo iniziale
- RHGD fallisce con dimensioni di passo grandi (5, 1, 0.5), mentre AdaRHD converge ancora stabilmente
- AdaRHD-CG è il più veloce nel raggiungere l'85% di accuratezza di validazione
- Vantaggio di Robustezza: AdaRHD è insensibile alla scelta della dimensione del passo iniziale, mentre RHGD fallisce completamente con dimensioni di passo inadatte
- Miglioramento dell'Efficienza: Sebbene AdaRHD richieda più iterazioni esterne, grazie alla strategia adattiva, il tempo di calcolo totale rimane competitivo
- Selezione del Metodo: AdaRHD-CG supera AdaRHD-GD in termini di precisione e robustezza, ma quest'ultimo converge più rapidamente nella fase iniziale
Teorema 3.1: Sotto le ipotesi standard, AdaRHD soddisfa:
T1∑t=0T−1∥GF(xt)∥xt2≤TC=O(T1)
Corollario 3.1: Complessità per raggiungere un punto ε-stazionario:
- Numero totale di iterazioni: T = O(1/ε)
- Complessità del gradiente: Gf=O(1/ε), Gg=O(1/ε2)
- Complessità del prodotto Hessiano-vettore: O(1/ε²) per AdaRHD-GD, Õ(1/ε) per AdaRHD-CG
- Struttura Geometrica: La curvatura della varietà riemanniana introduce complessità analitica aggiuntiva
- Disuguaglianza Triangolare Geodetica: Richiede l'uso di disuguaglianze triangolari specifiche della varietà riemanniana anziché i corrispondenti euclidei
- Analisi della Dimensione del Passo Adattiva: La strategia adattiva potrebbe causare comportamenti divergenti nella fase iniziale, richiedendo un trattamento teorico rigoroso
- Ottimizzazione bilivello euclidea: Metodi AID, ITD, serie di Neumann, gradiente coniugato, ecc.
- Metodi adattivi recenti: D-TFBO, ecc.
- Metodi classici: Discesa del gradiente riemanniano, gradiente coniugato non lineare, gradiente stocastico con varianza ridotta, ecc.
- Metodi adattivi: RASA, RAMSGrad, Riemannian SAM, ecc.
- RieBO/RieSBO: Ottimizzazione bilivello riemanniana deterministica e stocastica
- RHGD: Framework di discesa del supergradiente riemanniano
- RF2SA: Metodo del primo ordine completamente casuale
- AdaRHD è il primo algoritmo di ottimizzazione bilivello riemanniana completamente adattivo, eliminando la dipendenza da parametri specifici del problema
- Teoricamente raggiunge la stessa complessità O(1/ε) dei metodi non adattivi
- Gli esperimenti verificano l'efficacia dell'algoritmo e i vantaggi significativi di robustezza
- Divario di Complessità: La complessità del gradiente e del prodotto Hessiano-vettore è superiore di 1/ε rispetto ai metodi non adattivi
- Condizioni di Ipotesi: Richiede ancora la forte convessità geodetica del problema di livello inferiore
- Algoritmo a Ciclo Singolo vs Doppio: Attualmente considera solo algoritmi a ciclo doppio
- Algoritmo a Ciclo Singolo: Progettare algoritmi di ottimizzazione bilivello riemanniana adattivi a ciclo singolo
- Impostazione Stocastica: Estendere all'ottimizzazione bilivello riemanniana stocastica
- Convessità Debole: Affrontare obiettivi di livello inferiore geodetica convessi (non fortemente convessi)
- Ottimizzazione della Complessità: Esplorare strategie adattive per eliminare il divario di 1/ε
- Innovazione Teorica: Prima realizzazione di adattività completa in RBO con analisi teorica rigorosa
- Valore Pratico: Miglioramento significativo della robustezza e della facilità d'uso dell'algoritmo
- Profondità Tecnica: Affrontamento con successo delle sfide tecniche derivanti dalla geometria riemanniana
- Verifica Sperimentale Completa: Validazione completa su molteplici scenari di applicazione
- Costo di Complessità: L'adattività comporta un costo di complessità computazionale aggiuntiva
- Limitazioni delle Ipotesi: Richiede ancora condizioni di ipotesi relativamente forti
- Ambito di Applicazione: Principalmente concentrato su varietà riemanniane specifiche
- Contributo Accademico: Fornisce un progresso importante nel campo interdisciplinare dell'ottimizzazione riemanniana e dell'ottimizzazione bilivello
- Valore Pratico: Fornisce strumenti più robusti per l'ottimizzazione bilivello riemanniana nelle applicazioni pratiche
- Ricerca Successiva: Pone le basi per ulteriori ricerche sull'ottimizzazione riemanniana adattiva
- Meta-apprendimento riemanniano e ricerca dell'architettura neurale
- Segmentazione di immagini e adattamento di basso rango
- Statistica robusta e apprendimento automatico geometrico
- Qualsiasi applicazione che richieda ottimizzazione bilivello sotto vincoli di varietà
Questo articolo fornisce un contributo importante nel campo dell'ottimizzazione bilivello riemanniana, realizzando per la prima volta un design di algoritmo completamente adattivo che, pur mantenendo la complessità teorica, migliora significativamente la praticità e la robustezza. Nonostante un certo costo di complessità, la sua innovazione teorica e il suo valore pratico lo rendono un progresso importante in questo campo.