2025-11-17T15:28:12.912033

One Prompt Fits All: Universal Graph Adaptation for Pretrained Models

Huang, Zhao, He et al.
Graph Prompt Learning (GPL) has emerged as a promising paradigm that bridges graph pretraining models and downstream scenarios, mitigating label dependency and the misalignment between upstream pretraining and downstream tasks. Although existing GPL studies explore various prompt strategies, their effectiveness and underlying principles remain unclear. We identify two critical limitations: (1) Lack of consensus on underlying mechanisms: Despite current GPLs have advanced the field, there is no consensus on how prompts interact with pretrained models, as different strategies intervene at varying spaces within the model, i.e., input-level, layer-wise, and representation-level prompts. (2) Limited scenario adaptability: Most methods fail to generalize across diverse downstream scenarios, especially under data distribution shifts (e.g., homophilic-to-heterophilic graphs). To address these issues, we theoretically analyze existing GPL approaches and reveal that representation-level prompts essentially function as fine-tuning a simple downstream classifier, proposing that graph prompt learning should focus on unleashing the capability of pretrained models, and the classifier should adapt to downstream scenarios. Based on our findings, we propose UniPrompt, a novel GPL method that adapts any pretrained models, unleashing the capability of pretrained models while preserving the input graph. Extensive experiments demonstrate that our method can effectively integrate with various pretrained models and achieve strong performance across in-domain and cross-domain scenarios.
academic

Un Prompt per Tutti: Adattamento Universale di Grafi per Modelli Preaddestrati

Informazioni Fondamentali

  • ID Articolo: 2509.22416
  • Titolo: One Prompt Fits All: Universal Graph Adaptation for Pretrained Models
  • Autori: Yongqi Huang, Jitao Zhao, Dongxiao He, Xiaobao Wang, Yawen Li, Yuxiao Huang, Di Jin, Zhiyong Feng
  • Classificazione: cs.LG
  • Conferenza di Pubblicazione: NeurIPS 2025
  • Link Articolo: https://arxiv.org/abs/2509.22416

Riassunto

L'apprendimento con prompt per grafi (Graph Prompt Learning, GPL) rappresenta un paradigma efficace per collegare modelli di grafi preaddestrati e compiti a valle, mitigando la dipendenza dalle etichette e il disallineamento tra compiti a monte e a valle. Sebbene la ricerca GPL esistente abbia esplorato molteplici strategie di prompt, la loro efficacia e i meccanismi sottostanti rimangono poco chiari. Questo articolo identifica due limitazioni critiche: (1) mancanza di consenso sui meccanismi sottostanti: diverse strategie intervengono in spazi differenti del modello (livello di input, livello di strato, livello di rappresentazione); (2) adattabilità limitata a scenari: la maggior parte dei metodi fatica a generalizzare quando si verificano cambiamenti nella distribuzione dei dati. Attraverso analisi teorica, l'articolo rivela che i prompt a livello di rappresentazione sono essenzialmente equivalenti al fine-tuning di un semplice classificatore a valle, proponendo che l'apprendimento con prompt per grafi dovrebbe concentrarsi sul rilascio della capacità del modello preaddestrato, mentre il classificatore si adatta allo scenario a valle. Basandosi su questa scoperta, viene proposto il metodo UniPrompt, che può adattarsi a qualsiasi modello preaddestrato e ottenere prestazioni eccellenti sia in scenari interni che esterni al dominio.

Contesto di Ricerca e Motivazione

Problemi Fondamentali

L'apprendimento con prompt per grafi mira a risolvere il disallineamento tra modelli di grafi preaddestrati e compiti a valle, ma i metodi esistenti affrontano due sfide critiche:

  1. Comprensione dei Meccanismi Poco Chiara: I metodi GPL esistenti includono tre diverse strategie di prompt (livello di input, livello di strato e livello di rappresentazione), ma mancano di un quadro teorico unificato per spiegare il funzionamento di questi diversi meccanismi.
  2. Adattabilità Insufficiente: La maggior parte dei metodi mostra un calo significativo delle prestazioni di fronte a cambiamenti nella distribuzione dei dati (come il passaggio da grafi omogenei a grafi eterogenei), non riuscendo a generalizzare efficacemente a scenari a valle diversi.

Importanza della Ricerca

  • Significato Teorico: Fornire un quadro teorico unificato per l'apprendimento con prompt per grafi, chiarendo l'essenza di diversi meccanismi di prompt
  • Valore Pratico: Migliorare l'efficacia dei modelli di grafi preaddestrati nell'apprendimento con pochi esempi e nel trasferimento tra domini
  • Avanzamento Tecnologico: Promuovere lo sviluppo di modelli fondamentali per grafi, migliorando l'universalità e l'adattabilità dei modelli

Limitazioni dei Metodi Esistenti

Attraverso esperimenti di motivazione, si scopre che i metodi di prompt a livello di rappresentazione esistenti (come GPPT e GraphPrompt) mostrano prestazioni instabili quando si cambiano modelli preaddestrati, risultando persino inferiori ai semplici metodi di sondaggio lineare. Ciò suggerisce che i metodi esistenti potrebbero cadere nella trappola dell'"adattamento finto".

Contributi Fondamentali

  1. Contributo Teorico: Primo a provare teoricamente che i prompt a livello di rappresentazione sono essenzialmente equivalenti al fine-tuning di classificatori lineari, proponendo una nuova prospettiva secondo cui "i prompt rilasciano la capacità del modello preaddestrato, mentre il classificatore si adatta allo scenario a valle"
  2. Innovazione Metodologica: Propone UniPrompt, un metodo universale di prompt per grafi a livello di input, che apprende un grafo di prompt topologico mantenendo la struttura del grafo originale
  3. Verifica Sperimentale: Conduce esperimenti estesi su dataset di grafi omogenei e eterogenei, dimostrando l'efficacia del metodo in scenari sia interni che esterni al dominio
  4. Principi di Progettazione: Stabilisce principi di progettazione per l'apprendimento con prompt per grafi, fornendo guida per ricerche future

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un grafo G=(V,E,X,Y)G = (V, E, X, Y), dove VV è l'insieme dei nodi, EE è l'insieme degli archi, XRN×FX \in \mathbb{R}^{N \times F} è la matrice delle caratteristiche e YY è l'insieme delle etichette. L'obiettivo è, mantenendo congelato l'encoder preaddestrato fθf_\theta, ottimizzare la funzione di previsione attraverso parametri di prompt apprendibili Ψ\Psi:

maxΨ1D(A,X,y)Di=1NlogP(yiPredictΨ(A,X,vi;fθ))\max_\Psi \frac{1}{|D|} \sum_{(A,X,y) \in D} \sum_{i=1}^N \log P(y_i | \text{Predict}_\Psi(A,X,v_i; f_\theta))

Analisi Teorica

Teorema di Equivalenza dei Prompt a Livello di Rappresentazione

Teorema 4.1: Data una funzione di prompt lineare T(h)=WTh+bTT(h) = W_T h + b_T e un classificatore C(h)=WCThC(h) = W_C^T h, esiste un classificatore lineare equivalente C(h)=WCTh+bCC'(h) = W_{C'}^T h + b_{C'} tale che (CT)(h)=C(h)(C \circ T)(h) = C'(h).

Questo risultato teorico indica che i prompt a livello di rappresentazione sono equivalenti al sondaggio lineare sia nello spazio funzionale che negli obiettivi di ottimizzazione, pertanto l'attenzione dovrebbe essere rivolta ai prompt a livello di input.

Architettura UniPrompt

1. Inizializzazione del Prompt

Utilizza la costruzione di kNN per il grafo di prompt iniziale:

S_{ij}, & \text{se } S_{ij} \in \text{top-k}\{S_{i \cdot}\} \\ 0, & \text{altrimenti} \end{cases}$$ dove il calcolo della similarità è: $S_{ij} = \frac{x_i x_j^T}{\|x_i\|_2 \|x_j\|_2}$ #### 2. Meccanismo di Parametrizzazione Introduce pesi apprendibili $w_{ij}$ per ogni arco, utilizzando un meccanismo di gating: $$\tilde{A}_{ij} = \text{ELU}(w_{ij} \cdot \alpha - \alpha) + 1$$ #### 3. Ensemble Autoregressivo Adotta una strategia di aggiornamento iterativo per evitare il collasso del modello: $$\hat{A}^{(t)} = \tau \hat{A}^{(t-1)} + (1-\tau) \tilde{A}$$ dove $\hat{A}^{(0)} = A$ e $\tau \in [0,1]$ controlla l'equilibrio tra il grafo originale e il grafo di prompt. #### 4. Obiettivo di Ottimizzazione Ottimizza congiuntamente i parametri di prompt e il classificatore: $$\min_{\phi, \Psi} \frac{1}{|V_L|} \sum_{v_i \in V_L} \ell_D(g_\phi(f_\theta(p_\Psi(A,X))_i), y_i)$$ ## Configurazione Sperimentale ### Dataset Utilizza 9 dataset di classificazione dei nodi: - **Grafi Omogenei**: Cora, CiteSeer, PubMed - **Grafi Eterogenei**: Cornell, Texas, Wisconsin, Chameleon, Actor, Squirrel ### Metriche di Valutazione - **Accuratezza**: Accuratezza della classificazione dei nodi - **Impostazioni con Pochi Esempi**: Apprendimento 1-shot, 3-shot, 5-shot ### Metodi di Confronto - **Metodi di Base**: Fine-tune, Linear-probe - **Metodi GPL**: GPPT, GraphPrompt, All-in-one, GPF/GPF+, EdgePrompt/EdgePrompt+ - **Modelli Preaddestrati**: DGI, GRACE, GraphMAE ### Dettagli di Implementazione - Utilizza GCN/GAT a 2 strati come rete backbone - Addestramento per 2000 epoche, early stopping con patience=20 - 5 semi casuali × 20 esperimenti ripetuti ## Risultati Sperimentali ### Risultati Principali #### Classificazione dei Nodi Intra-Dominio 1-shot Ottiene miglioramenti significativi su grafi eterogenei come Cornell, Texas, Wisconsin: - Cornell: miglioramento dal miglior baseline 34,56% a 51,13% su DGI - Texas: miglioramento dal miglior baseline 37,50% a 48,21% - Wisconsin: miglioramento dal miglior baseline 33,91% a 58,75% #### Classificazione dei Nodi Cross-Dominio Nell'impostazione cross-dominio 1-shot: - PubMed: miglioramento da 46,84% a 55,01% - Cornell: miglioramento da 40,77% a 51,58% ### Esperimenti di Ablazione Verifica i componenti chiave attraverso esperimenti di sostituzione: - **Random_Topo**: Sostituisce la topologia kNN con una casuale, le prestazioni diminuiscono - **Simple_Add**: Sostituisce la strategia autoregressiva con semplice addizione, causando overfitting - **Discard_Topo**: Scarta completamente il grafo originale, le prestazioni diminuiscono significativamente sui grafi omogenei ### Analisi degli Iperparametri - **Parametro τ**: I grafi eterogenei richiedono valori τ più piccoli (0,999-0,9999), i grafi omogenei mostrano prestazioni stabili con τ≥0,9999 - **Parametro k**: I grafi eterogenei sparsi traggono il massimo beneficio, i grafi densi e omogenei sono relativamente stabili ### Costi Computazionali - Tempo di pre-elaborazione: circa 1,3 secondi - Aumento del tempo di addestramento per epoca moderato - Utilizzo della memoria GPU entro limiti accettabili ## Lavori Correlati ### Preaddestramento di Grafi - **Metodi di Apprendimento Contrastivo**: DGI, GRACE, GraphCL e altri apprendono rappresentazioni massimizzando l'informazione mutua - **Metodi Generativi**: GraphMAE e altri apprendono rappresentazioni attraverso ricostruzione mascherata ### Apprendimento con Prompt per Grafi - **Prompt a Livello di Input**: I metodi della serie GPF aggiungono vettori di prompt nello spazio delle caratteristiche - **Prompt a Livello di Rappresentazione**: GPPT, GraphPrompt e altri aggiungono prompt nello strato di output - **Prompt a Livello di Strato**: Integrano informazioni di prompt in vari strati della GNN ### Modelli Fondamentali per Grafi Lo sviluppo recente di modelli fondamentali per grafi fornisce nuovi scenari di applicazione e sfide per GPL. ## Conclusioni e Discussione ### Conclusioni Principali 1. **Intuizioni Teoriche**: I prompt a livello di rappresentazione sono equivalenti a classificatori lineari, l'attenzione dovrebbe concentrarsi sui prompt a livello di input 2. **Principi di Progettazione**: I prompt dovrebbero rilasciare la capacità del modello preaddestrato, mentre il classificatore si adatta al compito a valle 3. **Metodo Pratico**: UniPrompt realizza l'adattamento universale del modello attraverso prompt topologici adattivi ### Limitazioni 1. **Limitazioni nell'Integrazione con LLM**: Non esplora l'integrazione con modelli di linguaggio di grandi dimensioni 2. **Dipendenza dagli Iperparametri**: I parametri τ e k richiedono ottimizzazione per diversi tipi di dataset 3. **Copertura di Compiti Limitata**: Valuta principalmente la classificazione dei nodi, altri compiti su grafi rimangono da verificare 4. **Sensibilità al Rumore**: Relativamente sensibile al rumore nelle caratteristiche ### Direzioni Future 1. Estensione a classificazione di grafi, previsione di link e altri compiti 2. Integrazione con LLM per costruire modelli fondamentali per grafi più potenti 3. Miglioramento della robustezza al rumore e ai cambiamenti di distribuzione 4. Esplorazione di meccanismi di selezione automatica degli iperparametri ## Valutazione Approfondita ### Punti di Forza 1. **Contributo Teorico Eccezionale**: Primo a unificare teoricamente la comprensione di diversi meccanismi di prompt, fornendo intuizioni importanti 2. **Progettazione Metodologica Ingegnosa**: La strategia di ensemble autoregressivo evita efficacemente il collasso del modello, l'inizializzazione kNN sfrutta razionalmente la similarità delle caratteristiche 3. **Esperimenti Completi**: Copre molteplici modelli preaddestrati, tipi di dataset e impostazioni di valutazione 4. **Alto Valore Pratico**: Il metodo è semplice ed efficace, facile da implementare e distribuire ### Insufficienze 1. **Limitazioni dell'Analisi Teorica**: Principalmente per il caso lineare, l'analisi dei prompt non lineari non è sufficientemente approfondita 2. **Costi Computazionali**: La costruzione di kNN e gli aggiornamenti iterativi aumentano i costi computazionali 3. **Sensibilità ai Parametri**: I parametri chiave richiedono un'attenta ottimizzazione, il grado di automazione non è elevato 4. **Robustezza al Rumore**: Le prestazioni diminuiscono significativamente in presenza di rumore nelle caratteristiche ### Impatto 1. **Valore Accademico**: Fornisce una base teorica importante e principi di progettazione per l'apprendimento con prompt per grafi 2. **Significato Pratico**: Migliora l'adattabilità e la capacità di generalizzazione dei modelli di grafi preaddestrati 3. **Ispirazione per la Ricerca**: Indica la direzione per ricerche successive, in particolare l'importanza dei prompt a livello di input ### Scenari Applicabili 1. **Apprendimento con Pochi Esempi**: Compiti di apprendimento su grafi con dati annotati scarsi 2. **Trasferimento Cross-Dominio**: Scenari dove il preaddestramento e il compito a valle hanno distribuzioni diverse 3. **Elaborazione di Grafi Eterogenei**: Dati su grafi dove l'assunzione tradizionale di omogeneità non è valida 4. **Adattamento Rapido**: Applicazioni che richiedono distribuzione rapida di modelli preaddestrati ## Riferimenti Bibliografici L'articolo cita 91 articoli correlati, coprendo molteplici aree di ricerca incluse reti neurali su grafi, apprendimento auto-supervisionato su grafi, apprendimento con prompt per grafi e altri, fornendo una base teorica solida per la ricerca. --- **Sintesi**: Questo articolo, attraverso analisi teorica approfondita e verifica sperimentale estesa, fornisce importanti intuizioni teoriche e metodi pratici al campo dell'apprendimento con prompt per grafi. Il metodo UniPrompt è semplice ed efficace, con buona universalità e adattabilità, fornendo un contributo prezioso allo sviluppo di modelli fondamentali per grafi.