The "pre-train, prompt'' paradigm, designed to bridge the gap between pre-training tasks and downstream objectives, has been extended from the NLP domain to the graph domain and has achieved remarkable progress. Current mainstream graph prompt-tuning methods modify input or output features using learnable prompt vectors. However, existing approaches are confined to single-granularity (e.g., node-level or subgraph-level) during prompt generation, overlooking the inherently multi-scale structural information in graph data, which limits the diversity of prompt semantics. To address this issue, we pioneer the integration of multi-scale information into graph prompt and propose a Multi-Scale Graph Chain-of-Thought (MSGCOT) prompting framework. Specifically, we design a lightweight, low-rank coarsening network to efficiently capture multi-scale structural features as hierarchical basis vectors for prompt generation. Subsequently, mimicking human cognition from coarse-to-fine granularity, we dynamically integrate multi-scale information at each reasoning step, forming a progressive coarse-to-fine prompt chain. Extensive experiments on eight benchmark datasets demonstrate that MSGCOT outperforms the state-of-the-art single-granularity graph prompt-tuning method, particularly in few-shot scenarios, showcasing superior performance.
- ID Articolo: 2510.09394
- Titolo: Interazioni di ordine superiore di prompt multi-strato (Oltre i Prompt a Granularità Singola: Apprendimento Multi-Scala di Catene di Pensiero per Grafi)
- Autori: Ziyu Zheng, Yaming Yang, Ziyu Guan, Wei Zhao, Xinyan Huang, Weigang Lu
- Classificazione: cs.CL, cs.AI
- Data di Pubblicazione/Conferenza: Acronimo Conferenza 'XX, 03–05 giugno 2018, Woodstock, NY (in corso di pubblicazione)
- Link Articolo: https://arxiv.org/abs/2510.09394
Il paradigma "pre-addestramento-prompt" mira a colmare il divario tra i compiti di pre-addestramento e gli obiettivi a valle, estendendosi dal dominio dell'elaborazione del linguaggio naturale al dominio dei grafi con progressi significativi. I metodi attuali di ottimizzazione dei prompt per grafi utilizzano vettori di prompt appresi per modificare le caratteristiche di input o output. Tuttavia, i metodi esistenti sono limitati a una granularità singola durante il processo di generazione dei prompt (come a livello di nodo o sottografo), trascurando le informazioni strutturali multi-scala intrinseche nei dati grafici, il che limita la diversità semantica dei prompt. Per affrontare questo problema, questo articolo integra per la prima volta informazioni multi-scala nei prompt per grafi, proponendo il framework di prompt a catena di pensiero per grafi multi-scala (MSGCOT). Nello specifico, viene progettata una rete di coarsening a basso rango leggera per catturare efficientemente caratteristiche strutturali multi-scala come vettori base gerarchici per la generazione di prompt. Successivamente, simulando il processo cognitivo umano da granularità grossolana a fine, il metodo integra dinamicamente informazioni multi-scala in ogni fase di ragionamento, formando una catena di prompt progressiva da grossolana a fine. Esperimenti estensivi su otto dataset di riferimento dimostrano che MSGCOT supera i metodi di ottimizzazione dei prompt per grafi a granularità singola all'avanguardia, mostrando prestazioni superiori in particolare negli scenari con pochi campioni.
Il problema centrale affrontato da questa ricerca è la limitazione della granularità singola nei metodi di apprendimento dei prompt per reti neurali grafiche esistenti. Nello specifico, si manifesta come:
- Restrizione a granularità singola: I metodi esistenti (come GPF+, GCOT, ecc.) si concentrano solo su un singolo livello di informazione (a livello di nodo, bordo o sottografo), ignorando le informazioni multi-scala coesistenti da nodi a sottografi gerarchici nei dati grafici
- Diversità semantica insufficiente: La generazione di prompt a granularità singola limita la capacità espressiva e la ricchezza semantica dei prompt
- Utilizzo insufficiente delle informazioni strutturali: Mancato sfruttamento completo delle caratteristiche strutturali gerarchiche intrinseche ai dati grafici
L'importanza di questo problema si manifesta in:
- Esigenze di applicazioni pratiche: I dati grafici del mondo reale (reti sociali, grafi molecolari, sistemi di raccomandazione, ecc.) contengono intrinsecamente informazioni strutturali multi-livello
- Spazio per il miglioramento delle prestazioni: L'utilizzo efficace di informazioni multi-scala può migliorare significativamente la capacità di generalizzazione del modello negli scenari di apprendimento con pochi campioni
- Completezza teorica: Colma il vuoto nella struttura teorica dell'apprendimento dei prompt per grafi nella modellazione delle informazioni multi-granularità
- GCOT: Sebbene adotti la generazione di prompt multi-step, rimane limitato alla granularità a livello di nodo in ogni fase
- Metodi a prompt singolo (GPF+, EdgePrompt, ecc.): Generano direttamente prompt completi, mancando di meccanismi di ottimizzazione progressiva
- Metodi dipendenti dal pre-addestramento: Richiedono strategie di pre-addestramento specifiche, con generalizzabilità limitata
- Framework innovativo di catena di pensiero per grafi multi-scala: Propone il primo framework di apprendimento dei prompt a catena di pensiero per grafi che integra informazioni multi-granularità, superando le limitazioni della granularità singola dei metodi esistenti
- Meccanismo innovativo di simulazione cognitiva: Progetta una rete di coarsening a basso rango per l'estrazione di caratteristiche multi-scala e propone un meccanismo di prompt ricorsivo per realizzare la generazione progressiva di prompt, simulando il processo cognitivo umano da grossolano a fine
- Progettazione leggera ed efficiente: Attraverso la decomposizione a basso rango riduce significativamente il numero di parametri (riduzione del 47,1%-85,7% rispetto a GCOT), mantenendo prestazioni eccellenti
- Verifica sperimentale completa: Raggiunge prestazioni ottimali su 8 dataset di riferimento nei compiti di classificazione di nodi e grafi, con vantaggi particolarmente evidenti negli scenari con pochi campioni
Input: Grafo G=(V,E), dove V è l'insieme dei nodi, E è l'insieme dei bordi, matrice delle caratteristiche dei nodi X∈RN×F, matrice di adiacenza A∈RN×N
Output: Rappresentazione ottimizzata per compiti a valle (classificazione di nodi/grafi)
Vincoli: I parametri del modello pre-addestrato rimangono congelati, aggiornando solo i parametri dei prompt leggeri
Il framework MSGCOT contiene tre moduli fondamentali:
- Generazione di prompt a livello di nodo: Genera vettori di prompt specifici per il compito
- Costruzione di pensiero multi-scala: Costruisce rappresentazioni gerarchiche attraverso la rete di coarsening
- Prompt ricorsivo da grossolano a fine: Integrazione progressiva di prompt multi-scala
Px=CONDNET(H)H^=GNN(X⊙Px,A)dove H è l'embedding pre-addestrato, Px è il prompt a livello di nodo, H^ è l'embedding dopo il prompt.
Adotta una progettazione di decomposizione a basso rango per una rete di coarsening leggera:
Sl=Softmax(Wupl(σ(WdownlTTl−1)))Tl=SlTTl−1dove Wdown∈Rd×r, Wup∈Rr×Cl (r≪d), Tl è la rappresentazione coarsened al livello l.
pil+1=∑j=1Clαijl+1tjlαijl+1=∑kexp(tklh^il)exp(tjlh^il)h^il+1=h^il+pil+1- Efficienza dei parametri: Attraverso la decomposizione a basso rango riduce i parametri da O(d×Cl) a O(d×r+r×Cl)
- Cattura multi-scala: Il coarsening progressivo genera rappresentazioni strutturali di diverse granularità
- Adattamento al compito: La matrice di allocazione apprezzabile si adatta a diversi compiti a valle
- Simulazione della cognizione umana: Comprensione progressiva dalla topologia globale ai dettagli locali
- Pensiero strutturato: Utilizza rappresentazioni gerarchiche coarsened come sostituto "strutturato" ai template testuali
- Integrazione dinamica: Seleziona e integra dinamicamente informazioni di diverse granularità in ogni fase
Introduce una perdita di ricostruzione del coseno per prevenire la perdita di informazioni sui nodi:
Lr=N1(1−∣∣h^i∣∣⋅∣∣hi∣∣h^i⋅hi)γClassificazione di nodi:
- Cora (2.708 nodi, 7 classi)
- Citeseer (3.327 nodi, 6 classi)
- Pubmed (19.717 nodi, 3 classi)
- Photo (7.650 nodi, 8 classi)
Classificazione di grafi:
- MUTAG (188 grafi, composti molecolari)
- COX2 (467 grafi, inibitori della cicloossigenasi)
- BZR (405 grafi, ligandi del recettore delle benzodiazepine)
- PROTEINS (1.113 grafi, strutture proteiche)
- Accuratezza (Accuracy): Metrica di valutazione standard per compiti di classificazione
- Significatività statistica: Media e varianza di 100 campionamenti casuali
- Apprendimento supervisionato: GCN, GAT
- Pre-addestramento + fine-tuning: LP, GraphCL, DGI/InfoGraph
- Pre-addestramento + prompt:
- Singolo step: All-in-One, GPF+, SUPT, GraphPrompt, EdgePrompt+, DAGPrompT
- Multi-step: GCOT
- Rete backbone: GCN (strato nascosto 256 dimensioni)
- Numero di strati di coarsening: 2 strati
- Rapporto di coarsening: {0.01, 0.1, 0.2, 0.3}
- Dimensione a basso rango: r=8 per compiti su nodi, r=1 per compiti su grafi
- Peso del vincolo: α=1 per classificazione di nodi, α=0 per classificazione di grafi
Su 8 dataset, MSGCOT raggiunge prestazioni ottimali:
Classificazione di nodi:
- Cora: 62,13% (vs GCOT 59,54%, +4,35%)
- Citeseer: 49,05% (vs GCOT 48,13%, +1,91%)
- Pubmed: 64,67% (vs GCOT 63,38%, +2,04%)
- Photo: 68,01% (vs GCOT 66,98%, +1,54%)
Classificazione di grafi:
- MUTAG: 63,54% (vs GCOT 60,34%, +5,30%)
- COX2: 73,62% (vs DAGPrompt 55,00%, +33,85%)
- BZR: 69,85% (vs DAGPrompt 55,49%, +25,87%)
- PROTEINS: 57,83% (vs DAGPrompt 56,22%, +2,86%)
Negli scenari con 1-3 campioni, MSGCOT supera i metodi di base in media del 5-8%, dimostrando eccellente capacità di generalizzazione con pochi campioni.
Esperimenti di ablazione sistematici verificano il contributo di ogni componente:
- Prompt multi-scala (MSP): La rimozione causa una diminuzione media del 5,52% nei compiti su nodi e del 17,7% nei compiti su grafi
- Perdita di ricostruzione (RE): Impatto significativo sulla classificazione di nodi, i compiti su grafi si concentrano su informazioni globali
- Meccanismo ricorsivo (TB): Particolarmente critico per la classificazione di grafi, i prompt unidirezionali causano una diminuzione del 12-15%
- Aggiornamento incrementale (IU): L'aggiornamento progressivo porta a un miglioramento del 2-5%
Riduzione significativa del numero di parametri rispetto a GCOT:
- Classificazione di nodi: Riduzione di parametri del 47,1%-68,3%
- Classificazione di grafi: Riduzione di parametri del 29,1%-85,7%
- Efficienza temporale: Tempo medio di addestramento per round ridotto del 34,8% nei compiti su grafi
- Rapporto di coarsening: Intervallo ottimale 0,1-0,3 per compiti su nodi, stabile nell'intervallo 0,05-0,3 per compiti su grafi
- Numero di strati di coarsening: Ottimale a 2 strati per compiti su nodi, supporta strati più profondi per compiti su grafi
- Dimensione nascosta: Ottimale con r=8 per compiti su nodi, prestazioni eccellenti con r=1 per compiti su grafi
- Apprendimento contrastivo: GraphCL, DGI e altri apprendono rappresentazioni attraverso coppie di campioni positivi e negativi
- Apprendimento generativo: Pre-addestramento attraverso la ricostruzione di caratteristiche di nodi o strutture grafiche
- Limitazioni: Il divario tra l'obiettivo di pre-addestramento e il compito a valle limita le prestazioni
- Metodi dipendenti dal pre-addestramento: GPPT, GraphPrompt, All-in-One
- Metodi indipendenti dal pre-addestramento: GPF+, SUPT, EdgePrompt
- Prompt multi-step: GCOT introduce il concetto di catena di pensiero ma rimane limitato alla granularità singola
- Metodi tradizionali: Clustering spettrale, fattorizzazione di matrici non negative
- Metodi apprezzabili: DiffPool e altri realizzano rappresentazioni gerarchiche attraverso matrici di allocazione apprezzabili
- Contributo di questo articolo: Combina il coarsening dei grafi con l'apprendimento dei prompt, realizzando la generazione di prompt multi-scala
- Importanza delle informazioni multi-scala: Gli esperimenti dimostrano che le informazioni strutturali multi-scala sono cruciali per l'apprendimento dei prompt per grafi
- Efficacia della progettazione ispirata alla cognizione: La simulazione del processo cognitivo umano da grossolano a fine migliora significativamente le prestazioni
- Equilibrio tra efficienza dei parametri e prestazioni: La progettazione a basso rango mantiene prestazioni eccellenti riducendo drasticamente i parametri
- Vantaggi nell'apprendimento con pochi campioni: I prompt multi-scala mostrano prestazioni particolarmente eccellenti negli scenari di scarsità di dati
- Complessità computazionale: Il ragionamento multi-step aumenta il carico computazionale
- Sensibilità degli iperparametri: Il rapporto di coarsening e il numero di strati richiedono ottimizzazione per diversi tipi di compiti
- Analisi teorica insufficiente: Mancano garanzie teoriche sull'efficacia dei prompt multi-scala
- Strategie di coarsening adattive: Ricerca di meccanismi di coarsening adattivi ai compiti
- Analisi teorica: Stabilire un framework teorico per l'apprendimento dei prompt multi-scala
- Estensione delle applicazioni: Esplorare il potenziale applicativo in più compiti di apprendimento su grafi
- Forte innovatività: Primo a integrare sistematicamente informazioni multi-scala nell'apprendimento dei prompt per grafi
- Progettazione ragionevole: La rete di coarsening a basso rango e il meccanismo ricorsivo sono ingegnosi, bilanciando efficienza ed efficacia
- Esperimenti completi: 8 dataset, molteplici metodi di confronto, esperimenti di ablazione dettagliati
- Alto valore pratico: Vantaggi evidenti negli scenari con pochi campioni, allineato alle esigenze di applicazioni pratiche
- Fondamenti teorici deboli: Manca l'analisi teorica e le garanzie sull'efficacia del metodo
- Analisi insufficiente del carico computazionale: Sebbene fornisca analisi di complessità, i confronti di tempo di esecuzione effettivo sono limitati
- Discussione insufficiente dell'applicabilità: L'analisi dell'applicabilità a diversi tipi di dati grafici è incompleta
- Contributo accademico: Fornisce una nuova direzione di ricerca nel campo dell'apprendimento dei prompt per grafi
- Valore pratico: Ha importante valore applicativo negli scenari di apprendimento con pochi campioni con risorse limitate
- Riproducibilità: Fornisce dettagli di implementazione dettagliati e impostazioni degli iperparametri
- Apprendimento su grafi con pochi campioni: Compiti di analisi di grafi con dati annotati scarsi
- Analisi di grafi multi-scala: Applicazioni che richiedono la cattura di informazioni strutturali multi-livello
- Ambienti con risorse limitate: Scenari di distribuzione con requisiti di efficienza dei parametri
Questo articolo cita 38 articoli correlati, coprendo molteplici domini correlati come reti neurali grafiche, pre-addestramento di grafi, apprendimento dei prompt e coarsening di grafi, fornendo una solida base teorica per la ricerca.
Valutazione Complessiva: Questo è un articolo di alta qualità sull'apprendimento dei prompt per reti neurali grafiche, che affronta innovativamente il problema della limitazione della granularità singola nei metodi esistenti. La progettazione del metodo è ragionevole, la verifica sperimentale è completa, e ha importanza significativa sia nei contributi teorici che nel valore pratico. Sebbene vi sia ancora spazio per il miglioramento nell'analisi teorica, nel complesso fornisce un contributo importante al campo dell'apprendimento dei prompt per grafi.