2025-11-23T22:46:17.287043

Beyond Single-Granularity Prompts: A Multi-Scale Chain-of-Thought Prompt Learning for Graph

Zheng, Yang, Guan et al.

The "pre-train, prompt'' paradigm, designed to bridge the gap between pre-training tasks and downstream objectives, has been extended from the NLP domain to the graph domain and has achieved remarkable progress. Current mainstream graph prompt-tuning methods modify input or output features using learnable prompt vectors. However, existing approaches are confined to single-granularity (e.g., node-level or subgraph-level) during prompt generation, overlooking the inherently multi-scale structural information in graph data, which limits the diversity of prompt semantics. To address this issue, we pioneer the integration of multi-scale information into graph prompt and propose a Multi-Scale Graph Chain-of-Thought (MSGCOT) prompting framework. Specifically, we design a lightweight, low-rank coarsening network to efficiently capture multi-scale structural features as hierarchical basis vectors for prompt generation. Subsequently, mimicking human cognition from coarse-to-fine granularity, we dynamically integrate multi-scale information at each reasoning step, forming a progressive coarse-to-fine prompt chain. Extensive experiments on eight benchmark datasets demonstrate that MSGCOT outperforms the state-of-the-art single-granularity graph prompt-tuning method, particularly in few-shot scenarios, showcasing superior performance.

academic

Oltre i Prompt a Granularità Singola: Apprendimento Multi-Scala di Catene di Pensiero per Grafi

Informazioni Fondamentali

ID Articolo: 2510.09394
Titolo: Interazioni di ordine superiore di prompt multi-strato (Oltre i Prompt a Granularità Singola: Apprendimento Multi-Scala di Catene di Pensiero per Grafi)
Autori: Ziyu Zheng, Yaming Yang, Ziyu Guan, Wei Zhao, Xinyan Huang, Weigang Lu
Classificazione: cs.CL, cs.AI
Data di Pubblicazione/Conferenza: Acronimo Conferenza 'XX, 03–05 giugno 2018, Woodstock, NY (in corso di pubblicazione)
Link Articolo: https://arxiv.org/abs/2510.09394

Riassunto

Il paradigma "pre-addestramento-prompt" mira a colmare il divario tra i compiti di pre-addestramento e gli obiettivi a valle, estendendosi dal dominio dell'elaborazione del linguaggio naturale al dominio dei grafi con progressi significativi. I metodi attuali di ottimizzazione dei prompt per grafi utilizzano vettori di prompt appresi per modificare le caratteristiche di input o output. Tuttavia, i metodi esistenti sono limitati a una granularità singola durante il processo di generazione dei prompt (come a livello di nodo o sottografo), trascurando le informazioni strutturali multi-scala intrinseche nei dati grafici, il che limita la diversità semantica dei prompt. Per affrontare questo problema, questo articolo integra per la prima volta informazioni multi-scala nei prompt per grafi, proponendo il framework di prompt a catena di pensiero per grafi multi-scala (MSGCOT). Nello specifico, viene progettata una rete di coarsening a basso rango leggera per catturare efficientemente caratteristiche strutturali multi-scala come vettori base gerarchici per la generazione di prompt. Successivamente, simulando il processo cognitivo umano da granularità grossolana a fine, il metodo integra dinamicamente informazioni multi-scala in ogni fase di ragionamento, formando una catena di prompt progressiva da grossolana a fine. Esperimenti estensivi su otto dataset di riferimento dimostrano che MSGCOT supera i metodi di ottimizzazione dei prompt per grafi a granularità singola all'avanguardia, mostrando prestazioni superiori in particolare negli scenari con pochi campioni.

Contesto di Ricerca e Motivazione

Definizione del Problema

Il problema centrale affrontato da questa ricerca è la limitazione della granularità singola nei metodi di apprendimento dei prompt per reti neurali grafiche esistenti. Nello specifico, si manifesta come:

Restrizione a granularità singola: I metodi esistenti (come GPF+, GCOT, ecc.) si concentrano solo su un singolo livello di informazione (a livello di nodo, bordo o sottografo), ignorando le informazioni multi-scala coesistenti da nodi a sottografi gerarchici nei dati grafici
Diversità semantica insufficiente: La generazione di prompt a granularità singola limita la capacità espressiva e la ricchezza semantica dei prompt
Utilizzo insufficiente delle informazioni strutturali: Mancato sfruttamento completo delle caratteristiche strutturali gerarchiche intrinseche ai dati grafici

Analisi dell'Importanza

L'importanza di questo problema si manifesta in:

Esigenze di applicazioni pratiche: I dati grafici del mondo reale (reti sociali, grafi molecolari, sistemi di raccomandazione, ecc.) contengono intrinsecamente informazioni strutturali multi-livello
Spazio per il miglioramento delle prestazioni: L'utilizzo efficace di informazioni multi-scala può migliorare significativamente la capacità di generalizzazione del modello negli scenari di apprendimento con pochi campioni
Completezza teorica: Colma il vuoto nella struttura teorica dell'apprendimento dei prompt per grafi nella modellazione delle informazioni multi-granularità

Limitazioni dei Metodi Esistenti

GCOT: Sebbene adotti la generazione di prompt multi-step, rimane limitato alla granularità a livello di nodo in ogni fase
Metodi a prompt singolo (GPF+, EdgePrompt, ecc.): Generano direttamente prompt completi, mancando di meccanismi di ottimizzazione progressiva
Metodi dipendenti dal pre-addestramento: Richiedono strategie di pre-addestramento specifiche, con generalizzabilità limitata

Contributi Fondamentali

Framework innovativo di catena di pensiero per grafi multi-scala: Propone il primo framework di apprendimento dei prompt a catena di pensiero per grafi che integra informazioni multi-granularità, superando le limitazioni della granularità singola dei metodi esistenti
Meccanismo innovativo di simulazione cognitiva: Progetta una rete di coarsening a basso rango per l'estrazione di caratteristiche multi-scala e propone un meccanismo di prompt ricorsivo per realizzare la generazione progressiva di prompt, simulando il processo cognitivo umano da grossolano a fine
Progettazione leggera ed efficiente: Attraverso la decomposizione a basso rango riduce significativamente il numero di parametri (riduzione del 47,1%-85,7% rispetto a GCOT), mantenendo prestazioni eccellenti
Verifica sperimentale completa: Raggiunge prestazioni ottimali su 8 dataset di riferimento nei compiti di classificazione di nodi e grafi, con vantaggi particolarmente evidenti negli scenari con pochi campioni

Spiegazione Dettagliata del Metodo

Definizione del Compito

Input: Grafo $G = (V, E)$ , dove $V$ è l'insieme dei nodi, $E$ è l'insieme dei bordi, matrice delle caratteristiche dei nodi $X \in \mathbb{R}^{N \times F}$ , matrice di adiacenza $A \in \mathbb{R}^{N \times N}$

Output: Rappresentazione ottimizzata per compiti a valle (classificazione di nodi/grafi)

Vincoli: I parametri del modello pre-addestrato rimangono congelati, aggiornando solo i parametri dei prompt leggeri

Architettura del Modello

1. Framework Complessivo

Il framework MSGCOT contiene tre moduli fondamentali:

Generazione di prompt a livello di nodo: Genera vettori di prompt specifici per il compito
Costruzione di pensiero multi-scala: Costruisce rappresentazioni gerarchiche attraverso la rete di coarsening
Prompt ricorsivo da grossolano a fine: Integrazione progressiva di prompt multi-scala

2. Generazione di Prompt a Livello di Nodo

P_x = \text{CONDNET}(H)

\hat{H} = \text{GNN}(X \odot P_x, A)

dove $H$ è l'embedding pre-addestrato, $P_x$ è il prompt a livello di nodo, $\hat{H}$ è l'embedding dopo il prompt.

3. Costruzione di Pensiero Multi-Scala

Adotta una progettazione di decomposizione a basso rango per una rete di coarsening leggera:

S^l = \text{Softmax}(W_{up}^l(\sigma(W_{down}^{lT} T^{l-1})))

T^l = S^{lT} T^{l-1}

dove $W_{down} \in \mathbb{R}^{d \times r}$ , $W_{up} \in \mathbb{R}^{r \times C_l}$ ( $r \ll d$ ), $T^l$ è la rappresentazione coarsened al livello $l$ .

4. Meccanismo di Prompt Ricorsivo da Grossolano a Fine

p_i^{l+1} = \sum_{j=1}^{C_l} \alpha_{ij}^{l+1} t_j^l

\alpha_{ij}^{l+1} = \frac{\exp(t_j^l \hat{h}_i^l)}{\sum_k \exp(t_k^l \hat{h}_i^l)}

\hat{h}_i^{l+1} = \hat{h}_i^l + p_i^{l+1}

Punti di Innovazione Tecnica

1. Progettazione della Rete di Coarsening a Basso Rango

Efficienza dei parametri: Attraverso la decomposizione a basso rango riduce i parametri da $O(d \times C_l)$ a $O(d \times r + r \times C_l)$
Cattura multi-scala: Il coarsening progressivo genera rappresentazioni strutturali di diverse granularità
Adattamento al compito: La matrice di allocazione apprezzabile si adatta a diversi compiti a valle

2. Catena di Prompt Ispirata alla Cognizione

Simulazione della cognizione umana: Comprensione progressiva dalla topologia globale ai dettagli locali
Pensiero strutturato: Utilizza rappresentazioni gerarchiche coarsened come sostituto "strutturato" ai template testuali
Integrazione dinamica: Seleziona e integra dinamicamente informazioni di diverse granularità in ogni fase

3. Meccanismo di Vincolo

Introduce una perdita di ricostruzione del coseno per prevenire la perdita di informazioni sui nodi:

L_r = \frac{1}{N}(1 - \frac{\hat{h}_i \cdot h_i}{||\hat{h}_i|| \cdot ||h_i||})^\gamma

Configurazione Sperimentale

Dataset

Classificazione di nodi:

Cora (2.708 nodi, 7 classi)
Citeseer (3.327 nodi, 6 classi)
Pubmed (19.717 nodi, 3 classi)
Photo (7.650 nodi, 8 classi)

Classificazione di grafi:

MUTAG (188 grafi, composti molecolari)
COX2 (467 grafi, inibitori della cicloossigenasi)
BZR (405 grafi, ligandi del recettore delle benzodiazepine)
PROTEINS (1.113 grafi, strutture proteiche)

Metriche di Valutazione

Accuratezza (Accuracy): Metrica di valutazione standard per compiti di classificazione
Significatività statistica: Media e varianza di 100 campionamenti casuali

Metodi di Confronto

Apprendimento supervisionato: GCN, GAT
Pre-addestramento + fine-tuning: LP, GraphCL, DGI/InfoGraph
Pre-addestramento + prompt:
- Singolo step: All-in-One, GPF+, SUPT, GraphPrompt, EdgePrompt+, DAGPrompT
- Multi-step: GCOT

Dettagli di Implementazione

Rete backbone: GCN (strato nascosto 256 dimensioni)
Numero di strati di coarsening: 2 strati
Rapporto di coarsening: {0.01, 0.1, 0.2, 0.3}
Dimensione a basso rango: r=8 per compiti su nodi, r=1 per compiti su grafi
Peso del vincolo: α=1 per classificazione di nodi, α=0 per classificazione di grafi

Risultati Sperimentali

Risultati Principali

Prestazioni di Classificazione a Singolo Campione

Su 8 dataset, MSGCOT raggiunge prestazioni ottimali:

Classificazione di nodi:

Cora: 62,13% (vs GCOT 59,54%, +4,35%)
Citeseer: 49,05% (vs GCOT 48,13%, +1,91%)
Pubmed: 64,67% (vs GCOT 63,38%, +2,04%)
Photo: 68,01% (vs GCOT 66,98%, +1,54%)

Classificazione di grafi:

MUTAG: 63,54% (vs GCOT 60,34%, +5,30%)
COX2: 73,62% (vs DAGPrompt 55,00%, +33,85%)
BZR: 69,85% (vs DAGPrompt 55,49%, +25,87%)
PROTEINS: 57,83% (vs DAGPrompt 56,22%, +2,86%)

Prestazioni di Apprendimento con Pochi Campioni

Negli scenari con 1-3 campioni, MSGCOT supera i metodi di base in media del 5-8%, dimostrando eccellente capacità di generalizzazione con pochi campioni.

Esperimenti di Ablazione

Esperimenti di ablazione sistematici verificano il contributo di ogni componente:

Prompt multi-scala (MSP): La rimozione causa una diminuzione media del 5,52% nei compiti su nodi e del 17,7% nei compiti su grafi
Perdita di ricostruzione (RE): Impatto significativo sulla classificazione di nodi, i compiti su grafi si concentrano su informazioni globali
Meccanismo ricorsivo (TB): Particolarmente critico per la classificazione di grafi, i prompt unidirezionali causano una diminuzione del 12-15%
Aggiornamento incrementale (IU): L'aggiornamento progressivo porta a un miglioramento del 2-5%

Analisi dell'Efficienza dei Parametri

Riduzione significativa del numero di parametri rispetto a GCOT:

Classificazione di nodi: Riduzione di parametri del 47,1%-68,3%
Classificazione di grafi: Riduzione di parametri del 29,1%-85,7%
Efficienza temporale: Tempo medio di addestramento per round ridotto del 34,8% nei compiti su grafi

Sensibilità degli Iperparametri

Rapporto di coarsening: Intervallo ottimale 0,1-0,3 per compiti su nodi, stabile nell'intervallo 0,05-0,3 per compiti su grafi
Numero di strati di coarsening: Ottimale a 2 strati per compiti su nodi, supporta strati più profondi per compiti su grafi
Dimensione nascosta: Ottimale con r=8 per compiti su nodi, prestazioni eccellenti con r=1 per compiti su grafi

Lavori Correlati

Pre-addestramento per Grafi

Apprendimento contrastivo: GraphCL, DGI e altri apprendono rappresentazioni attraverso coppie di campioni positivi e negativi
Apprendimento generativo: Pre-addestramento attraverso la ricostruzione di caratteristiche di nodi o strutture grafiche
Limitazioni: Il divario tra l'obiettivo di pre-addestramento e il compito a valle limita le prestazioni

Apprendimento dei Prompt per Grafi

Metodi dipendenti dal pre-addestramento: GPPT, GraphPrompt, All-in-One
Metodi indipendenti dal pre-addestramento: GPF+, SUPT, EdgePrompt
Prompt multi-step: GCOT introduce il concetto di catena di pensiero ma rimane limitato alla granularità singola

Tecniche di Coarsening per Grafi

Metodi tradizionali: Clustering spettrale, fattorizzazione di matrici non negative
Metodi apprezzabili: DiffPool e altri realizzano rappresentazioni gerarchiche attraverso matrici di allocazione apprezzabili
Contributo di questo articolo: Combina il coarsening dei grafi con l'apprendimento dei prompt, realizzando la generazione di prompt multi-scala

Conclusioni e Discussione

Conclusioni Principali

Importanza delle informazioni multi-scala: Gli esperimenti dimostrano che le informazioni strutturali multi-scala sono cruciali per l'apprendimento dei prompt per grafi
Efficacia della progettazione ispirata alla cognizione: La simulazione del processo cognitivo umano da grossolano a fine migliora significativamente le prestazioni
Equilibrio tra efficienza dei parametri e prestazioni: La progettazione a basso rango mantiene prestazioni eccellenti riducendo drasticamente i parametri
Vantaggi nell'apprendimento con pochi campioni: I prompt multi-scala mostrano prestazioni particolarmente eccellenti negli scenari di scarsità di dati

Limitazioni

Complessità computazionale: Il ragionamento multi-step aumenta il carico computazionale
Sensibilità degli iperparametri: Il rapporto di coarsening e il numero di strati richiedono ottimizzazione per diversi tipi di compiti
Analisi teorica insufficiente: Mancano garanzie teoriche sull'efficacia dei prompt multi-scala

Direzioni Future

Strategie di coarsening adattive: Ricerca di meccanismi di coarsening adattivi ai compiti
Analisi teorica: Stabilire un framework teorico per l'apprendimento dei prompt multi-scala
Estensione delle applicazioni: Esplorare il potenziale applicativo in più compiti di apprendimento su grafi

Valutazione Approfondita

Punti di Forza

Forte innovatività: Primo a integrare sistematicamente informazioni multi-scala nell'apprendimento dei prompt per grafi
Progettazione ragionevole: La rete di coarsening a basso rango e il meccanismo ricorsivo sono ingegnosi, bilanciando efficienza ed efficacia
Esperimenti completi: 8 dataset, molteplici metodi di confronto, esperimenti di ablazione dettagliati
Alto valore pratico: Vantaggi evidenti negli scenari con pochi campioni, allineato alle esigenze di applicazioni pratiche

Insufficienze

Fondamenti teorici deboli: Manca l'analisi teorica e le garanzie sull'efficacia del metodo
Analisi insufficiente del carico computazionale: Sebbene fornisca analisi di complessità, i confronti di tempo di esecuzione effettivo sono limitati
Discussione insufficiente dell'applicabilità: L'analisi dell'applicabilità a diversi tipi di dati grafici è incompleta

Impatto

Contributo accademico: Fornisce una nuova direzione di ricerca nel campo dell'apprendimento dei prompt per grafi
Valore pratico: Ha importante valore applicativo negli scenari di apprendimento con pochi campioni con risorse limitate
Riproducibilità: Fornisce dettagli di implementazione dettagliati e impostazioni degli iperparametri

Scenari Applicabili

Apprendimento su grafi con pochi campioni: Compiti di analisi di grafi con dati annotati scarsi
Analisi di grafi multi-scala: Applicazioni che richiedono la cattura di informazioni strutturali multi-livello
Ambienti con risorse limitate: Scenari di distribuzione con requisiti di efficienza dei parametri

Riferimenti Bibliografici

Questo articolo cita 38 articoli correlati, coprendo molteplici domini correlati come reti neurali grafiche, pre-addestramento di grafi, apprendimento dei prompt e coarsening di grafi, fornendo una solida base teorica per la ricerca.

Valutazione Complessiva: Questo è un articolo di alta qualità sull'apprendimento dei prompt per reti neurali grafiche, che affronta innovativamente il problema della limitazione della granularità singola nei metodi esistenti. La progettazione del metodo è ragionevole, la verifica sperimentale è completa, e ha importanza significativa sia nei contributi teorici che nel valore pratico. Sebbene vi sia ancora spazio per il miglioramento nell'analisi teorica, nel complesso fornisce un contributo importante al campo dell'apprendimento dei prompt per grafi.