2025-11-23T22:46:17.287043

Beyond Single-Granularity Prompts: A Multi-Scale Chain-of-Thought Prompt Learning for Graph

Zheng, Yang, Guan et al.
The "pre-train, prompt'' paradigm, designed to bridge the gap between pre-training tasks and downstream objectives, has been extended from the NLP domain to the graph domain and has achieved remarkable progress. Current mainstream graph prompt-tuning methods modify input or output features using learnable prompt vectors. However, existing approaches are confined to single-granularity (e.g., node-level or subgraph-level) during prompt generation, overlooking the inherently multi-scale structural information in graph data, which limits the diversity of prompt semantics. To address this issue, we pioneer the integration of multi-scale information into graph prompt and propose a Multi-Scale Graph Chain-of-Thought (MSGCOT) prompting framework. Specifically, we design a lightweight, low-rank coarsening network to efficiently capture multi-scale structural features as hierarchical basis vectors for prompt generation. Subsequently, mimicking human cognition from coarse-to-fine granularity, we dynamically integrate multi-scale information at each reasoning step, forming a progressive coarse-to-fine prompt chain. Extensive experiments on eight benchmark datasets demonstrate that MSGCOT outperforms the state-of-the-art single-granularity graph prompt-tuning method, particularly in few-shot scenarios, showcasing superior performance.
academic

Oltre i Prompt a Granularità Singola: Apprendimento Multi-Scala di Catene di Pensiero per Grafi

Informazioni Fondamentali

  • ID Articolo: 2510.09394
  • Titolo: Interazioni di ordine superiore di prompt multi-strato (Oltre i Prompt a Granularità Singola: Apprendimento Multi-Scala di Catene di Pensiero per Grafi)
  • Autori: Ziyu Zheng, Yaming Yang, Ziyu Guan, Wei Zhao, Xinyan Huang, Weigang Lu
  • Classificazione: cs.CL, cs.AI
  • Data di Pubblicazione/Conferenza: Acronimo Conferenza 'XX, 03–05 giugno 2018, Woodstock, NY (in corso di pubblicazione)
  • Link Articolo: https://arxiv.org/abs/2510.09394

Riassunto

Il paradigma "pre-addestramento-prompt" mira a colmare il divario tra i compiti di pre-addestramento e gli obiettivi a valle, estendendosi dal dominio dell'elaborazione del linguaggio naturale al dominio dei grafi con progressi significativi. I metodi attuali di ottimizzazione dei prompt per grafi utilizzano vettori di prompt appresi per modificare le caratteristiche di input o output. Tuttavia, i metodi esistenti sono limitati a una granularità singola durante il processo di generazione dei prompt (come a livello di nodo o sottografo), trascurando le informazioni strutturali multi-scala intrinseche nei dati grafici, il che limita la diversità semantica dei prompt. Per affrontare questo problema, questo articolo integra per la prima volta informazioni multi-scala nei prompt per grafi, proponendo il framework di prompt a catena di pensiero per grafi multi-scala (MSGCOT). Nello specifico, viene progettata una rete di coarsening a basso rango leggera per catturare efficientemente caratteristiche strutturali multi-scala come vettori base gerarchici per la generazione di prompt. Successivamente, simulando il processo cognitivo umano da granularità grossolana a fine, il metodo integra dinamicamente informazioni multi-scala in ogni fase di ragionamento, formando una catena di prompt progressiva da grossolana a fine. Esperimenti estensivi su otto dataset di riferimento dimostrano che MSGCOT supera i metodi di ottimizzazione dei prompt per grafi a granularità singola all'avanguardia, mostrando prestazioni superiori in particolare negli scenari con pochi campioni.

Contesto di Ricerca e Motivazione

Definizione del Problema

Il problema centrale affrontato da questa ricerca è la limitazione della granularità singola nei metodi di apprendimento dei prompt per reti neurali grafiche esistenti. Nello specifico, si manifesta come:

  1. Restrizione a granularità singola: I metodi esistenti (come GPF+, GCOT, ecc.) si concentrano solo su un singolo livello di informazione (a livello di nodo, bordo o sottografo), ignorando le informazioni multi-scala coesistenti da nodi a sottografi gerarchici nei dati grafici
  2. Diversità semantica insufficiente: La generazione di prompt a granularità singola limita la capacità espressiva e la ricchezza semantica dei prompt
  3. Utilizzo insufficiente delle informazioni strutturali: Mancato sfruttamento completo delle caratteristiche strutturali gerarchiche intrinseche ai dati grafici

Analisi dell'Importanza

L'importanza di questo problema si manifesta in:

  1. Esigenze di applicazioni pratiche: I dati grafici del mondo reale (reti sociali, grafi molecolari, sistemi di raccomandazione, ecc.) contengono intrinsecamente informazioni strutturali multi-livello
  2. Spazio per il miglioramento delle prestazioni: L'utilizzo efficace di informazioni multi-scala può migliorare significativamente la capacità di generalizzazione del modello negli scenari di apprendimento con pochi campioni
  3. Completezza teorica: Colma il vuoto nella struttura teorica dell'apprendimento dei prompt per grafi nella modellazione delle informazioni multi-granularità

Limitazioni dei Metodi Esistenti

  1. GCOT: Sebbene adotti la generazione di prompt multi-step, rimane limitato alla granularità a livello di nodo in ogni fase
  2. Metodi a prompt singolo (GPF+, EdgePrompt, ecc.): Generano direttamente prompt completi, mancando di meccanismi di ottimizzazione progressiva
  3. Metodi dipendenti dal pre-addestramento: Richiedono strategie di pre-addestramento specifiche, con generalizzabilità limitata

Contributi Fondamentali

  1. Framework innovativo di catena di pensiero per grafi multi-scala: Propone il primo framework di apprendimento dei prompt a catena di pensiero per grafi che integra informazioni multi-granularità, superando le limitazioni della granularità singola dei metodi esistenti
  2. Meccanismo innovativo di simulazione cognitiva: Progetta una rete di coarsening a basso rango per l'estrazione di caratteristiche multi-scala e propone un meccanismo di prompt ricorsivo per realizzare la generazione progressiva di prompt, simulando il processo cognitivo umano da grossolano a fine
  3. Progettazione leggera ed efficiente: Attraverso la decomposizione a basso rango riduce significativamente il numero di parametri (riduzione del 47,1%-85,7% rispetto a GCOT), mantenendo prestazioni eccellenti
  4. Verifica sperimentale completa: Raggiunge prestazioni ottimali su 8 dataset di riferimento nei compiti di classificazione di nodi e grafi, con vantaggi particolarmente evidenti negli scenari con pochi campioni

Spiegazione Dettagliata del Metodo

Definizione del Compito

Input: Grafo G=(V,E)G = (V, E), dove VV è l'insieme dei nodi, EE è l'insieme dei bordi, matrice delle caratteristiche dei nodi XRN×FX \in \mathbb{R}^{N \times F}, matrice di adiacenza ARN×NA \in \mathbb{R}^{N \times N}

Output: Rappresentazione ottimizzata per compiti a valle (classificazione di nodi/grafi)

Vincoli: I parametri del modello pre-addestrato rimangono congelati, aggiornando solo i parametri dei prompt leggeri

Architettura del Modello

1. Framework Complessivo

Il framework MSGCOT contiene tre moduli fondamentali:

  • Generazione di prompt a livello di nodo: Genera vettori di prompt specifici per il compito
  • Costruzione di pensiero multi-scala: Costruisce rappresentazioni gerarchiche attraverso la rete di coarsening
  • Prompt ricorsivo da grossolano a fine: Integrazione progressiva di prompt multi-scala

2. Generazione di Prompt a Livello di Nodo

Px=CONDNET(H)P_x = \text{CONDNET}(H) H^=GNN(XPx,A)\hat{H} = \text{GNN}(X \odot P_x, A)

dove HH è l'embedding pre-addestrato, PxP_x è il prompt a livello di nodo, H^\hat{H} è l'embedding dopo il prompt.

3. Costruzione di Pensiero Multi-Scala

Adotta una progettazione di decomposizione a basso rango per una rete di coarsening leggera:

Sl=Softmax(Wupl(σ(WdownlTTl1)))S^l = \text{Softmax}(W_{up}^l(\sigma(W_{down}^{lT} T^{l-1}))) Tl=SlTTl1T^l = S^{lT} T^{l-1}

dove WdownRd×rW_{down} \in \mathbb{R}^{d \times r}, WupRr×ClW_{up} \in \mathbb{R}^{r \times C_l} (rdr \ll d), TlT^l è la rappresentazione coarsened al livello ll.

4. Meccanismo di Prompt Ricorsivo da Grossolano a Fine

pil+1=j=1Clαijl+1tjlp_i^{l+1} = \sum_{j=1}^{C_l} \alpha_{ij}^{l+1} t_j^l αijl+1=exp(tjlh^il)kexp(tklh^il)\alpha_{ij}^{l+1} = \frac{\exp(t_j^l \hat{h}_i^l)}{\sum_k \exp(t_k^l \hat{h}_i^l)} h^il+1=h^il+pil+1\hat{h}_i^{l+1} = \hat{h}_i^l + p_i^{l+1}

Punti di Innovazione Tecnica

1. Progettazione della Rete di Coarsening a Basso Rango

  • Efficienza dei parametri: Attraverso la decomposizione a basso rango riduce i parametri da O(d×Cl)O(d \times C_l) a O(d×r+r×Cl)O(d \times r + r \times C_l)
  • Cattura multi-scala: Il coarsening progressivo genera rappresentazioni strutturali di diverse granularità
  • Adattamento al compito: La matrice di allocazione apprezzabile si adatta a diversi compiti a valle

2. Catena di Prompt Ispirata alla Cognizione

  • Simulazione della cognizione umana: Comprensione progressiva dalla topologia globale ai dettagli locali
  • Pensiero strutturato: Utilizza rappresentazioni gerarchiche coarsened come sostituto "strutturato" ai template testuali
  • Integrazione dinamica: Seleziona e integra dinamicamente informazioni di diverse granularità in ogni fase

3. Meccanismo di Vincolo

Introduce una perdita di ricostruzione del coseno per prevenire la perdita di informazioni sui nodi:

Lr=1N(1h^ihih^ihi)γL_r = \frac{1}{N}(1 - \frac{\hat{h}_i \cdot h_i}{||\hat{h}_i|| \cdot ||h_i||})^\gamma

Configurazione Sperimentale

Dataset

Classificazione di nodi:

  • Cora (2.708 nodi, 7 classi)
  • Citeseer (3.327 nodi, 6 classi)
  • Pubmed (19.717 nodi, 3 classi)
  • Photo (7.650 nodi, 8 classi)

Classificazione di grafi:

  • MUTAG (188 grafi, composti molecolari)
  • COX2 (467 grafi, inibitori della cicloossigenasi)
  • BZR (405 grafi, ligandi del recettore delle benzodiazepine)
  • PROTEINS (1.113 grafi, strutture proteiche)

Metriche di Valutazione

  • Accuratezza (Accuracy): Metrica di valutazione standard per compiti di classificazione
  • Significatività statistica: Media e varianza di 100 campionamenti casuali

Metodi di Confronto

  1. Apprendimento supervisionato: GCN, GAT
  2. Pre-addestramento + fine-tuning: LP, GraphCL, DGI/InfoGraph
  3. Pre-addestramento + prompt:
    • Singolo step: All-in-One, GPF+, SUPT, GraphPrompt, EdgePrompt+, DAGPrompT
    • Multi-step: GCOT

Dettagli di Implementazione

  • Rete backbone: GCN (strato nascosto 256 dimensioni)
  • Numero di strati di coarsening: 2 strati
  • Rapporto di coarsening: {0.01, 0.1, 0.2, 0.3}
  • Dimensione a basso rango: r=8 per compiti su nodi, r=1 per compiti su grafi
  • Peso del vincolo: α=1 per classificazione di nodi, α=0 per classificazione di grafi

Risultati Sperimentali

Risultati Principali

Prestazioni di Classificazione a Singolo Campione

Su 8 dataset, MSGCOT raggiunge prestazioni ottimali:

Classificazione di nodi:

  • Cora: 62,13% (vs GCOT 59,54%, +4,35%)
  • Citeseer: 49,05% (vs GCOT 48,13%, +1,91%)
  • Pubmed: 64,67% (vs GCOT 63,38%, +2,04%)
  • Photo: 68,01% (vs GCOT 66,98%, +1,54%)

Classificazione di grafi:

  • MUTAG: 63,54% (vs GCOT 60,34%, +5,30%)
  • COX2: 73,62% (vs DAGPrompt 55,00%, +33,85%)
  • BZR: 69,85% (vs DAGPrompt 55,49%, +25,87%)
  • PROTEINS: 57,83% (vs DAGPrompt 56,22%, +2,86%)

Prestazioni di Apprendimento con Pochi Campioni

Negli scenari con 1-3 campioni, MSGCOT supera i metodi di base in media del 5-8%, dimostrando eccellente capacità di generalizzazione con pochi campioni.

Esperimenti di Ablazione

Esperimenti di ablazione sistematici verificano il contributo di ogni componente:

  1. Prompt multi-scala (MSP): La rimozione causa una diminuzione media del 5,52% nei compiti su nodi e del 17,7% nei compiti su grafi
  2. Perdita di ricostruzione (RE): Impatto significativo sulla classificazione di nodi, i compiti su grafi si concentrano su informazioni globali
  3. Meccanismo ricorsivo (TB): Particolarmente critico per la classificazione di grafi, i prompt unidirezionali causano una diminuzione del 12-15%
  4. Aggiornamento incrementale (IU): L'aggiornamento progressivo porta a un miglioramento del 2-5%

Analisi dell'Efficienza dei Parametri

Riduzione significativa del numero di parametri rispetto a GCOT:

  • Classificazione di nodi: Riduzione di parametri del 47,1%-68,3%
  • Classificazione di grafi: Riduzione di parametri del 29,1%-85,7%
  • Efficienza temporale: Tempo medio di addestramento per round ridotto del 34,8% nei compiti su grafi

Sensibilità degli Iperparametri

  1. Rapporto di coarsening: Intervallo ottimale 0,1-0,3 per compiti su nodi, stabile nell'intervallo 0,05-0,3 per compiti su grafi
  2. Numero di strati di coarsening: Ottimale a 2 strati per compiti su nodi, supporta strati più profondi per compiti su grafi
  3. Dimensione nascosta: Ottimale con r=8 per compiti su nodi, prestazioni eccellenti con r=1 per compiti su grafi

Lavori Correlati

Pre-addestramento per Grafi

  • Apprendimento contrastivo: GraphCL, DGI e altri apprendono rappresentazioni attraverso coppie di campioni positivi e negativi
  • Apprendimento generativo: Pre-addestramento attraverso la ricostruzione di caratteristiche di nodi o strutture grafiche
  • Limitazioni: Il divario tra l'obiettivo di pre-addestramento e il compito a valle limita le prestazioni

Apprendimento dei Prompt per Grafi

  • Metodi dipendenti dal pre-addestramento: GPPT, GraphPrompt, All-in-One
  • Metodi indipendenti dal pre-addestramento: GPF+, SUPT, EdgePrompt
  • Prompt multi-step: GCOT introduce il concetto di catena di pensiero ma rimane limitato alla granularità singola

Tecniche di Coarsening per Grafi

  • Metodi tradizionali: Clustering spettrale, fattorizzazione di matrici non negative
  • Metodi apprezzabili: DiffPool e altri realizzano rappresentazioni gerarchiche attraverso matrici di allocazione apprezzabili
  • Contributo di questo articolo: Combina il coarsening dei grafi con l'apprendimento dei prompt, realizzando la generazione di prompt multi-scala

Conclusioni e Discussione

Conclusioni Principali

  1. Importanza delle informazioni multi-scala: Gli esperimenti dimostrano che le informazioni strutturali multi-scala sono cruciali per l'apprendimento dei prompt per grafi
  2. Efficacia della progettazione ispirata alla cognizione: La simulazione del processo cognitivo umano da grossolano a fine migliora significativamente le prestazioni
  3. Equilibrio tra efficienza dei parametri e prestazioni: La progettazione a basso rango mantiene prestazioni eccellenti riducendo drasticamente i parametri
  4. Vantaggi nell'apprendimento con pochi campioni: I prompt multi-scala mostrano prestazioni particolarmente eccellenti negli scenari di scarsità di dati

Limitazioni

  1. Complessità computazionale: Il ragionamento multi-step aumenta il carico computazionale
  2. Sensibilità degli iperparametri: Il rapporto di coarsening e il numero di strati richiedono ottimizzazione per diversi tipi di compiti
  3. Analisi teorica insufficiente: Mancano garanzie teoriche sull'efficacia dei prompt multi-scala

Direzioni Future

  1. Strategie di coarsening adattive: Ricerca di meccanismi di coarsening adattivi ai compiti
  2. Analisi teorica: Stabilire un framework teorico per l'apprendimento dei prompt multi-scala
  3. Estensione delle applicazioni: Esplorare il potenziale applicativo in più compiti di apprendimento su grafi

Valutazione Approfondita

Punti di Forza

  1. Forte innovatività: Primo a integrare sistematicamente informazioni multi-scala nell'apprendimento dei prompt per grafi
  2. Progettazione ragionevole: La rete di coarsening a basso rango e il meccanismo ricorsivo sono ingegnosi, bilanciando efficienza ed efficacia
  3. Esperimenti completi: 8 dataset, molteplici metodi di confronto, esperimenti di ablazione dettagliati
  4. Alto valore pratico: Vantaggi evidenti negli scenari con pochi campioni, allineato alle esigenze di applicazioni pratiche

Insufficienze

  1. Fondamenti teorici deboli: Manca l'analisi teorica e le garanzie sull'efficacia del metodo
  2. Analisi insufficiente del carico computazionale: Sebbene fornisca analisi di complessità, i confronti di tempo di esecuzione effettivo sono limitati
  3. Discussione insufficiente dell'applicabilità: L'analisi dell'applicabilità a diversi tipi di dati grafici è incompleta

Impatto

  1. Contributo accademico: Fornisce una nuova direzione di ricerca nel campo dell'apprendimento dei prompt per grafi
  2. Valore pratico: Ha importante valore applicativo negli scenari di apprendimento con pochi campioni con risorse limitate
  3. Riproducibilità: Fornisce dettagli di implementazione dettagliati e impostazioni degli iperparametri

Scenari Applicabili

  1. Apprendimento su grafi con pochi campioni: Compiti di analisi di grafi con dati annotati scarsi
  2. Analisi di grafi multi-scala: Applicazioni che richiedono la cattura di informazioni strutturali multi-livello
  3. Ambienti con risorse limitate: Scenari di distribuzione con requisiti di efficienza dei parametri

Riferimenti Bibliografici

Questo articolo cita 38 articoli correlati, coprendo molteplici domini correlati come reti neurali grafiche, pre-addestramento di grafi, apprendimento dei prompt e coarsening di grafi, fornendo una solida base teorica per la ricerca.


Valutazione Complessiva: Questo è un articolo di alta qualità sull'apprendimento dei prompt per reti neurali grafiche, che affronta innovativamente il problema della limitazione della granularità singola nei metodi esistenti. La progettazione del metodo è ragionevole, la verifica sperimentale è completa, e ha importanza significativa sia nei contributi teorici che nel valore pratico. Sebbene vi sia ancora spazio per il miglioramento nell'analisi teorica, nel complesso fornisce un contributo importante al campo dell'apprendimento dei prompt per grafi.