2025-11-23T22:46:17.287043

Beyond Single-Granularity Prompts: A Multi-Scale Chain-of-Thought Prompt Learning for Graph

Zheng, Yang, Guan et al.

The "pre-train, prompt'' paradigm, designed to bridge the gap between pre-training tasks and downstream objectives, has been extended from the NLP domain to the graph domain and has achieved remarkable progress. Current mainstream graph prompt-tuning methods modify input or output features using learnable prompt vectors. However, existing approaches are confined to single-granularity (e.g., node-level or subgraph-level) during prompt generation, overlooking the inherently multi-scale structural information in graph data, which limits the diversity of prompt semantics. To address this issue, we pioneer the integration of multi-scale information into graph prompt and propose a Multi-Scale Graph Chain-of-Thought (MSGCOT) prompting framework. Specifically, we design a lightweight, low-rank coarsening network to efficiently capture multi-scale structural features as hierarchical basis vectors for prompt generation. Subsequently, mimicking human cognition from coarse-to-fine granularity, we dynamically integrate multi-scale information at each reasoning step, forming a progressive coarse-to-fine prompt chain. Extensive experiments on eight benchmark datasets demonstrate that MSGCOT outperforms the state-of-the-art single-granularity graph prompt-tuning method, particularly in few-shot scenarios, showcasing superior performance.

academic

Au-delà des Invites à Granularité Unique : Apprentissage d'Invites de Chaîne de Pensée Multi-Échelle pour les Graphes

Informations de Base

ID de l'article : 2510.09394
Titre : Interactions d'ordre supérieur d'invites multi-couches (Au-delà des Invites à Granularité Unique : Apprentissage d'Invites de Chaîne de Pensée Multi-Échelle pour les Graphes)
Auteurs : Ziyu Zheng, Yaming Yang, Ziyu Guan, Wei Zhao, Xinyan Huang, Weigang Lu
Classification : cs.CL, cs.AI
Date de publication/Conférence : Acronyme de la conférence 'XX, 3-5 juin 2018, Woodstock, NY (À paraître)
Lien de l'article : https://arxiv.org/abs/2510.09394

Résumé

Le paradigme « pré-entraînement-invite » vise à combler l'écart entre les tâches de pré-entraînement et les objectifs en aval, s'étendant du domaine du traitement du langage naturel au domaine des graphes avec des progrès remarquables. Les méthodes actuelles dominantes d'ajustement d'invites pour graphes utilisent des vecteurs d'invites apprenables pour modifier les caractéristiques d'entrée ou de sortie. Cependant, les méthodes existantes sont limitées à une granularité unique (telle que le niveau des nœuds ou des sous-graphes) dans le processus de génération d'invites, ignorant les informations de structure multi-échelle inhérentes aux données graphiques, ce qui limite la diversité sémantique des invites. Pour résoudre ce problème, cet article intègre pour la première fois des informations multi-échelle dans les invites graphiques, proposant le cadre d'invites de Chaîne de Pensée Graphique Multi-Échelle (MSGCOT). Concrètement, un réseau de coarsification à faible rang léger est conçu pour capturer efficacement les caractéristiques de structure multi-échelle comme vecteurs de base hiérarchiques pour la génération d'invites. Ensuite, en simulant le processus cognitif humain allant du grossier au fin, des informations multi-échelle sont intégrées dynamiquement à chaque étape de raisonnement, formant une chaîne d'invites progressive du grossier au fin. Des expériences approfondies sur huit ensembles de données de référence démontrent que MSGCOT surpasse les méthodes d'ajustement d'invites graphiques à granularité unique de pointe, en particulier avec des performances exceptionnelles dans les scénarios d'apprentissage peu nombreux.

Contexte de Recherche et Motivation

Définition du Problème

Le problème fondamental que cette recherche vise à résoudre est la limitation de granularité unique dans les méthodes d'apprentissage d'invites pour réseaux de neurones graphiques existantes lors du processus de génération d'invites. Cela se manifeste concrètement par :

Restriction de granularité unique : Les méthodes existantes (telles que GPF+, GCOT, etc.) se concentrent uniquement sur des informations d'un seul niveau (niveau des nœuds, des arêtes ou des sous-graphes), ignorant les informations multi-échelle coexistantes des nœuds aux sous-graphes hiérarchiques dans les données graphiques
Diversité sémantique insuffisante : La génération d'invites à granularité unique limite la capacité d'expression et la richesse sémantique des invites
Utilisation insuffisante des informations de structure : Incapacité à exploiter pleinement les caractéristiques de structure hiérarchique inhérentes aux données graphiques

Analyse de l'Importance

L'importance de ce problème se manifeste par :

Besoins d'application pratique : Les données graphiques du monde réel (réseaux sociaux, graphes moléculaires, systèmes de recommandation, etc.) contiennent intrinsèquement des informations de structure multi-niveaux
Espace d'amélioration des performances : L'utilisation efficace des informations multi-échelle peut améliorer significativement la capacité de généralisation du modèle dans les scénarios d'apprentissage peu nombreux
Complétude théorique : Combler le vide dans le cadre théorique de l'apprentissage d'invites graphiques pour la modélisation d'informations multi-granularités

Limitations des Méthodes Existantes

GCOT : Bien qu'utilisant la génération d'invites multi-étapes, chaque étape reste limitée à la granularité du niveau des nœuds
Méthodes d'invites en une seule étape (GPF+, EdgePrompt, etc.) : Génèrent directement des invites complètes, manquant de mécanisme d'optimisation progressive
Méthodes dépendantes du pré-entraînement : Nécessitent des stratégies de pré-entraînement spécifiques, généralité limitée

Contributions Fondamentales

Cadre de Chaîne de Pensée Graphique Multi-Échelle Novateur : Propose le premier cadre d'apprentissage d'invites de chaîne de pensée graphique intégrant des informations multi-granularités, dépassant les limitations de granularité unique des méthodes existantes
Mécanisme Innovant de Simulation Cognitive : Conçoit un réseau de coarsification à faible rang pour l'extraction de caractéristiques multi-échelle et propose un mécanisme d'invites rétroactives pour réaliser la génération progressive d'invites, simulant le processus cognitif humain du grossier au fin
Conception Légère et Efficace : Réduit considérablement la quantité de paramètres (réduction de 47,1 % à 85,7 % par rapport à GCOT) grâce à la décomposition à faible rang, tout en maintenant des performances excellentes
Vérification Expérimentale Complète : Atteint les performances optimales sur 8 ensembles de données de référence pour les tâches de classification de nœuds et de classification de graphes, avec des avantages particulièrement évidents dans les scénarios peu nombreux

Explication Détaillée de la Méthode

Définition de la Tâche

Entrée : Graphe $G = (V, E)$ , où $V$ est l'ensemble des nœuds, $E$ est l'ensemble des arêtes, matrice de caractéristiques des nœuds $X \in \mathbb{R}^{N \times F}$ , matrice d'adjacence $A \in \mathbb{R}^{N \times N}$

Sortie : Représentation optimisée pour les tâches en aval (classification de nœuds/classification de graphes)

Contraintes : Les paramètres du modèle pré-entraîné sont gelés, seuls les paramètres d'invites légers sont mis à jour

Architecture du Modèle

1. Cadre Global

Le cadre MSGCOT comprend trois modules fondamentaux :

Génération d'invites au niveau des nœuds : Génère des vecteurs d'invites spécifiques à la tâche au niveau des nœuds
Construction de Pensée Multi-Échelle : Construit des représentations hiérarchiques via un réseau de coarsification
Invites Rétroactives du Grossier au Fin : Intégration progressive d'invites multi-échelle

2. Génération d'Invites au Niveau des Nœuds

P_x = \text{CONDNET}(H)

\hat{H} = \text{GNN}(X \odot P_x, A)

où $H$ est l'encastrement pré-entraîné, $P_x$ est l'invite au niveau des nœuds, $\hat{H}$ est l'encastrement après invite.

3. Construction de Pensée Multi-Échelle

Adopte une conception de réseau de coarsification léger avec décomposition à faible rang :

S^l = \text{Softmax}(W_{up}^l(\sigma(W_{down}^{lT} T^{l-1})))

T^l = S^{lT} T^{l-1}

où $W_{down} \in \mathbb{R}^{d \times r}$ , $W_{up} \in \mathbb{R}^{r \times C_l}$ ( $r \ll d$ ), $T^l$ est la représentation coarsifiée au niveau $l$ .

4. Mécanisme d'Invites Rétroactives du Grossier au Fin

p_i^{l+1} = \sum_{j=1}^{C_l} \alpha_{ij}^{l+1} t_j^l

\alpha_{ij}^{l+1} = \frac{\exp(t_j^l \hat{h}_i^l)}{\sum_k \exp(t_k^l \hat{h}_i^l)}

\hat{h}_i^{l+1} = \hat{h}_i^l + p_i^{l+1}

Points d'Innovation Technique

1. Conception de Réseau de Coarsification à Faible Rang

Efficacité des paramètres : Réduit la quantité de paramètres de $O(d \times C_l)$ à $O(d \times r + r \times C_l)$ via décomposition à faible rang
Capture Multi-Échelle : La coarsification progressive génère des représentations de structure de différentes granularités
Adaptation à la Tâche : Les matrices d'allocation apprenables s'adaptent à différentes tâches en aval

2. Chaîne d'Invites Inspirée par la Cognition

Simulation de la Cognition Humaine : Compréhension progressive de la topologie globale aux détails locaux
Pensée Structurée : Utilise les représentations hiérarchiques de coarsification comme substitut de « pensée structurée » aux modèles textuels
Intégration Dynamique : Sélectionne et intègre dynamiquement des informations de différentes granularités à chaque étape

3. Mécanismes de Contrainte

Introduit une perte de reconstruction en cosinus pour prévenir la perte d'informations de nœuds :

L_r = \frac{1}{N}(1 - \frac{\hat{h}_i \cdot h_i}{||\hat{h}_i|| \cdot ||h_i||})^\gamma

Configuration Expérimentale

Ensembles de Données

Classification de nœuds :

Cora (2 708 nœuds, 7 classes)
Citeseer (3 327 nœuds, 6 classes)
Pubmed (19 717 nœuds, 3 classes)
Photo (7 650 nœuds, 8 classes)

Classification de graphes :

MUTAG (188 graphes, composés moléculaires)
COX2 (467 graphes, inhibiteurs de cyclooxygénase)
BZR (405 graphes, ligands de récepteur de benzodiazépine)
PROTEINS (1 113 graphes, structures protéiques)

Métriques d'Évaluation

Précision (Accuracy) : Métrique d'évaluation standard pour les tâches de classification
Signification Statistique : Moyenne et variance de 100 échantillonnages aléatoires

Méthodes de Comparaison

Apprentissage Supervisé : GCN, GAT
Pré-entraînement + Ajustement Fin : LP, GraphCL, DGI/InfoGraph
Pré-entraînement + Invites :
- Une seule étape : All-in-One, GPF+, SUPT, GraphPrompt, EdgePrompt+, DAGPrompT
- Plusieurs étapes : GCOT

Détails de Mise en Œuvre

Réseau Backbone : GCN (couche cachée 256 dimensions)
Nombre de Couches de Coarsification : 2 couches
Ratio de Coarsification : {0,01, 0,1, 0,2, 0,3}
Dimension de Faible Rang : r=8 pour tâches de nœuds, r=1 pour tâches de graphes
Poids de Contrainte : α=1 pour classification de nœuds, α=0 pour classification de graphes

Résultats Expérimentaux

Résultats Principaux

Performance de Classification Mono-Échantillon

MSGCOT atteint les performances optimales sur les 8 ensembles de données :

Classification de nœuds :

Cora : 62,13 % (vs GCOT 59,54 %, +4,35 %)
Citeseer : 49,05 % (vs GCOT 48,13 %, +1,91 %)
Pubmed : 64,67 % (vs GCOT 63,38 %, +2,04 %)
Photo : 68,01 % (vs GCOT 66,98 %, +1,54 %)

Classification de graphes :

MUTAG : 63,54 % (vs GCOT 60,34 %, +5,30 %)
COX2 : 73,62 % (vs DAGPrompt 55,00 %, +33,85 %)
BZR : 69,85 % (vs DAGPrompt 55,49 %, +25,87 %)
PROTEINS : 57,83 % (vs DAGPrompt 56,22 %, +2,86 %)

Performance d'Apprentissage Peu Nombreux

Dans les configurations 1-3 échantillons, MSGCOT surpasse les méthodes de base en moyenne de 5-8 %, démontrant une capacité de généralisation exceptionnelle en apprentissage peu nombreux.

Expériences d'Ablation

Les expériences d'ablation systématiques vérifient la contribution de chaque composant :

Invites Multi-Échelle (MSP) : La suppression entraîne une baisse moyenne de 5,52 % pour les tâches de nœuds et de 17,7 % pour les tâches de graphes
Perte de Reconstruction (RE) : Impact significatif sur la classification de nœuds, se concentrant sur les informations globales pour la classification de graphes
Mécanisme Rétroactif (TB) : Particulièrement critique pour la classification de graphes, les invites unidirectionnelles entraînent une baisse de 12-15 %
Mise à Jour Incrémentale (IU) : La mise à jour progressive apporte une amélioration de 2-5 %

Analyse de l'Efficacité des Paramètres

Réduction significative de la quantité de paramètres par rapport à GCOT :

Classification de nœuds : Réduction de paramètres de 47,1 % à 68,3 %
Classification de graphes : Réduction de paramètres de 29,1 % à 85,7 %
Efficacité temporelle : Réduction moyenne du temps d'entraînement par tour de 34,8 % pour les tâches de graphes

Sensibilité aux Hyperparamètres

Ratio de Coarsification : Plage optimale 0,1-0,3 pour tâches de nœuds, stable dans la plage 0,05-0,3 pour tâches de graphes
Nombre de Couches de Coarsification : Optimal à 2 couches pour tâches de nœuds, peut supporter des niveaux plus profonds pour tâches de graphes
Dimension Cachée : Optimal à r=8 pour tâches de nœuds, performances excellentes à r=1 pour tâches de graphes

Travaux Connexes

Pré-entraînement de Graphes

Apprentissage Contrastif : GraphCL, DGI et autres apprennent les représentations via des paires d'échantillons positifs et négatifs
Apprentissage Génératif : Pré-entraînement via reconstruction de caractéristiques de nœuds ou de structures graphiques
Limitations : L'écart entre l'objectif de pré-entraînement et la tâche en aval limite les performances

Apprentissage d'Invites pour Graphes

Méthodes Dépendantes du Pré-entraînement : GPPT, GraphPrompt, All-in-One
Méthodes Indépendantes du Pré-entraînement : GPF+, SUPT, EdgePrompt
Invites Multi-Étapes : GCOT introduit le concept de chaîne de pensée mais est limité à granularité unique

Techniques de Coarsification de Graphes

Méthodes Traditionnelles : Clustering spectral, factorisation matricielle non-négative
Méthodes Apprenables : DiffPool et autres réalisent des représentations hiérarchiques via matrices d'allocation apprenables
Contribution de cet Article : Combine la coarsification de graphes avec l'apprentissage d'invites, réalisant la génération d'invites multi-échelle

Conclusion et Discussion

Conclusions Principales

Importance des Informations Multi-Échelle : Les expériences démontrent que les informations de structure multi-échelle sont essentielles pour l'apprentissage d'invites graphiques
Efficacité de la Conception Inspirée par la Cognition : Simuler le processus cognitif humain du grossier au fin améliore significativement les performances
Équilibre entre Efficacité des Paramètres et Performance : La conception à faible rang réduit considérablement les paramètres tout en maintenant des performances excellentes
Avantage en Apprentissage Peu Nombreux : Les invites multi-échelle se distinguent particulièrement dans les scénarios de données rares

Limitations

Complexité Computationnelle : Le raisonnement multi-étapes ajoute une certaine surcharge computationnelle
Sensibilité aux Hyperparamètres : Le ratio de coarsification et le nombre de couches nécessitent un ajustement pour différents types de tâches
Analyse Théorique Insuffisante : Manque de garanties théoriques sur l'efficacité des invites multi-échelle

Directions Futures

Stratégies de Coarsification Adaptatives : Rechercher des mécanismes de coarsification adaptés à la tâche
Analyse Théorique : Établir un cadre théorique pour l'apprentissage d'invites multi-échelle
Extension d'Applications : Explorer le potentiel d'application dans davantage de tâches d'apprentissage de graphes

Évaluation Approfondie

Points Forts

Innovation Forte : Première intégration systématique d'informations multi-échelle dans l'apprentissage d'invites graphiques
Conception Raisonnable : Les conceptions du réseau de coarsification à faible rang et du mécanisme rétroactif sont ingénieuses, équilibrant efficacité et efficacité
Expériences Complètes : 8 ensembles de données, multiples méthodes de comparaison, expériences d'ablation détaillées
Valeur Pratique Élevée : Avantages évidents dans les scénarios peu nombreux, conforme aux besoins d'application pratique

Insuffisances

Fondations Théoriques Faibles : Manque d'analyse théorique et de garanties sur l'efficacité de la méthode
Analyse Insuffisante des Surcharges Computationnelles : Bien que fournissant une analyse de complexité, les comparaisons de temps d'exécution réel sont limitées
Discussion Insuffisante de l'Applicabilité : Analyse insuffisante de l'applicabilité à différents types de données graphiques

Impact

Contribution Académique : Fournit une nouvelle direction de recherche pour le domaine de l'apprentissage d'invites graphiques
Valeur Pratique : Importance applicative significative dans les scénarios d'apprentissage peu nombreux avec ressources limitées
Reproductibilité : Fournit des détails de mise en œuvre détaillés et des paramètres de configuration

Scénarios Applicables

Apprentissage de Graphes Peu Nombreux : Tâches d'analyse de graphes avec données annotées rares
Analyse de Graphes Multi-Échelle : Applications nécessitant la capture d'informations de structure multi-niveaux
Environnements aux Ressources Limitées : Scénarios de déploiement avec exigences d'efficacité des paramètres

Références

Cet article cite 37 travaux connexes pertinents, couvrant les réseaux de neurones graphiques, le pré-entraînement de graphes, l'apprentissage d'invites, la coarsification de graphes et d'autres domaines connexes, fournissant une base théorique solide pour la recherche.

Évaluation Globale : Ceci est un article de haute qualité sur l'apprentissage d'invites pour réseaux de neurones graphiques, résolvant de manière innovante le problème de limitation de granularité unique des méthodes existantes. La conception de la méthode est raisonnable, la vérification expérimentale est complète, et elle a une importance significative tant en termes de contribution théorique que de valeur pratique. Bien qu'il y ait encore de la place pour l'amélioration dans l'analyse théorique, globalement, cet article apporte une contribution importante au domaine de l'apprentissage d'invites graphiques.