2025-11-23T22:46:17.287043

Beyond Single-Granularity Prompts: A Multi-Scale Chain-of-Thought Prompt Learning for Graph

Zheng, Yang, Guan et al.

The "pre-train, prompt'' paradigm, designed to bridge the gap between pre-training tasks and downstream objectives, has been extended from the NLP domain to the graph domain and has achieved remarkable progress. Current mainstream graph prompt-tuning methods modify input or output features using learnable prompt vectors. However, existing approaches are confined to single-granularity (e.g., node-level or subgraph-level) during prompt generation, overlooking the inherently multi-scale structural information in graph data, which limits the diversity of prompt semantics. To address this issue, we pioneer the integration of multi-scale information into graph prompt and propose a Multi-Scale Graph Chain-of-Thought (MSGCOT) prompting framework. Specifically, we design a lightweight, low-rank coarsening network to efficiently capture multi-scale structural features as hierarchical basis vectors for prompt generation. Subsequently, mimicking human cognition from coarse-to-fine granularity, we dynamically integrate multi-scale information at each reasoning step, forming a progressive coarse-to-fine prompt chain. Extensive experiments on eight benchmark datasets demonstrate that MSGCOT outperforms the state-of-the-art single-granularity graph prompt-tuning method, particularly in few-shot scenarios, showcasing superior performance.

academic

Más Allá de Indicaciones de Granularidad Única: Aprendizaje de Indicaciones de Cadena de Pensamiento Multiescala para Grafos

Información Básica

ID del Artículo: 2510.09394
Título: Interacciones de orden superior de indicaciones multicapa (Más Allá de Indicaciones de Granularidad Única: Aprendizaje de Indicaciones de Cadena de Pensamiento Multiescala para Grafos)
Autores: Ziyu Zheng, Yaming Yang, Ziyu Guan, Wei Zhao, Xinyan Huang, Weigang Lu
Clasificación: cs.CL, cs.AI
Fecha de Publicación/Conferencia: Acrónimo de Conferencia 'XX, 03–05 de junio de 2018, Woodstock, NY (Por publicarse)
Enlace del Artículo: https://arxiv.org/abs/2510.09394

Resumen

El paradigma "preentrenamiento-indicación" tiene como objetivo cerrar la brecha entre tareas de preentrenamiento y objetivos posteriores, extendiéndose desde el campo del PNL al dominio de grafos con avances significativos. Los métodos actuales predominantes de ajuste de indicaciones en grafos utilizan vectores de indicación aprendibles para modificar características de entrada o salida. Sin embargo, los métodos existentes están limitados a una única granularidad (como nivel de nodo o nivel de subgrafo) durante el proceso de generación de indicaciones, ignorando la información de estructura multiescala inherente en los datos de grafos, lo que limita la diversidad semántica de las indicaciones. Para abordar este problema, este artículo integra por primera vez información multiescala en indicaciones de grafos, proponiendo el marco de indicaciones de Cadena de Pensamiento de Grafos Multiescala (MSGCOT). Específicamente, se diseña una red de coarsificación de bajo rango ligera para capturar eficientemente características estructurales multiescala como vectores base jerárquicos para la generación de indicaciones. Posteriormente, simulando el proceso cognitivo humano de granularidad gruesa a fina, se integra dinámicamente información multiescala en cada paso de razonamiento, formando una cadena de indicaciones progresiva de gruesa a fina. Los experimentos extensos en ocho conjuntos de datos de referencia demuestran que MSGCOT supera los métodos de ajuste de indicaciones de grafos de granularidad única de última generación, mostrando un desempeño excepcional particularmente en escenarios de pocos ejemplos.

Antecedentes de Investigación y Motivación

Definición del Problema

El problema central que esta investigación aborda es la limitación de granularidad única en los métodos existentes de aprendizaje de indicaciones para redes neuronales de grafos durante el proceso de generación de indicaciones. Se manifiesta específicamente como:

Restricción de Granularidad Única: Los métodos existentes (como GPF+, GCOT, etc.) se enfocan únicamente en información de un solo nivel (nivel de nodo, nivel de arista o nivel de subgrafo), ignorando la información coexistente multiescala de nodos a subgrafos jerárquicos
Diversidad Semántica Insuficiente: La generación de indicaciones de granularidad única limita la capacidad expresiva y la riqueza semántica de las indicaciones
Utilización Insuficiente de Información Estructural: No aprovecha completamente las características de estructura jerárquica inherentes en los datos de grafos

Análisis de Importancia

La importancia de este problema se refleja en:

Demanda de Aplicaciones Prácticas: Los datos de grafos del mundo real (redes sociales, grafos moleculares, sistemas de recomendación, etc.) contienen inherentemente información estructural multinivel
Espacio para Mejora de Desempeño: La utilización efectiva de información multiescala puede mejorar significativamente la capacidad de generalización del modelo en escenarios de aprendizaje con pocos ejemplos
Completitud Teórica: Cierra la brecha en el marco teórico del aprendizaje de indicaciones en grafos para el modelado de información multigranular

Limitaciones de Métodos Existentes

GCOT: Aunque adopta generación de indicaciones multistep, cada paso sigue limitado a granularidad de nivel de nodo
Métodos de Indicación Única (GPF+, EdgePrompt, etc.): Generan indicaciones completas directamente, careciendo de mecanismo de optimización progresiva
Métodos Dependientes de Preentrenamiento: Requieren estrategias de preentrenamiento específicas, con generalidad limitada

Contribuciones Principales

Marco de Cadena de Pensamiento de Grafos Multiescala Pionero: Propone el primer marco de aprendizaje de indicaciones de cadena de pensamiento en grafos que integra información multigranular, rompiendo la limitación de granularidad única de los métodos existentes
Mecanismo Innovador de Simulación Cognitiva: Diseña una red de coarsificación de bajo rango para extracción de características multiescala y propone un mecanismo de indicación de retroceso para lograr generación de indicaciones progresiva, simulando el proceso cognitivo humano de grueso a fino
Diseño Ligero y Eficiente: Mediante descomposición de bajo rango reduce significativamente la cantidad de parámetros (47.1%-85.7% en comparación con GCOT), manteniendo simultáneamente un desempeño excelente
Verificación Experimental Integral: Logra desempeño óptimo en tareas de clasificación de nodos y clasificación de grafos en 8 conjuntos de datos de referencia, con ventajas evidentes particularmente en escenarios con pocos ejemplos

Explicación Detallada del Método

Definición de Tarea

Entrada: Grafo $G = (V, E)$ , donde $V$ es el conjunto de nodos, $E$ es el conjunto de aristas, matriz de características de nodos $X \in \mathbb{R}^{N \times F}$ , matriz de adyacencia $A \in \mathbb{R}^{N \times N}$

Salida: Representación optimizada para tareas posteriores (clasificación de nodos/clasificación de grafos)

Restricción: Los parámetros del modelo preentrenado se congelan, actualizando únicamente parámetros de indicación ligeros

Arquitectura del Modelo

1. Marco General

El marco MSGCOT contiene tres módulos principales:

Generación de Indicaciones a Nivel de Nodo: Genera vectores de indicación específicos de tarea a nivel de nodo
Construcción de Pensamiento Multiescala: Construye representaciones jerárquicas mediante red de coarsificación
Indicación de Retroceso de Grueso a Fino: Integración progresiva de indicaciones multiescala

2. Generación de Indicaciones a Nivel de Nodo

P_x = \text{CONDNET}(H)

\hat{H} = \text{GNN}(X \odot P_x, A)

donde $H$ es la incrustación preentrenada, $P_x$ es la indicación a nivel de nodo, $\hat{H}$ es la incrustación después de indicación.

3. Construcción de Pensamiento Multiescala

Adopta diseño de descomposición de bajo rango para red de coarsificación ligera:

S^l = \text{Softmax}(W_{up}^l(\sigma(W_{down}^{lT} T^{l-1})))

T^l = S^{lT} T^{l-1}

donde $W_{down} \in \mathbb{R}^{d \times r}$ , $W_{up} \in \mathbb{R}^{r \times C_l}$ ( $r \ll d$ ), $T^l$ es la representación coarsificada de la capa $l$ .

4. Mecanismo de Indicación de Retroceso de Grueso a Fino

p_i^{l+1} = \sum_{j=1}^{C_l} \alpha_{ij}^{l+1} t_j^l

\alpha_{ij}^{l+1} = \frac{\exp(t_j^l \hat{h}_i^l)}{\sum_k \exp(t_k^l \hat{h}_i^l)}

\hat{h}_i^{l+1} = \hat{h}_i^l + p_i^{l+1}

Puntos de Innovación Técnica

1. Diseño de Red de Coarsificación de Bajo Rango

Eficiencia de Parámetros: Mediante descomposición de bajo rango reduce parámetros de $O(d \times C_l)$ a $O(d \times r + r \times C_l)$
Captura Multiescala: La coarsificación progresiva genera representaciones estructurales de diferentes granularidades
Adaptación a Tareas: La matriz de asignación aprendible se adapta a diferentes tareas posteriores

2. Cadena de Indicaciones Inspirada en Cognición

Simulación de Cognición Humana: Comprensión progresiva de topología global a detalles locales
Pensamiento Estructurado: Utiliza representaciones jerárquicas coarsificadas como sustituto de "pensamiento estructurado" para plantillas de texto
Integración Dinámica: Selecciona e integra dinámicamente información de diferentes granularidades en cada paso

3. Mecanismo de Restricción

Introduce pérdida de reconstrucción coseno para prevenir pérdida de información de nodos:

L_r = \frac{1}{N}(1 - \frac{\hat{h}_i \cdot h_i}{||\hat{h}_i|| \cdot ||h_i||})^\gamma

Configuración Experimental

Conjuntos de Datos

Clasificación de Nodos:

Cora (2,708 nodos, 7 clases)
Citeseer (3,327 nodos, 6 clases)
Pubmed (19,717 nodos, 3 clases)
Photo (7,650 nodos, 8 clases)

Clasificación de Grafos:

MUTAG (188 grafos, compuestos moleculares)
COX2 (467 grafos, inhibidores de ciclooxigenasa)
BZR (405 grafos, ligandos receptores de benzodiazepina)
PROTEINS (1,113 grafos, estructuras de proteínas)

Métricas de Evaluación

Precisión (Accuracy): Métrica de evaluación estándar para tareas de clasificación
Significancia Estadística: Media y varianza de 100 muestreos aleatorios

Métodos de Comparación

Aprendizaje Supervisado: GCN, GAT
Preentrenamiento + Ajuste Fino: LP, GraphCL, DGI/InfoGraph
Preentrenamiento + Indicación:
- Paso Único: All-in-One, GPF+, SUPT, GraphPrompt, EdgePrompt+, DAGPrompT
- Multistep: GCOT

Detalles de Implementación

Red Troncal: GCN (capa oculta 256 dimensiones)
Número de Capas de Coarsificación: 2 capas
Proporción de Coarsificación: {0.01, 0.1, 0.2, 0.3}
Dimensión de Bajo Rango: r=8 para tareas de nodos, r=1 para tareas de grafos
Peso de Restricción: α=1 para clasificación de nodos, α=0 para clasificación de grafos

Resultados Experimentales

Resultados Principales

Desempeño de Clasificación de Un Ejemplo

MSGCOT logra desempeño óptimo en los 8 conjuntos de datos:

Clasificación de Nodos:

Cora: 62.13% (vs GCOT 59.54%, +4.35%)
Citeseer: 49.05% (vs GCOT 48.13%, +1.91%)
Pubmed: 64.67% (vs GCOT 63.38%, +2.04%)
Photo: 68.01% (vs GCOT 66.98%, +1.54%)

Clasificación de Grafos:

MUTAG: 63.54% (vs GCOT 60.34%, +5.30%)
COX2: 73.62% (vs DAGPrompt 55.00%, +33.85%)
BZR: 69.85% (vs DAGPrompt 55.49%, +25.87%)
PROTEINS: 57.83% (vs DAGPrompt 56.22%, +2.86%)

Desempeño de Aprendizaje con Pocos Ejemplos

En configuraciones de 1-3 ejemplos, MSGCOT supera los métodos de referencia en promedio 5-8%, demostrando capacidad de generalización superior en pocos ejemplos.

Experimentos de Ablación

Experimentos de ablación sistemáticos verifican la contribución de cada componente:

Indicación Multiescala (MSP): La eliminación resulta en disminución promedio de 5.52% en tareas de nodos, 17.7% en tareas de grafos
Pérdida de Reconstrucción (RE): Impacto significativo en clasificación de nodos, enfoque en información global para clasificación de grafos
Mecanismo de Retroceso (TB): Particularmente crítico para clasificación de grafos, indicación unidireccional causa disminución de 12-15%
Actualización Incremental (IU): La actualización progresiva aporta mejora de desempeño de 2-5%

Análisis de Eficiencia de Parámetros

Reducción significativa de parámetros en comparación con GCOT:

Clasificación de Nodos: Reducción de parámetros 47.1%-68.3%
Clasificación de Grafos: Reducción de parámetros 29.1%-85.7%
Eficiencia Temporal: Tiempo de entrenamiento promedio por ronda reducido 34.8% en tareas de grafos

Sensibilidad de Hiperparámetros

Proporción de Coarsificación: Rango óptimo 0.1-0.3 para tareas de nodos, estable en rango 0.05-0.3 para tareas de grafos
Número de Capas de Coarsificación: Óptimo en 2 capas para tareas de nodos, puede soportar niveles más profundos para tareas de grafos
Dimensión Oculta: Óptimo en r=8 para tareas de nodos, desempeño excelente en r=1 para tareas de grafos

Trabajo Relacionado

Preentrenamiento en Grafos

Aprendizaje Contrastivo: GraphCL, DGI y otros aprenden representaciones mediante pares de muestras positivas y negativas
Aprendizaje Generativo: Preentrenamiento mediante reconstrucción de características de nodos o estructura de grafos
Limitaciones: La brecha entre objetivo de preentrenamiento y tarea posterior limita el desempeño

Aprendizaje de Indicaciones en Grafos

Métodos Dependientes de Preentrenamiento: GPPT, GraphPrompt, All-in-One
Métodos Independientes de Preentrenamiento: GPF+, SUPT, EdgePrompt
Indicaciones Multistep: GCOT introduce concepto de cadena de pensamiento pero limitado a granularidad única

Técnicas de Coarsificación de Grafos

Métodos Tradicionales: Clustering espectral, factorización de matriz no negativa
Métodos Aprendibles: DiffPool y otros logran representaciones jerárquicas mediante matrices de asignación aprendibles
Contribución de Este Artículo: Combina coarsificación de grafos con aprendizaje de indicaciones, realizando generación de indicaciones multiescala

Conclusiones y Discusión

Conclusiones Principales

Importancia de Información Multiescala: Los experimentos demuestran que la información de estructura multiescala es crucial para el aprendizaje de indicaciones en grafos
Efectividad del Diseño Inspirado en Cognición: Simular el proceso cognitivo humano de grueso a fino mejora significativamente el desempeño
Equilibrio entre Eficiencia de Parámetros y Desempeño: El diseño de bajo rango mantiene desempeño excelente mientras reduce drásticamente parámetros
Ventaja en Aprendizaje con Pocos Ejemplos: Las indicaciones multiescala muestran desempeño particularmente destacado en escenarios de datos escasos

Limitaciones

Complejidad Computacional: El razonamiento multistep añade cierta sobrecarga computacional
Sensibilidad de Hiperparámetros: La proporción de coarsificación y número de capas requieren ajuste para diferentes tipos de tareas
Análisis Teórico Insuficiente: Carece de garantías teóricas para la efectividad de indicaciones multiescala

Direcciones Futuras

Estrategias de Coarsificación Adaptativa: Investigar mecanismos de coarsificación adaptativos a tareas
Análisis Teórico: Establecer marco teórico para aprendizaje de indicaciones multiescala
Extensión de Aplicaciones: Explorar potencial de aplicación en más tareas de aprendizaje en grafos

Evaluación Profunda

Fortalezas

Innovación Fuerte: Primera integración sistemática de información multiescala en aprendizaje de indicaciones en grafos
Diseño Razonable: Red de coarsificación de bajo rango y mecanismo de retroceso diseñados ingeniosamente, equilibrando eficiencia y efectividad
Experimentos Suficientes: 8 conjuntos de datos, múltiples métodos de comparación, experimentos de ablación detallados
Valor Práctico Alto: Ventajas evidentes en escenarios con pocos ejemplos, alineado con demandas de aplicaciones prácticas

Insuficiencias

Fundamento Teórico Débil: Carece de análisis teórico y garantías para efectividad del método
Análisis de Sobrecarga Computacional Insuficiente: Aunque proporciona análisis de complejidad, comparaciones de tiempo de ejecución real limitadas
Exploración de Aplicabilidad Insuficiente: Análisis limitado de aplicabilidad a diferentes tipos de datos de grafos

Influencia

Contribución Académica: Proporciona nueva dirección de investigación para campo de aprendizaje de indicaciones en grafos
Valor Práctico: Posee importante valor de aplicación en escenarios de aprendizaje con pocos ejemplos con recursos limitados
Reproducibilidad: Proporciona detalles de implementación detallados y configuración de hiperparámetros

Escenarios Aplicables

Aprendizaje de Grafos con Pocos Ejemplos: Tareas de análisis de grafos con datos anotados escasos
Análisis de Grafos Multiescala: Aplicaciones que requieren capturar información de estructura multinivel
Entornos con Recursos Limitados: Escenarios de despliegue con requisitos de eficiencia de parámetros

Referencias

Este artículo cita 38 referencias relacionadas, cubriendo múltiples campos relevantes incluyendo redes neuronales de grafos, preentrenamiento en grafos, aprendizaje de indicaciones y coarsificación de grafos, proporcionando base teórica sólida para la investigación.

Evaluación General: Este es un artículo de alta calidad sobre aprendizaje de indicaciones en redes neuronales de grafos que aborda innovadoramente la limitación de granularidad única de métodos existentes. El diseño del método es razonable, la verificación experimental es suficiente, y tiene importancia significativa tanto en contribución teórica como en valor práctico. Aunque existe espacio para mejora en análisis teórico, en general hace contribuciones importantes al campo del aprendizaje de indicaciones en grafos.