2025-11-23T22:46:17.287043

Beyond Single-Granularity Prompts: A Multi-Scale Chain-of-Thought Prompt Learning for Graph

Zheng, Yang, Guan et al.
The "pre-train, prompt'' paradigm, designed to bridge the gap between pre-training tasks and downstream objectives, has been extended from the NLP domain to the graph domain and has achieved remarkable progress. Current mainstream graph prompt-tuning methods modify input or output features using learnable prompt vectors. However, existing approaches are confined to single-granularity (e.g., node-level or subgraph-level) during prompt generation, overlooking the inherently multi-scale structural information in graph data, which limits the diversity of prompt semantics. To address this issue, we pioneer the integration of multi-scale information into graph prompt and propose a Multi-Scale Graph Chain-of-Thought (MSGCOT) prompting framework. Specifically, we design a lightweight, low-rank coarsening network to efficiently capture multi-scale structural features as hierarchical basis vectors for prompt generation. Subsequently, mimicking human cognition from coarse-to-fine granularity, we dynamically integrate multi-scale information at each reasoning step, forming a progressive coarse-to-fine prompt chain. Extensive experiments on eight benchmark datasets demonstrate that MSGCOT outperforms the state-of-the-art single-granularity graph prompt-tuning method, particularly in few-shot scenarios, showcasing superior performance.
academic

Más Allá de Indicaciones de Granularidad Única: Aprendizaje de Indicaciones de Cadena de Pensamiento Multiescala para Grafos

Información Básica

  • ID del Artículo: 2510.09394
  • Título: Interacciones de orden superior de indicaciones multicapa (Más Allá de Indicaciones de Granularidad Única: Aprendizaje de Indicaciones de Cadena de Pensamiento Multiescala para Grafos)
  • Autores: Ziyu Zheng, Yaming Yang, Ziyu Guan, Wei Zhao, Xinyan Huang, Weigang Lu
  • Clasificación: cs.CL, cs.AI
  • Fecha de Publicación/Conferencia: Acrónimo de Conferencia 'XX, 03–05 de junio de 2018, Woodstock, NY (Por publicarse)
  • Enlace del Artículo: https://arxiv.org/abs/2510.09394

Resumen

El paradigma "preentrenamiento-indicación" tiene como objetivo cerrar la brecha entre tareas de preentrenamiento y objetivos posteriores, extendiéndose desde el campo del PNL al dominio de grafos con avances significativos. Los métodos actuales predominantes de ajuste de indicaciones en grafos utilizan vectores de indicación aprendibles para modificar características de entrada o salida. Sin embargo, los métodos existentes están limitados a una única granularidad (como nivel de nodo o nivel de subgrafo) durante el proceso de generación de indicaciones, ignorando la información de estructura multiescala inherente en los datos de grafos, lo que limita la diversidad semántica de las indicaciones. Para abordar este problema, este artículo integra por primera vez información multiescala en indicaciones de grafos, proponiendo el marco de indicaciones de Cadena de Pensamiento de Grafos Multiescala (MSGCOT). Específicamente, se diseña una red de coarsificación de bajo rango ligera para capturar eficientemente características estructurales multiescala como vectores base jerárquicos para la generación de indicaciones. Posteriormente, simulando el proceso cognitivo humano de granularidad gruesa a fina, se integra dinámicamente información multiescala en cada paso de razonamiento, formando una cadena de indicaciones progresiva de gruesa a fina. Los experimentos extensos en ocho conjuntos de datos de referencia demuestran que MSGCOT supera los métodos de ajuste de indicaciones de grafos de granularidad única de última generación, mostrando un desempeño excepcional particularmente en escenarios de pocos ejemplos.

Antecedentes de Investigación y Motivación

Definición del Problema

El problema central que esta investigación aborda es la limitación de granularidad única en los métodos existentes de aprendizaje de indicaciones para redes neuronales de grafos durante el proceso de generación de indicaciones. Se manifiesta específicamente como:

  1. Restricción de Granularidad Única: Los métodos existentes (como GPF+, GCOT, etc.) se enfocan únicamente en información de un solo nivel (nivel de nodo, nivel de arista o nivel de subgrafo), ignorando la información coexistente multiescala de nodos a subgrafos jerárquicos
  2. Diversidad Semántica Insuficiente: La generación de indicaciones de granularidad única limita la capacidad expresiva y la riqueza semántica de las indicaciones
  3. Utilización Insuficiente de Información Estructural: No aprovecha completamente las características de estructura jerárquica inherentes en los datos de grafos

Análisis de Importancia

La importancia de este problema se refleja en:

  1. Demanda de Aplicaciones Prácticas: Los datos de grafos del mundo real (redes sociales, grafos moleculares, sistemas de recomendación, etc.) contienen inherentemente información estructural multinivel
  2. Espacio para Mejora de Desempeño: La utilización efectiva de información multiescala puede mejorar significativamente la capacidad de generalización del modelo en escenarios de aprendizaje con pocos ejemplos
  3. Completitud Teórica: Cierra la brecha en el marco teórico del aprendizaje de indicaciones en grafos para el modelado de información multigranular

Limitaciones de Métodos Existentes

  1. GCOT: Aunque adopta generación de indicaciones multistep, cada paso sigue limitado a granularidad de nivel de nodo
  2. Métodos de Indicación Única (GPF+, EdgePrompt, etc.): Generan indicaciones completas directamente, careciendo de mecanismo de optimización progresiva
  3. Métodos Dependientes de Preentrenamiento: Requieren estrategias de preentrenamiento específicas, con generalidad limitada

Contribuciones Principales

  1. Marco de Cadena de Pensamiento de Grafos Multiescala Pionero: Propone el primer marco de aprendizaje de indicaciones de cadena de pensamiento en grafos que integra información multigranular, rompiendo la limitación de granularidad única de los métodos existentes
  2. Mecanismo Innovador de Simulación Cognitiva: Diseña una red de coarsificación de bajo rango para extracción de características multiescala y propone un mecanismo de indicación de retroceso para lograr generación de indicaciones progresiva, simulando el proceso cognitivo humano de grueso a fino
  3. Diseño Ligero y Eficiente: Mediante descomposición de bajo rango reduce significativamente la cantidad de parámetros (47.1%-85.7% en comparación con GCOT), manteniendo simultáneamente un desempeño excelente
  4. Verificación Experimental Integral: Logra desempeño óptimo en tareas de clasificación de nodos y clasificación de grafos en 8 conjuntos de datos de referencia, con ventajas evidentes particularmente en escenarios con pocos ejemplos

Explicación Detallada del Método

Definición de Tarea

Entrada: Grafo G=(V,E)G = (V, E), donde VV es el conjunto de nodos, EE es el conjunto de aristas, matriz de características de nodos XRN×FX \in \mathbb{R}^{N \times F}, matriz de adyacencia ARN×NA \in \mathbb{R}^{N \times N}

Salida: Representación optimizada para tareas posteriores (clasificación de nodos/clasificación de grafos)

Restricción: Los parámetros del modelo preentrenado se congelan, actualizando únicamente parámetros de indicación ligeros

Arquitectura del Modelo

1. Marco General

El marco MSGCOT contiene tres módulos principales:

  • Generación de Indicaciones a Nivel de Nodo: Genera vectores de indicación específicos de tarea a nivel de nodo
  • Construcción de Pensamiento Multiescala: Construye representaciones jerárquicas mediante red de coarsificación
  • Indicación de Retroceso de Grueso a Fino: Integración progresiva de indicaciones multiescala

2. Generación de Indicaciones a Nivel de Nodo

Px=CONDNET(H)P_x = \text{CONDNET}(H) H^=GNN(XPx,A)\hat{H} = \text{GNN}(X \odot P_x, A)

donde HH es la incrustación preentrenada, PxP_x es la indicación a nivel de nodo, H^\hat{H} es la incrustación después de indicación.

3. Construcción de Pensamiento Multiescala

Adopta diseño de descomposición de bajo rango para red de coarsificación ligera:

Sl=Softmax(Wupl(σ(WdownlTTl1)))S^l = \text{Softmax}(W_{up}^l(\sigma(W_{down}^{lT} T^{l-1}))) Tl=SlTTl1T^l = S^{lT} T^{l-1}

donde WdownRd×rW_{down} \in \mathbb{R}^{d \times r}, WupRr×ClW_{up} \in \mathbb{R}^{r \times C_l} (rdr \ll d), TlT^l es la representación coarsificada de la capa ll.

4. Mecanismo de Indicación de Retroceso de Grueso a Fino

pil+1=j=1Clαijl+1tjlp_i^{l+1} = \sum_{j=1}^{C_l} \alpha_{ij}^{l+1} t_j^l αijl+1=exp(tjlh^il)kexp(tklh^il)\alpha_{ij}^{l+1} = \frac{\exp(t_j^l \hat{h}_i^l)}{\sum_k \exp(t_k^l \hat{h}_i^l)} h^il+1=h^il+pil+1\hat{h}_i^{l+1} = \hat{h}_i^l + p_i^{l+1}

Puntos de Innovación Técnica

1. Diseño de Red de Coarsificación de Bajo Rango

  • Eficiencia de Parámetros: Mediante descomposición de bajo rango reduce parámetros de O(d×Cl)O(d \times C_l) a O(d×r+r×Cl)O(d \times r + r \times C_l)
  • Captura Multiescala: La coarsificación progresiva genera representaciones estructurales de diferentes granularidades
  • Adaptación a Tareas: La matriz de asignación aprendible se adapta a diferentes tareas posteriores

2. Cadena de Indicaciones Inspirada en Cognición

  • Simulación de Cognición Humana: Comprensión progresiva de topología global a detalles locales
  • Pensamiento Estructurado: Utiliza representaciones jerárquicas coarsificadas como sustituto de "pensamiento estructurado" para plantillas de texto
  • Integración Dinámica: Selecciona e integra dinámicamente información de diferentes granularidades en cada paso

3. Mecanismo de Restricción

Introduce pérdida de reconstrucción coseno para prevenir pérdida de información de nodos:

$L_r = \frac{1}{N}(1 - \frac{\hat{h}_i \cdot h_i}{||\hat{h}_i|| \cdot ||h_i||})^\gamma$

Configuración Experimental

Conjuntos de Datos

Clasificación de Nodos:

  • Cora (2,708 nodos, 7 clases)
  • Citeseer (3,327 nodos, 6 clases)
  • Pubmed (19,717 nodos, 3 clases)
  • Photo (7,650 nodos, 8 clases)

Clasificación de Grafos:

  • MUTAG (188 grafos, compuestos moleculares)
  • COX2 (467 grafos, inhibidores de ciclooxigenasa)
  • BZR (405 grafos, ligandos receptores de benzodiazepina)
  • PROTEINS (1,113 grafos, estructuras de proteínas)

Métricas de Evaluación

  • Precisión (Accuracy): Métrica de evaluación estándar para tareas de clasificación
  • Significancia Estadística: Media y varianza de 100 muestreos aleatorios

Métodos de Comparación

  1. Aprendizaje Supervisado: GCN, GAT
  2. Preentrenamiento + Ajuste Fino: LP, GraphCL, DGI/InfoGraph
  3. Preentrenamiento + Indicación:
    • Paso Único: All-in-One, GPF+, SUPT, GraphPrompt, EdgePrompt+, DAGPrompT
    • Multistep: GCOT

Detalles de Implementación

  • Red Troncal: GCN (capa oculta 256 dimensiones)
  • Número de Capas de Coarsificación: 2 capas
  • Proporción de Coarsificación: {0.01, 0.1, 0.2, 0.3}
  • Dimensión de Bajo Rango: r=8 para tareas de nodos, r=1 para tareas de grafos
  • Peso de Restricción: α=1 para clasificación de nodos, α=0 para clasificación de grafos

Resultados Experimentales

Resultados Principales

Desempeño de Clasificación de Un Ejemplo

MSGCOT logra desempeño óptimo en los 8 conjuntos de datos:

Clasificación de Nodos:

  • Cora: 62.13% (vs GCOT 59.54%, +4.35%)
  • Citeseer: 49.05% (vs GCOT 48.13%, +1.91%)
  • Pubmed: 64.67% (vs GCOT 63.38%, +2.04%)
  • Photo: 68.01% (vs GCOT 66.98%, +1.54%)

Clasificación de Grafos:

  • MUTAG: 63.54% (vs GCOT 60.34%, +5.30%)
  • COX2: 73.62% (vs DAGPrompt 55.00%, +33.85%)
  • BZR: 69.85% (vs DAGPrompt 55.49%, +25.87%)
  • PROTEINS: 57.83% (vs DAGPrompt 56.22%, +2.86%)

Desempeño de Aprendizaje con Pocos Ejemplos

En configuraciones de 1-3 ejemplos, MSGCOT supera los métodos de referencia en promedio 5-8%, demostrando capacidad de generalización superior en pocos ejemplos.

Experimentos de Ablación

Experimentos de ablación sistemáticos verifican la contribución de cada componente:

  1. Indicación Multiescala (MSP): La eliminación resulta en disminución promedio de 5.52% en tareas de nodos, 17.7% en tareas de grafos
  2. Pérdida de Reconstrucción (RE): Impacto significativo en clasificación de nodos, enfoque en información global para clasificación de grafos
  3. Mecanismo de Retroceso (TB): Particularmente crítico para clasificación de grafos, indicación unidireccional causa disminución de 12-15%
  4. Actualización Incremental (IU): La actualización progresiva aporta mejora de desempeño de 2-5%

Análisis de Eficiencia de Parámetros

Reducción significativa de parámetros en comparación con GCOT:

  • Clasificación de Nodos: Reducción de parámetros 47.1%-68.3%
  • Clasificación de Grafos: Reducción de parámetros 29.1%-85.7%
  • Eficiencia Temporal: Tiempo de entrenamiento promedio por ronda reducido 34.8% en tareas de grafos

Sensibilidad de Hiperparámetros

  1. Proporción de Coarsificación: Rango óptimo 0.1-0.3 para tareas de nodos, estable en rango 0.05-0.3 para tareas de grafos
  2. Número de Capas de Coarsificación: Óptimo en 2 capas para tareas de nodos, puede soportar niveles más profundos para tareas de grafos
  3. Dimensión Oculta: Óptimo en r=8 para tareas de nodos, desempeño excelente en r=1 para tareas de grafos

Trabajo Relacionado

Preentrenamiento en Grafos

  • Aprendizaje Contrastivo: GraphCL, DGI y otros aprenden representaciones mediante pares de muestras positivas y negativas
  • Aprendizaje Generativo: Preentrenamiento mediante reconstrucción de características de nodos o estructura de grafos
  • Limitaciones: La brecha entre objetivo de preentrenamiento y tarea posterior limita el desempeño

Aprendizaje de Indicaciones en Grafos

  • Métodos Dependientes de Preentrenamiento: GPPT, GraphPrompt, All-in-One
  • Métodos Independientes de Preentrenamiento: GPF+, SUPT, EdgePrompt
  • Indicaciones Multistep: GCOT introduce concepto de cadena de pensamiento pero limitado a granularidad única

Técnicas de Coarsificación de Grafos

  • Métodos Tradicionales: Clustering espectral, factorización de matriz no negativa
  • Métodos Aprendibles: DiffPool y otros logran representaciones jerárquicas mediante matrices de asignación aprendibles
  • Contribución de Este Artículo: Combina coarsificación de grafos con aprendizaje de indicaciones, realizando generación de indicaciones multiescala

Conclusiones y Discusión

Conclusiones Principales

  1. Importancia de Información Multiescala: Los experimentos demuestran que la información de estructura multiescala es crucial para el aprendizaje de indicaciones en grafos
  2. Efectividad del Diseño Inspirado en Cognición: Simular el proceso cognitivo humano de grueso a fino mejora significativamente el desempeño
  3. Equilibrio entre Eficiencia de Parámetros y Desempeño: El diseño de bajo rango mantiene desempeño excelente mientras reduce drásticamente parámetros
  4. Ventaja en Aprendizaje con Pocos Ejemplos: Las indicaciones multiescala muestran desempeño particularmente destacado en escenarios de datos escasos

Limitaciones

  1. Complejidad Computacional: El razonamiento multistep añade cierta sobrecarga computacional
  2. Sensibilidad de Hiperparámetros: La proporción de coarsificación y número de capas requieren ajuste para diferentes tipos de tareas
  3. Análisis Teórico Insuficiente: Carece de garantías teóricas para la efectividad de indicaciones multiescala

Direcciones Futuras

  1. Estrategias de Coarsificación Adaptativa: Investigar mecanismos de coarsificación adaptativos a tareas
  2. Análisis Teórico: Establecer marco teórico para aprendizaje de indicaciones multiescala
  3. Extensión de Aplicaciones: Explorar potencial de aplicación en más tareas de aprendizaje en grafos

Evaluación Profunda

Fortalezas

  1. Innovación Fuerte: Primera integración sistemática de información multiescala en aprendizaje de indicaciones en grafos
  2. Diseño Razonable: Red de coarsificación de bajo rango y mecanismo de retroceso diseñados ingeniosamente, equilibrando eficiencia y efectividad
  3. Experimentos Suficientes: 8 conjuntos de datos, múltiples métodos de comparación, experimentos de ablación detallados
  4. Valor Práctico Alto: Ventajas evidentes en escenarios con pocos ejemplos, alineado con demandas de aplicaciones prácticas

Insuficiencias

  1. Fundamento Teórico Débil: Carece de análisis teórico y garantías para efectividad del método
  2. Análisis de Sobrecarga Computacional Insuficiente: Aunque proporciona análisis de complejidad, comparaciones de tiempo de ejecución real limitadas
  3. Exploración de Aplicabilidad Insuficiente: Análisis limitado de aplicabilidad a diferentes tipos de datos de grafos

Influencia

  1. Contribución Académica: Proporciona nueva dirección de investigación para campo de aprendizaje de indicaciones en grafos
  2. Valor Práctico: Posee importante valor de aplicación en escenarios de aprendizaje con pocos ejemplos con recursos limitados
  3. Reproducibilidad: Proporciona detalles de implementación detallados y configuración de hiperparámetros

Escenarios Aplicables

  1. Aprendizaje de Grafos con Pocos Ejemplos: Tareas de análisis de grafos con datos anotados escasos
  2. Análisis de Grafos Multiescala: Aplicaciones que requieren capturar información de estructura multinivel
  3. Entornos con Recursos Limitados: Escenarios de despliegue con requisitos de eficiencia de parámetros

Referencias

Este artículo cita 38 referencias relacionadas, cubriendo múltiples campos relevantes incluyendo redes neuronales de grafos, preentrenamiento en grafos, aprendizaje de indicaciones y coarsificación de grafos, proporcionando base teórica sólida para la investigación.


Evaluación General: Este es un artículo de alta calidad sobre aprendizaje de indicaciones en redes neuronales de grafos que aborda innovadoramente la limitación de granularidad única de métodos existentes. El diseño del método es razonable, la verificación experimental es suficiente, y tiene importancia significativa tanto en contribución teórica como en valor práctico. Aunque existe espacio para mejora en análisis teórico, en general hace contribuciones importantes al campo del aprendizaje de indicaciones en grafos.