2025-11-23T22:46:17.287043

Beyond Single-Granularity Prompts: A Multi-Scale Chain-of-Thought Prompt Learning for Graph

Zheng, Yang, Guan et al.
The "pre-train, prompt'' paradigm, designed to bridge the gap between pre-training tasks and downstream objectives, has been extended from the NLP domain to the graph domain and has achieved remarkable progress. Current mainstream graph prompt-tuning methods modify input or output features using learnable prompt vectors. However, existing approaches are confined to single-granularity (e.g., node-level or subgraph-level) during prompt generation, overlooking the inherently multi-scale structural information in graph data, which limits the diversity of prompt semantics. To address this issue, we pioneer the integration of multi-scale information into graph prompt and propose a Multi-Scale Graph Chain-of-Thought (MSGCOT) prompting framework. Specifically, we design a lightweight, low-rank coarsening network to efficiently capture multi-scale structural features as hierarchical basis vectors for prompt generation. Subsequently, mimicking human cognition from coarse-to-fine granularity, we dynamically integrate multi-scale information at each reasoning step, forming a progressive coarse-to-fine prompt chain. Extensive experiments on eight benchmark datasets demonstrate that MSGCOT outperforms the state-of-the-art single-granularity graph prompt-tuning method, particularly in few-shot scenarios, showcasing superior performance.
academic

단일 세분성을 넘어: 그래프를 위한 다중 스케일 사고 연쇄 프롬프트 학습

기본 정보

  • 논문 ID: 2510.09394
  • 제목: 다층 프롬프트의 고차 상호작용 (단일 세분성을 넘어: 그래프를 위한 다중 스케일 사고 연쇄 프롬프트 학습)
  • 저자: Ziyu Zheng, Yaming Yang, Ziyu Guan, Wei Zhao, Xinyan Huang, Weigang Lu
  • 분류: cs.CL, cs.AI
  • 발표 시간/학회: 학회 약자 'XX, June 03–05, 2018, Woodstock, NY (게재 예정)
  • 논문 링크: https://arxiv.org/abs/2510.09394

초록

"사전학습-프롬프트" 패러다임은 사전학습 작업과 하위 목표 간의 격차를 좁히기 위해 고안되었으며, NLP 분야에서 그래프 분야로 확장되어 괄목할 만한 진전을 이루었습니다. 현재 주류 그래프 프롬프트 미세조정 방법은 학습 가능한 프롬프트 벡터를 사용하여 입력 또는 출력 특성을 수정합니다. 그러나 기존 방법은 프롬프트 생성 과정에서 단일 세분성(예: 노드 수준 또는 부분그래프 수준)으로 제한되어 있으며, 그래프 데이터에 내재된 다중 스케일 구조 정보를 무시하고 있어 프롬프트 의미의 다양성을 제한합니다. 이 문제를 해결하기 위해 본 논문은 처음으로 다중 스케일 정보를 그래프 프롬프트에 통합하여 다중 스케일 그래프 사고 연쇄(MSGCOT) 프롬프트 프레임워크를 제안합니다. 구체적으로, 경량 저차수 조대화 네트워크를 설계하여 프롬프트 생성을 위한 계층적 기저 벡터로서 다중 스케일 구조 특성을 효율적으로 포착합니다. 이후 인간의 조에서 세로의 인지 과정을 모방하여 각 추론 단계에서 다중 스케일 정보를 동적으로 통합하여 점진적 조에서 세로의 프롬프트 연쇄를 형성합니다. 8개의 벤치마크 데이터셋에 대한 광범위한 실험은 MSGCOT이 최첨단 단일 세분성 그래프 프롬프트 미세조정 방법을 능가하며, 특히 소수 샘플 시나리오에서 우수한 성능을 보임을 입증합니다.

연구 배경 및 동기

문제 정의

본 연구가 해결하고자 하는 핵심 문제는 기존 그래프 신경망 프롬프트 학습 방법이 프롬프트 생성 과정에서 보이는 단일 세분성 제한입니다. 구체적으로 다음과 같이 나타납니다:

  1. 단일 세분성 제약: 기존 방법(예: GPF+, GCOT 등)은 단일 계층의 정보(노드 수준, 엣지 수준 또는 부분그래프 수준)에만 초점을 맞추고 있으며, 그래프 데이터에서 노드에서 계층적 부분그래프까지의 다중 스케일 공존 정보를 무시합니다
  2. 의미 다양성 부족: 단일 세분성 프롬프트 생성은 프롬프트의 표현력과 의미 풍부성을 제한합니다
  3. 구조 정보 활용 부족: 그래프 데이터에 내재된 계층화된 구조 특성을 충분히 활용하지 못합니다

중요성 분석

이 문제의 중요성은 다음과 같이 나타납니다:

  1. 실제 응용 요구: 실제 세계의 그래프 데이터(소셜 네트워크, 분자 그래프, 추천 시스템 등)는 본질적으로 다층 구조 정보를 포함합니다
  2. 성능 향상 공간: 다중 스케일 정보의 효과적인 활용은 소수 샘플 학습 시나리오에서 모델의 일반화 능력을 크게 향상시킬 수 있습니다
  3. 이론적 완성도: 그래프 프롬프트 학습 이론 프레임워크에서 다중 세분성 정보 모델링에 대한 공백을 메웁니다

기존 방법의 한계

  1. GCOT: 다단계 프롬프트 생성을 채택하지만 각 단계는 여전히 노드 수준 세분성으로 제한됩니다
  2. 단계 프롬프트 방법(GPF+, EdgePrompt 등): 완전한 프롬프트를 직접 생성하며 점진적 최적화 메커니즘이 부족합니다
  3. 사전학습 의존 방법: 특정 사전학습 전략이 필요하며 일반성이 제한됩니다

핵심 기여

  1. 다중 스케일 그래프 사고 연쇄 프레임워크 최초 제안: 다중 세분성 정보를 통합하는 첫 번째 그래프 사고 연쇄 프롬프트 학습 프레임워크를 제안하여 기존 방법의 단일 세분성 제한을 돌파합니다
  2. 혁신적인 인지 모방 메커니즘: 저차수 조대화 네트워크를 설계하여 다중 스케일 특성 추출을 수행하고, 역추적 프롬프트 메커니즘을 제안하여 점진적 프롬프트 생성을 구현하며, 인간의 조에서 세로의 인지 과정을 모방합니다
  3. 경량 고효율 설계: 저차수 분해를 통해 매개변수 수를 크게 감소(GCOT 대비 47.1%-85.7% 감소)시키면서 우수한 성능을 유지합니다
  4. 포괄적 실험 검증: 8개의 벤치마크 데이터셋에서 노드 분류 및 그래프 분류 작업 모두에서 최적 성능을 달성하며, 특히 소수 샘플 시나리오에서 명확한 우위를 보입니다

방법 상세 설명

작업 정의

입력: 그래프 G=(V,E)G = (V, E), 여기서 VV는 노드 집합, EE는 엣지 집합, 노드 특성 행렬 XRN×FX \in \mathbb{R}^{N \times F}, 인접 행렬 ARN×NA \in \mathbb{R}^{N \times N}

출력: 하위 작업(노드 분류/그래프 분류)에 대한 최적화된 표현

제약: 사전학습 모델 매개변수는 고정되고 경량 프롬프트 매개변수만 업데이트됩니다

모델 아키텍처

1. 전체 프레임워크

MSGCOT 프레임워크는 세 가지 핵심 모듈로 구성됩니다:

  • 노드 수준 프롬프트 생성: 작업 특정 노드 프롬프트 벡터 생성
  • 다중 스케일 사고 구축: 조대화 네트워크를 통한 계층적 표현 구축
  • 조에서 세로의 역추적 프롬프트: 점진적 다중 스케일 프롬프트 통합

2. 노드 수준 프롬프트 생성

Px=CONDNET(H)P_x = \text{CONDNET}(H) H^=GNN(XPx,A)\hat{H} = \text{GNN}(X \odot P_x, A)

여기서 HH는 사전학습 임베딩, PxP_x는 노드 수준 프롬프트, H^\hat{H}는 프롬프트 후 임베딩입니다.

3. 다중 스케일 사고 구축

저차수 분해 설계를 사용한 경량 조대화 네트워크 채택:

Sl=Softmax(Wupl(σ(WdownlTTl1)))S^l = \text{Softmax}(W_{up}^l(\sigma(W_{down}^{lT} T^{l-1}))) Tl=SlTTl1T^l = S^{lT} T^{l-1}

여기서 WdownRd×rW_{down} \in \mathbb{R}^{d \times r}, WupRr×ClW_{up} \in \mathbb{R}^{r \times C_l} (rdr \ll d), TlT^lll번째 계층의 조대화 표현입니다.

4. 조에서 세로의 역추적 프롬프트 메커니즘

pil+1=j=1Clαijl+1tjlp_i^{l+1} = \sum_{j=1}^{C_l} \alpha_{ij}^{l+1} t_j^l αijl+1=exp(tjlh^il)kexp(tklh^il)\alpha_{ij}^{l+1} = \frac{\exp(t_j^l \hat{h}_i^l)}{\sum_k \exp(t_k^l \hat{h}_i^l)} h^il+1=h^il+pil+1\hat{h}_i^{l+1} = \hat{h}_i^l + p_i^{l+1}

기술 혁신점

1. 저차수 조대화 네트워크 설계

  • 매개변수 효율성: 저차수 분해를 통해 매개변수 수를 O(d×Cl)O(d \times C_l)에서 O(d×r+r×Cl)O(d \times r + r \times C_l)로 감소
  • 다중 스케일 포착: 점진적 조대화를 통해 다양한 세분성의 구조 표현 생성
  • 작업 자적응: 학습 가능한 할당 행렬이 다양한 하위 작업에 적응합니다

2. 인지 영감 프롬프트 연쇄

  • 인간 인지 모방: 전역 위상에서 국소 세부 사항으로의 점진적 이해
  • 구조화된 사고: 계층적 조대화 표현을 텍스트 템플릿의 "구조화된 사고" 대체물로 사용
  • 동적 통합: 각 단계에서 다양한 세분성의 정보를 동적으로 선택하고 통합합니다

3. 제약 메커니즘

노드 정보 손실을 방지하기 위해 코사인 재구성 손실을 도입합니다:

Lr=1N(1h^ihih^ihi)γL_r = \frac{1}{N}(1 - \frac{\hat{h}_i \cdot h_i}{||\hat{h}_i|| \cdot ||h_i||})^\gamma

실험 설정

데이터셋

노드 분류:

  • Cora (2,708 노드, 7개 클래스)
  • Citeseer (3,327 노드, 6개 클래스)
  • Pubmed (19,717 노드, 3개 클래스)
  • Photo (7,650 노드, 8개 클래스)

그래프 분류:

  • MUTAG (188 그래프, 분자 화합물)
  • COX2 (467 그래프, 환산화효소 억제제)
  • BZR (405 그래프, 벤조디아제핀 수용체 리간드)
  • PROTEINS (1,113 그래프, 단백질 구조)

평가 지표

  • 정확도(Accuracy): 분류 작업의 표준 평가 지표
  • 통계적 유의성: 100회 무작위 샘플링의 평균 및 분산

비교 방법

  1. 지도 학습: GCN, GAT
  2. 사전학습+미세조정: LP, GraphCL, DGI/InfoGraph
  3. 사전학습+프롬프트:
    • 단계: All-in-One, GPF+, SUPT, GraphPrompt, EdgePrompt+, DAGPrompT
    • 다단계: GCOT

구현 세부사항

  • 백본 네트워크: GCN (숨겨진 계층 256차원)
  • 조대화 계층 수: 2개 계층
  • 조대화 비율: {0.01, 0.1, 0.2, 0.3}
  • 저차수 차원: 노드 작업 r=8, 그래프 작업 r=1
  • 제약 가중치: 노드 분류 α=1, 그래프 분류 α=0

실험 결과

주요 결과

단일 샘플 분류 성능

8개 데이터셋 모두에서 MSGCOT이 최적 성능을 달성합니다:

노드 분류:

  • Cora: 62.13% (vs GCOT 59.54%, +4.35%)
  • Citeseer: 49.05% (vs GCOT 48.13%, +1.91%)
  • Pubmed: 64.67% (vs GCOT 63.38%, +2.04%)
  • Photo: 68.01% (vs GCOT 66.98%, +1.54%)

그래프 분류:

  • MUTAG: 63.54% (vs GCOT 60.34%, +5.30%)
  • COX2: 73.62% (vs DAGPrompt 55.00%, +33.85%)
  • BZR: 69.85% (vs DAGPrompt 55.49%, +25.87%)
  • PROTEINS: 57.83% (vs DAGPrompt 56.22%, +2.86%)

소수 샘플 학습 성능

1-3개 샘플 설정에서 MSGCOT은 기준 방법을 평균 5-8% 능가하며 우수한 소수 샘플 일반화 능력을 보여줍니다.

제거 실험

각 구성 요소의 기여도를 검증하는 체계적 제거 실험:

  1. 다중 스케일 프롬프트(MSP): 제거 후 노드 작업 평균 5.52% 감소, 그래프 작업 17.7% 감소
  2. 재구성 손실(RE): 노드 분류에 큰 영향, 그래프 분류는 전역 정보에 초점
  3. 역추적 메커니즘(TB): 그래프 분류에 특히 중요하며, 단방향 프롬프트는 12-15% 성능 저하 초래
  4. 증분 업데이트(IU): 점진적 업데이트는 2-5% 성능 향상을 가져옵니다

매개변수 효율성 분석

GCOT 대비 매개변수 수 현저히 감소:

  • 노드 분류: 47.1%-68.3% 매개변수 감소
  • 그래프 분류: 29.1%-85.7% 매개변수 감소
  • 시간 효율성: 그래프 분류 작업 평균 매 라운드 훈련 시간 34.8% 감소

초매개변수 민감도

  1. 조대화 비율: 노드 작업 최적 범위 0.1-0.3, 그래프 작업 0.05-0.3 범위에서 안정적
  2. 조대화 계층 수: 노드 작업 2개 계층에서 최적, 그래프 작업은 더 깊은 계층 지원 가능
  3. 숨겨진 차원: r=8일 때 노드 작업 최적, 그래프 작업은 r=1에서 이미 우수한 성능

관련 연구

그래프 사전학습

  • 대조 학습: GraphCL, DGI 등은 정/부정 샘플 쌍을 통한 대조 학습 표현
  • 생성 학습: 노드 특성 또는 그래프 구조 재구성을 통한 사전학습
  • 한계: 사전학습 목표와 하위 작업 간 격차로 인한 성능 제한

그래프 프롬프트 학습

  • 사전학습 의존 방법: GPPT, GraphPrompt, All-in-One
  • 사전학습 무관 방법: GPF+, SUPT, EdgePrompt
  • 다단계 프롬프트: GCOT는 사고 연쇄 개념을 도입하지만 단일 세분성으로 제한

그래프 조대화 기술

  • 전통 방법: 스펙트럼 클러스터링, 음이 아닌 행렬 분해
  • 학습 가능 방법: DiffPool 등은 학습 가능한 할당 행렬을 통한 계층적 표현 구현
  • 본 논문 기여: 그래프 조대화와 프롬프트 학습 결합으로 다중 스케일 프롬프트 생성 구현

결론 및 논의

주요 결론

  1. 다중 스케일 정보의 중요성: 실험은 다중 스케일 구조 정보가 그래프 프롬프트 학습에 필수적임을 증명합니다
  2. 인지 영감 설계의 효과성: 인간의 조에서 세로의 인지 과정 모방은 성능을 크게 향상시킵니다
  3. 매개변수 효율성과 성능의 균형: 저차수 설계는 매개변수를 대폭 감소시키면서 우수한 성능을 유지합니다
  4. 소수 샘플 학습 우위: 다중 스케일 프롬프트는 데이터 부족 시나리오에서 특히 뛰어난 성능을 보입니다

한계

  1. 계산 복잡도: 다단계 추론은 일정한 계산 오버헤드를 증가시킵니다
  2. 초매개변수 민감도: 조대화 비율과 계층 수는 다양한 작업 유형에 맞게 조정이 필요합니다
  3. 이론적 분석 부족: 다중 스케일 프롬프트 효과성에 대한 이론적 보증이 부족합니다

향후 방향

  1. 자적응 조대화 전략: 작업 자적응 조대화 메커니즘 연구
  2. 이론적 분석: 다중 스케일 프롬프트 학습의 이론적 프레임워크 구축
  3. 확장 응용: 더 많은 그래프 학습 작업에서의 응용 잠재력 탐색

심층 평가

장점

  1. 높은 혁신성: 다중 스케일 정보를 그래프 프롬프트 학습에 체계적으로 통합한 첫 번째 시도
  2. 합리적 설계: 저차수 조대화 네트워크와 역추적 메커니즘 설계가 정교하며 효율성과 효과성을 모두 고려합니다
  3. 충분한 실험: 8개 데이터셋, 다양한 비교 방법, 상세한 제거 실험
  4. 높은 실용 가치: 소수 샘플 시나리오에서 명확한 우위를 보이며 실제 응용 요구에 부합합니다

부족한 점

  1. 약한 이론적 기초: 방법 효과성에 대한 이론적 분석 및 보증 부족
  2. 계산 오버헤드 분석 부족: 복잡도 분석은 제공되지만 실제 실행 시간 비교는 제한적입니다
  3. 적용성 논의 부족: 다양한 유형의 그래프 데이터에 대한 적용성 분석이 충분하지 않습니다

영향력

  1. 학술 기여: 그래프 프롬프트 학습 분야에 새로운 연구 방향 제시
  2. 실용 가치: 자원이 제한된 소수 샘플 학습 시나리오에서 중요한 응용 가치
  3. 재현성: 상세한 구현 세부사항 및 초매개변수 설정 제공

적용 시나리오

  1. 소수 샘플 그래프 학습: 주석 데이터가 부족한 그래프 분석 작업
  2. 다중 스케일 그래프 분석: 다층 구조 정보 포착이 필요한 응용
  3. 자원 제한 환경: 매개변수 효율성이 요구되는 배포 시나리오

참고문헌

본 논문은 38개의 관련 문헌을 인용하며, 그래프 신경망, 그래프 사전학습, 프롬프트 학습, 그래프 조대화 등 여러 관련 분야의 중요한 연구를 포함하여 연구에 견고한 이론적 기초를 제공합니다.


종합 평가: 이것은 그래프 신경망 프롬프트 학습 분야의 고품질 논문으로, 기존 방법의 단일 세분성 제한 문제를 혁신적으로 해결합니다. 방법 설계가 합리적이고 실험 검증이 충분하며, 이론적 기여와 실용적 가치 측면에서 모두 중요한 의미를 가집니다. 이론적 분석 측면에서 개선의 여지가 있지만, 전반적으로 그래프 프롬프트 학습 분야에 중요한 기여를 합니다.