Learning on temporal graphs has become a central topic in graph representation learning, with numerous benchmarks indicating the strong performance of state-of-the-art models. However, recent work has raised concerns about the reliability of benchmark results, noting issues with commonly used evaluation protocols and the surprising competitiveness of simple heuristics. This contrast raises the question of which properties of the underlying graphs temporal graph learning models actually use to form their predictions. We address this by systematically evaluating seven models on their ability to capture eight fundamental attributes related to the link structure of temporal graphs. These include structural characteristics such as density, temporal patterns such as recency, and edge formation mechanisms such as homophily. Using both synthetic and real-world datasets, we analyze how well models learn these attributes. Our findings reveal a mixed picture: models capture some attributes well but fail to reproduce others. With this, we expose important limitations. Overall, we believe that our results provide practical insights for the application of temporal graph learning models, and motivate more interpretability-driven evaluations in temporal graph learning research.
- 논문 ID: 2510.09416
- 제목: What Do Temporal Graph Learning Models Learn?
- 저자: Abigail J. Hayes, Tobias Schumacher, Markus Strohmaier
- 분류: cs.LG cs.SI
- 발표 시간: 2025년 10월 10일(arXiv 사전인쇄본)
- 논문 링크: https://arxiv.org/abs/2510.09416
시간 그래프 학습은 그래프 표현 학습의 핵심 주제가 되었으며, 수많은 벤치마크 테스트에서 최첨단 모델이 우수한 성능을 보이고 있습니다. 그러나 최근 연구에서는 벤치마크 결과의 신뢰성에 대한 우려를 제기하고 있으며, 일반적으로 사용되는 평가 프로토콜의 문제점과 단순한 휴리스틱 방법의 놀라운 경쟁력을 지적하고 있습니다. 이러한 대조는 다음과 같은 질문을 야기합니다: 시간 그래프 학습 모델은 실제로 기저 그래프의 어떤 속성을 사용하여 예측을 형성하는가? 본 논문은 7개 모델이 시간 그래프 링크 구조와 관련된 8개의 기본 속성을 포착하는 능력을 체계적으로 평가함으로써 이 문제를 해결합니다. 이러한 속성에는 밀도 같은 구조적 특징, 최근성 같은 시간 패턴, 그리고 동질성 같은 간선 형성 메커니즘이 포함됩니다. 합성 및 실제 데이터셋을 사용하여 모델이 이러한 속성을 학습하는 효과를 분석합니다. 연구 결과는 혼합된 그림을 제시합니다: 모델은 특정 속성을 잘 포착하지만 다른 속성은 재현하지 못하여 중요한 한계를 드러냅니다.
- 벤치마크 평가의 신뢰성 문제: 시간 그래프 학습 모델이 다양한 벤치마크 테스트에서 우수한 성능을 보이고 있음에도 불구하고, 최근 연구에서는 평가 프로토콜의 결함을 발견했으며, 테스트 세트 및 평가 지표의 문제로 인해 비현실적인 결과가 나타나고 있습니다.
- 단순 휴리스틱의 경쟁력: 놀랍게도, 최근에 활동한 노드와 전역적으로 인기 있는 노드를 포함하는 간선을 예측하는 단순한 휴리스틱 방법의 성능이 많은 최첨단 모델과 동등합니다.
- 모델 해석 가능성 부재: 특정 모델이 주어진 벤치마크 데이터셋에서 우수한 성능을 보이더라도, 어떤 요인이 이러한 성능에 기여했는지, 더 구체적으로는 모델이 예측을 형성하기 위해 어떤 그래프 속성을 활용하는지 불명확합니다.
본 연구는 인기 있는 그래프 학습 모델이 시간 그래프의 단순하고 해석 가능한 속성을 학습하는 능력을 평가하는 한 걸음 물러선 관점에서, 시간 그래프 학습 모델의 실제 응용을 위한 실용적 통찰력을 제공하고, 해석 가능성에 더 중점을 두는 평가를 추진하는 것을 목표로 합니다.
- 새로운 평가 프레임워크 제안: 시간 그래프 학습 모델이 직관적인 시간 네트워크 속성을 포착하는 능력을 체계적으로 평가
- 기존 모델의 한계 식별: 모델이 간선의 방향을 구분하고, 주기적 패턴을 감지하거나, 최근에 관찰된 그래프 동역학을 강조하는 데 있어 한계가 있음을 발견
- 실무 지침 제공: 심층 그래프 학습 모델의 실제 응용을 위한 통찰력 제공
- 해석 가능성 벤치마크 수립: 시간 그래프 학습 모델의 해석 가능성에 더 중점을 두는 평가를 위한 벤치마크를 수립하여 기존의 성능 중심 벤치마크를 보완
본 논문은 7개의 최첨단 시간 그래프 학습 모델이 8개의 기본 그래프 속성을 학습하는 능력을 평가합니다:
- 일반 그래프 특징: 시간 입도, 간선 방향, 밀도
- 시간 패턴: 지속성, 주기성, 최근성
- 간선 형성 메커니즘: 동질성, 우선 연결
7개의 대표적 모델을 평가했습니다:
- DyGFormer: Transformer 기반 동적 그래프 모델
- GraphMixer: 단순화된 아키텍처의 시간 네트워크 모델
- DyRep: 순환 신경망 기반 표현 학습
- JODIE: 결합 동적 사용자 및 항목 임베딩
- TGN: 시간 그래프 네트워크
- TCL: 대조 학습 기반 Transformer 동적 그래프 모델링
- TGAT: 귀납적 시간 그래프 표현 학습
- 실제 데이터셋: Enron 이메일 네트워크, UCI 메시지 네트워크, Wikipedia 편집 네트워크
- 합성 데이터셋: 동질성 테스트를 위한 무작위 블록 모델(SBM), 우선 연결 테스트를 위한 Barabási-Albert 모델 등 특정 속성을 위해 설계된 인공 그래프
각 속성에 대해 전문화된 실험을 설계했습니다:
- 합성 및 실제 데이터셋의 조합 사용
- 특정 속성의 영향을 격리하기 위한 변수 제어
- 확률 점수, 정확도 등의 지표를 통한 모델 성능 평가
- 체계적 평가 방법: 시간 그래프 모델이 기본 그래프 속성을 학습하는 능력을 처음으로 체계적으로 평가
- 다차원 속성 분석: 구조, 시간, 메커니즘의 3가지 차원에 걸친 속성 포함
- 합성 데이터 검증: 정교하게 설계된 합성 데이터셋을 통해 특정 속성에 대한 모델의 학습 능력 검증
- 해석 가능성 지향: 순수 성능이 아닌 해석 가능성 관점에서 모델 평가
| 데이터셋 | 노드 수 | 연속 간선 수 | 이산 간선 수 | 고유 간선 수 | 이산 시간 단계 |
|---|
| Enron | 184 | 125,235 | 10,472 | 3,125 | 45(월) |
| UCI | 1,899 | 59,835 | 26,628 | 20,296 | 29(주) |
| Wikipedia | 9,277 | 157,474 | 65,085 | 18,257 | 745(시간) |
- ROC-AUC: 링크 예측 성능 평가에 사용
- 균형 정확도: 분류 작업에 사용
- 확률 점수 분포: 모델 예측 행동 분석에 사용
- 간선 그룹화 통계: 특정 속성의 정량적 분석에 사용
- 학습률: 1e-4
- 배치 크기: 200
- 손실 함수: BCELoss
- 최적화기: Adam
- 최대 훈련 에포크: 300
- 조기 종료 허용도: 1e-6
- 시간 특징 차원: 100
| 그래프 속성 | DyGFormer | DyRep | JODIE | GraphMixer | TCL | TGAT | TGN |
|---|
| 시간 입도 | ∼ | ✓ | ✓ | ✓ | ∼ | ∼ | ✓ |
| 방향 | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ |
| 밀도 | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ |
| 지속성 | ✓ | ✗ | ✗ | ∼ | ∼ | ✓ | ✗ |
| 주기성 | ✗ | ✗ | ✗ | ✓ | ✓ | ∼ | ∼ |
| 최근성 | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ |
| 동질성 | ✓ | ∼ | ✗ | ∼ | ✓ | ∼ | ∼ |
| 우선 연결 | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
- 시간 타임스탬프의 평탄화는 성능을 심각하게 손상시키며, 모델이 실제로 시간 정보를 활용함을 나타냅니다
- GraphMixer와 DyRep은 타임스탬프 이산화 시 성능 저하가 가장 큽니다
- TGAT는 이산 시간 단계에서 더 나은 성능을 보입니다
- 핵심 발견: 모든 모델이 간선의 방향을 효과적으로 구분하지 못합니다
- 약 50%의 간선에서 정방향 간선과 역방향 간선의 예측 확률 차이가 0.02 미만입니다
- 양방향 훈련에서도 대부분의 모델은 여전히 근사적으로 대칭인 예측을 생성합니다
- 중요한 한계: 모든 모델이 그래프의 밀도를 학습하지 못합니다
- 예측 밀도는 일반적으로 실제 밀도보다 몇 자릿수 낮습니다
- 모델은 많은 음성 샘플을 볼 때 모든 간선을 음성으로 예측하는 경향이 있습니다
- DyGFormer와 TGAT는 지속적 그래프를 학습할 수 있습니다
- JODIE와 TGN은 이 단순한 작업에서 성능이 좋지 않습니다
- GraphMixer와 TCL은 홀짝 시간 단계를 잘 구분할 수 있습니다
- DyGFormer는 시간 단계를 구분하지 못하며, EdgeBank 기준선과 유사한 행동을 보입니다
- 놀라운 결과: 모든 모델이 최근에 관찰된 간선을 강조하지 않습니다
- 간선의 평균 확률 점수는 마지막 관찰 시간에 따라 변하지 않습니다
- 이는 최근 활동 노드 기반 휴리스틱 방법의 성공과 대조됩니다
- DyGFormer와 TCL은 그룹 내 링크를 균형 있게 예측할 수 있습니다
- JODIE는 그룹 0에 극도로 편향되어 있습니다
- 대부분의 모델은 그룹 1 내 링크 예측을 더 선호합니다
- 일관된 성공: 모든 모델이 우선 연결을 학습했습니다
- 높은 차수 노드의 간선은 더 높은 평균 확률을 얻습니다
- 멱법칙 차수 분포 패턴을 따릅니다
- Temporal Graph Benchmark (TGB): 시간 그래프 신경망 품질 평가
- BenchTemp: 시간 그래프 데이터에 중점을 둔 벤치마크
- 통합 프레임워크: 이산 시간 및 연속 시간 모델 연결
- EdgeBank 기준선: 단순 기준선이 최첨단 방법과 유사한 성능
- 시간 패턴 학습 한계: 타임스탐프 교란이 성능에 미치는 영향 미미
- 휴리스틱 방법의 성공: 인기도 및 최근 활동도 기반 휴리스틱이 복잡한 모델을 능가
- 혼합된 성능: 모델은 특정 속성(예: 우선 연결)에서는 우수한 성능을 보이지만 다른 측면(예: 방향 구분, 밀도 예측)에서는 심각한 한계가 있습니다
- 일관된 한계: 모든 모델이 간선의 방향을 구분하지 못하고, 최근성을 강조하지 않으며, 밀도를 정확하게 예측하지 못합니다
- 모델 차이: 서로 다른 모델이 특정 속성 학습에 있어 현저한 차이를 보이며, 실제 응용에서의 모델 선택에 지침을 제공합니다
- 데이터셋 제한: 실험의 광범위한 특성으로 인해 사용된 데이터셋 수가 제한적이며, 모든 네트워크 관련 그래프 데이터셋을 대표하지 못할 수 있습니다
- 속성 선택: 평가된 8개 속성이 완전하지 않으며, 고려할 가치가 있는 다른 중요한 그래프 속성이 있습니다
- 모델 범위: 연속 시간 모델만 포함하며, 이산 시간 설정의 모델은 포함하지 않습니다
- 모델 개선: 발견된 한계(밀도, 방향, 최근성)를 목표로 하는 새로운 모델 설계
- 프레임워크 확장:
- 더 많은 그래프 속성 평가 추가
- 이산 시간 모델 포함
- 이질적 네트워크 고려
- 응용 지침: 속성 학습 능력을 기반으로 다양한 응용 시나리오에 적합한 모델 추천
- 높은 체계성: 처음으로 해석 가능성 관점에서 시간 그래프 학습 모델을 체계적으로 평가하여 중요한 공백을 채웁니다
- 엄밀한 방법론: 합성 및 실제 데이터셋의 결합, 변수 제어 실험 설계를 통해 결과의 신뢰성을 보장합니다
- 중요한 발견: 겉으로는 강력해 보이는 모델이 기본 속성 학습에서 심각한 한계를 가지고 있음을 드러내며, 중요한 실무 가치를 가집니다
- 응용 지향: 벤치마크 성능만 중점을 두지 않고 모델 선택 및 응용에 실용적 지침을 제공합니다
- 이론적 분석 부족: 특정 모델이 특정 속성에서 실패하는 이유에 대한 심층적 이론적 분석이 부족합니다
- 개선 방안 부재: 주로 문제를 지적하지만 구체적인 개선 제안이나 방법을 제공하지 않습니다
- 평가 지표의 단일성: 일부 실험은 모델 능력을 전면적으로 평가하기 위해 더 다양한 평가 지표가 필요할 수 있습니다
- 학술적 가치: 시간 그래프 학습 분야에 새로운 평가 관점을 도입하여 향후 모델 설계 및 평가 표준에 영향을 미칠 수 있습니다
- 실무적 가치: 실무자가 적절한 모델을 선택할 때 중요한 참고자료를 제공하며, 벤치마크 성능을 맹목적으로 추구하는 것을 피하도록 합니다
- 연구 영감: 드러난 한계가 향후 연구를 위한 명확한 개선 방향을 제공합니다
- 모델 선택: 특정 응용에서 간선 방향, 밀도 예측 등의 속성을 고려해야 할 때의 모델 선택 지침
- 벤치마크 설계: 더 포괄적인 시간 그래프 학습 벤치마크 설계를 위한 참고자료
- 모델 개발: 새로운 시간 그래프 학습 모델 개발을 위한 개선 목표 및 평가 표준 제공
논문은 광범위한 관련 연구를 인용하고 있으며, 다음을 포함합니다:
- 시간 그래프 벤치마크 관련 연구(TGB, BenchTemp 등)
- 시간 그래프 학습 모델의 한계 연구
- 그래프 학습 평가 방법의 비판적 연구
- 고전 그래프 모델(무작위 블록 모델, Barabási-Albert 모델 등)
종합 평가: 이는 시간 그래프 학습 모델의 중요한 한계를 체계적인 해석 가능성 평가를 통해 드러내는 중요한 가치를 지닌 연구 작업입니다. 연구 방법론이 엄밀하고 발견이 실무적 의미를 가지며, 분야 발전을 위한 새로운 관점과 개선 방향을 제공합니다. 이론적 분석 및 해결 방안 측면에서 개선의 여지가 있지만, 그 기여는 분야를 해석 가능성과 실용성에 더 중점을 두는 방향으로 발전시키기에 충분합니다.