2025-11-17T17:34:12.559157

Adaptive graph Kolmogorov-Arnold network for 3D human pose estimation

Shahjahan, Hamza

Graph convolutional network (GCN)-based methods have shown strong performance in 3D human pose estimation by leveraging the natural graph structure of the human skeleton. However, their local receptive field limits their ability to capture long-range dependencies essential for handling occlusions and depth ambiguities. They also exhibit spectral bias, which prioritizes low-frequency components while struggling to model high-frequency details. In this paper, we introduce PoseKAN, an adaptive graph Kolmogorov-Arnold Network (KAN), framework that extends KANs to graph-based learning for 2D-to-3D pose lifting from a single image. Unlike GCNs that use fixed activation functions, KANs employ learnable functions on graph edges, allowing data-driven, adaptive feature transformations. This enhances the model's adaptability and expressiveness, making it more expressive in learning complex pose variations. Our model employs multi-hop feature aggregation, ensuring the body joints can leverage information from both local and distant neighbors, leading to improved spatial awareness. It also incorporates residual PoseKAN blocks for deeper feature refinement, and a global response normalization for improved feature selectivity and contrast. Extensive experiments on benchmark datasets demonstrate the competitive performance of our model against state-of-the-art methods.

academic

3D 인간 자세 추정을 위한 적응형 그래프 Kolmogorov-Arnold 네트워크

기본 정보

논문 ID: 2511.08809
제목: Adaptive Graph Kolmogorov-Arnold Network for 3D Human Pose Estimation
저자: Abu Taib Mohammed Shahjahan and A. Ben Hamza (Concordia University, Montreal, Canada)
분류: cs.CV (컴퓨터 비전)
제출 시간: 2025년 11월 11일 arXiv 제출
논문 링크: https://arxiv.org/abs/2511.08809
코드 링크: https://github.com/shahjahan0275/PoseKAN

초록

본 논문은 3D 인간 자세 추정 작업을 위해 PoseKAN이라는 자적응형 그래프 Kolmogorov-Arnold 네트워크 프레임워크를 제안합니다. 이 방법은 기존 그래프 합성곱 신경망(GCN)의 세 가지 핵심 제한을 해결합니다: 국소 수용 영역 제한, 스펙트럼 편향(spectral bias), 그리고 고정 활성화 함수의 표현 능력 부족. PoseKAN은 그래프 간선에서 고정 활성화 함수 대신 학습 가능한 함수 변환을 사용하고, 다중 홉 특징 집계 메커니즘을 결합하여 국소 및 원거리 관절 의존성을 효과적으로 모델링합니다. Human3.6M 및 MPI-INF-3DHP 벤치마크 데이터셋에 대한 실험은 이 방법이 최첨단 방법과 동등한 성능을 달성함을 보여줍니다.

연구 배경 및 동기

1. 핵심 문제

3D 인간 자세 추정은 2D 이미지 또는 비디오에서 신체 관절의 3D 좌표를 추론하는 것을 목표로 하며, 인간의 움직임 이해에 매우 중요하지만 입력 데이터의 내재적 깊이 모호성과 폐색 문제로 인해 극도로 도전적입니다.

2. 문제의 중요성

광범위한 응용: 인간-컴퓨터 상호작용, 동작 인식, 스포츠 분석, 의료 재활 등의 분야
기술적 도전: 단안 이미지의 깊이 정보 부재, 자체 폐색, 복잡한 자세 변화

3. 기존 방법의 한계

GCN 방법의 세 가지 주요 한계:

국소 수용 영역 제한: 주로 1-홉 이웃 집계에 의존하여 원거리 관절 간의 장거리 의존성 포착이 어려움
스펙트럼 편향 문제: MLP를 핵심 구성 요소로 사용하기 때문에 저주파 성분을 학습하는 경향이 있으며 고주파 세부 사항(빠른 움직임, 정교한 관절 상호작용 등)을 포착하기 어려움
표현 능력 부족: 미리 정의된 고정 활성화 함수와 훈련 가능한 가중치 행렬을 사용하여 동적 적응성과 해석 가능성이 부족함

4. 연구 동기

Kolmogorov-Arnold 표현 정리에서 영감을 받아, KAN 네트워크는 고정 활성화 함수를 학습 가능한 단변량 함수로 대체하여 더 강력한 함수 근사 능력과 해석 가능성을 제공합니다. 본 논문은 KAN을 그래프 학습 영역으로 확장하여 3D 자세 추정의 2D-to-3D 향상 작업에 특화시킵니다.

핵심 기여

PoseKAN 프레임워크 제안: Kolmogorov-Arnold 네트워크를 그래프 구조 데이터로 확장하여 3D 인간 자세 추정에 처음 적용하며, 학습 가능한 함수 기반 변환을 통해 모델의 적응성과 일반화 능력을 향상시킵니다.
다중 홉 특징 전파 메커니즘 설계: 국소 및 전역 특징 집계의 균형을 제어하는 스케일 매개변수 s를 도입하고, 전파 행렬 P = (1-s)Â + sÂ²를 통해 1-홉 및 2-홉 이웃을 동시에 고려하여 폐색 및 깊이 모호성에 대한 견고성을 향상시킵니다.
혁신적 아키텍처 설계:
- 잔차 PoseKAN 블록을 통한 깊은 특징 정제
- 전역 응답 정규화(GRN)로 특징 선택성 및 대비도 향상
- GELU 비선형성 결합으로 표현 능력 강화
포괄적 실험 검증: Human3.6M 및 MPI-INF-3DHP 데이터셋에서 상세한 비교 실험 및 제거 연구를 수행하여 방법의 효과성을 입증합니다.

방법 상세 설명

작업 정의

훈련 집합 D = {(xᵢ, yᵢ)}ᴺᵢ₌₁이 주어졌을 때:

입력: xᵢ ∈ ℝ² - 2D 관절 위치(기성 2D 자세 검출기에서 제공)
출력: yᵢ ∈ ℝ³ - 대응하는 실제 3D 관절 위치
목표: 회귀 모델 fω: X → Y의 매개변수 ω 학습

인간 골격은 그래프 G = (V, E, X)로 표현됩니다:

V = {1,...,J} - J개의 노드(관절)
E ⊆ V × V - 간선 집합
X ∈ ℝᴶˣᶠ - 노드 특징 행렬
A - 인접 행렬, Â = D⁻¹/²AD⁻¹/² - 정규화된 인접 행렬

모델 아키텍처

1. Kolmogorov-Arnold 네트워크 기초

KAN 계층의 핵심은 학습 가능한 활성화 함수로 정의됩니다:

ϕ(x) = wᵦb(x) + wₛspline(x)

여기서:

b(x) = SiLU(x) = x/(1+e⁻ˣ) - sigmoid 선형 단위
spline(x) = Σᵢ cᵢBᵢ(x) - B-스플라인 기저 함수의 가중 합
wᵦ, wₛ, cᵢ - 학습 가능한 매개변수

2. 스펙트럼 조절 필터

본 논문에서 제안한 혁신적 스펙트럼 조절 필터:

hₛ(λ) = 1/((1+s)λ - sλ²)

여기서 s ∈ (0,1)은 스케일 매개변수로, 필터의 다양한 주파수 성분에 대한 감쇠 동작을 제어합니다. 이 필터는 자적응형 저역 통과 특성을 가집니다.

고정점 반복을 통해 해결: H⁽ᵗ⁺¹⁾ = ((1-s)I + sÂ)ÂH⁽ᵗ⁾ + X

3. PoseKAN 계층 업데이트 규칙

핵심 계층별 업데이트 공식:

H⁽ˡ⁺¹⁾ = KAN⁽ˡ⁾(((1-s)Â + sÂ²)H⁽ˡ⁾ + X)

두 가지 작업으로 분해 가능:

특징 전파: G⁽ˡ⁾ = PH⁽ˡ⁾ + X

여기서 P = (1-s)Â + sÂ²는 전파 행렬로, 1-홉 및 2-홉 이웃 정보의 균형을 맞춥니다.

특징 임베딩: H⁽ˡ⁺¹⁾ = KAN⁽ˡ⁾(G⁽ˡ⁾)

각 그래프 간선은 학습 가능한 단변량 함수와 연관됩니다.

4. 전체 아키텍처

초기 PoseKAN 계층: 2D 입력을 잠재 공간으로 매핑
4개의 잔차 PoseKAN 블록: 각 블록 포함
- 계층적 특징 학습을 위한 5개의 PoseKAN 계층
- 훈련 안정화를 위한 계층 정규화
- 추가 PoseKAN 계층 + GELU 비선형성
- 기울기 소실 방지를 위한 잔차 연결
전역 응답 정규화(GRN): 예측 전 특징 진폭 보정
종료 PoseKAN 계층: 3D 자세 공간으로 투영

5. 손실 함수

혼합 손실 함수(탄성 네트 영감):

L = 1/N(1-α)Σᵢ||yᵢ - ŷᵢ||₂² + αΣᵢ||yᵢ - ŷᵢ||₁

여기서 α ∈ 0,1은 MSE와 MAE의 가중치 균형을 제어합니다.

기술 혁신 포인트

1. 학습 가능한 함수 변환 vs 고정 활성화

GCN: 고정 활성화 함수(예: ReLU)와 훈련 가능한 가중치 행렬 사용, 본질적으로 노드 수준의 선형 매핑
PoseKAN: 간선에서 학습 가능한 단변량 함수 사용, 데이터 기반의 자적응형 특징 변환 제공, 더 강력한 표현 능력

2. 다중 홉 의존성 모델링

전파 행렬 P = (1-s)Â + sÂ²를 통해:

1-홉 및 2-홉 이웃 정보를 명시적으로 결합
매개변수 s로 국소 vs 전역 정보의 균형 조절 가능
Â² 명시적 계산 회피(오른쪽에서 왼쪽으로 곱셈 전략 사용)

3. 스펙트럼 편향 완화

KAN의 함수 기반 변환은 저주파 및 고주파 성분을 동시에 포착할 수 있습니다:

저주파: 매끄럽고 점진적인 관절 위치 변화(예: Walking, Eating)
고주파: 빠르고 급격한 움직임(예: Greeting의 갑작스러운 동작)

4. 계산 복잡도 분석

시간 복잡도: O(L||Â||₀F + LGF²)
- 첫 번째 항: 특징 전파(그래프 간선 수에 따라 결정)
- 두 번째 항: KAN 변환(G는 그리드 크기)
공간 복잡도: O(LJF + 2kGLF²)
- 2k는 k차 스플라인의 재귀 계산에서 비롯됨

k와 G가 일반적으로 작으므로 추가 오버헤드는 제어 가능합니다.

규모: 11명의 배우(남성 6명, 여성 5명), 15가지 실내 활동
수집: 50Hz, 4개의 동기화된 카메라
주석: 모션 캡처를 통한 정확한 3D 관절 좌표
분할:
- 훈련 집합: 5명의 배우(S1, S5, S6, S7, S8)
- 테스트 집합: 2명의 배우(S9, S11)
전처리: 정규화, 고관절을 근 관절로 영점 중심화

2. MPI-INF-3DHP

규모: 8명의 배우(남성 4명, 여성 4명), 8개의 활동 시퀀스
수집: 14개의 다양한 각도, 실내외 장면
특징: Human3.6M보다 더 다양하며, 기본 동작부터 동적 고강도 동작 포함

평가 지표

Human3.6M

프로토콜 #1: MPJPE(평균 관절당 위치 오차) - 밀리미터 단위
프로토콜 #2: PA-MPJPE(Procrustes 정렬 후 MPJPE) - 오차

MPI-INF-3DHP

PCK(정확한 키포인트 백분율): 정확한 키포인트 백분율
AUC(곡선 아래 면적): 곡선 아래 면적

비교 방법

GCN 시리즈: SemGCN, High-order GCN, CompGCN, Modulated GCN, Group GCN, MM-GCN, Flex-GCN
혼합 방법: GraphMLP(MLP와 GCN 결합)
기타: HOIF-Net, PoseGraphNet, WSGN 등

구현 세부 사항

하드웨어: 단일 NVIDIA RTX A4500 GPU (20GB)
프레임워크: PyTorch
최적화기: AMSGrad
훈련 에포크: 30 에포크
학습률: 초기 0.001, 4 에포크마다 0.99 감쇠
배치 크기: 64
임베딩 차원: F = 240
주요 하이퍼매개변수: s = 0.2, α = 0.03(그리드 검색으로 결정)
정규화: 각 PoseKAN 계층 후 드롭아웃=0.2
스플라인 설정: 차수=3, 그리드 크기=5

PoseKAN: 46.7mm(최적)
GraphMLP: 48.0mm(두 번째)
Modulated GCN: 49.4mm
상대 오차 감소:
- vs GraphMLP: 2.7%
- vs Modulated GCN: 5.47%
- vs High-order GCN: 15.99%

주요 동작 성능(폐색 도전):

Eating: 44.4mm(다른 방법보다 현저히 우수)
Sitting: 54.6mm
Smoking: 46.1mm
15개 동작 중 14개에서 Modulated GCN 능가

Human3.6M - 프로토콜 #2 (PA-MPJPE)

전체 성능:

PoseKAN: 38.3mm(최적)
GraphMLP: 38.4mm(상대 오차 감소 0.26%)
Modulated GCN: 39.1mm(상대 오차 감소 2.04%)
High-order GCN: 43.7mm(상대 오차 감소 12.35%)

우수 동작:

15개 동작 중 11개에서 GraphMLP 능가
15개 동작 중 13개에서 Modulated GCN 능가
특히 Greeting, Sitting, Smoking 등 폐색이 심한 장면에서 뛰어난 성능

MPI-INF-3DHP(크로스 데이터셋 일반화)

Human3.6M에서 훈련, MPI-INF-3DHP에서 테스트:

PCK: 86.0%(최고)
AUC: 52.9%(두 번째, ICFNet의 54.3%에만 뒤짐)
ICFNet 대비 PCK 상대 개선: 0.5%

Ground Truth 2D 입력 사용

MPJPE: 33.51mm
상대 오차 감소:
- vs SemGCN: 19.62%
- vs High-order GCN: 14.29%
- vs GraphMLP: 2.01%
PA-MPJPE: 28.01mm(최적)

제거 실험

1. 초기 잔차 연결(IRC)의 영향

구성	MPJPE	PA-MPJPE
IRC 없음	34.44mm	28.79mm
IRC 있음	33.51mm	28.01mm
개선	1.65%	1.49%

결론: IRC는 초기 특징을 보존하여 훈련을 안정화하고 정보 손실을 방지합니다.

2. 스플라인 차수 영향

차수 2: MPJPE=47.43mm, PA-MPJPE=38.86mm
차수 3: MPJPE=46.77mm, PA-MPJPE=38.36mm(최적)
차수 4: MPJPE=47.10mm, PA-MPJPE=38.59mm

결론: 차수 3이 최적의 균형을 달성하며, 더 높은 차수는 복잡도 증가 없이 이점이 없습니다.

3. 그리드 크기 영향

크기 4: MPJPE=47.40mm, PA-MPJPE=38.91mm
크기 5: MPJPE=46.77mm, PA-MPJPE=38.36mm(최적)
크기 6: MPJPE=47.98mm, PA-MPJPE=39.11mm

결론: 그리드 크기 5는 충분한 함수 근사 능력을 제공합니다.

4. 스케일 인자 s의 영향

테스트 범위: s ∈ {0.1, 0.2, 0.3, 0.5, 0.7, 0.9}

최적값: s=0.2
작은 s는 국소 정보를 더 강조하면서 동시에 원거리 노드를 적절히 고려
s가 너무 크거나 작으면 성능 저하

5. 임베딩 차원 영향

224: MPJPE=47.38mm
240: MPJPE=46.77mm(최적)
256: MPJPE=47.29mm

결론: 240차원은 과적합 없이 충분한 표현 능력을 제공합니다.

사례 분석

정성적 시각화(그림 2)는 다양한 동작 범주에서 PoseKAN의 예측을 보여줍니다:

예측된 3D 자세는 실제 값과 높은 정렬도를 보임
자체 폐색 장면(교차 팔, 앉은 자세 등)에서 GraphMLP보다 우수한 성능
GraphMLP는 때때로 부자연스러운 관절 위치를 생성하는 반면, PoseKAN은 골격 구조 일관성 유지
정확한 관절 배치 및 자연스러운 사지 관절은 모델의 깊이 모호성 완화 능력을 검증합니다.

실험 발견

학습 가능한 함수의 명확한 우수성: 고정 활성화 함수와 비교하여 간선의 학습 가능한 함수는 더 강력한 적응성 제공
다중 홉 집계의 중요성: 폐색 및 복잡한 자세 처리에 현저한 개선
높은 매개변수 효율성: PoseKAN은 5.72M 매개변수로 GraphMLP의 9.49M보다 훨씬 낮음
강력한 크로스 데이터셋 일반화 능력: MPI-INF-3DHP에서의 성능은 우수한 일반화 능력을 입증
고주파 세부 사항에 민감: 빠른 움직임 세부 사항이 필요한 동작(예: Greeting)에서 명확한 우위

결론 및 논의

주요 결론

방법의 효과성: PoseKAN은 Human3.6M 및 MPI-INF-3DHP 데이터셋에서 최첨단 방법과 동등하거나 초과하는 성능 달성
핵심 우위:
- 학습 가능한 함수는 더 강력한 적응성 및 표현 능력 제공
- 다중 홉 특징 집계는 장거리 의존성 효과적 포착
- 스펙트럼 편향 완화, 저주파 및 고주파 성분 동시 학습
실용성: 매개변수 효율성 높음(5.72M), 계산 오버헤드 제어 가능, 실제 응용에 적합
일반화 능력: 크로스 데이터셋 평가에서 우수한 성능, 우수한 일반화 능력 입증

한계

저자가 인정한 한계

해석 가능성 도전: GCN보다 더 해석 가능하지만, 각 학습 가능한 활성화 함수가 골격의 다양한 부분에 어떻게 적응하는지 시각화하기는 여전히 도전적
계산 비용: 학습 가능한 활성화는 각 계층의 계산 오버헤드 증가, 스플라인 기저 함수는 추가 메모리 필요
메모리 소비: 대규모 데이터셋 및 깊은 네트워크 훈련 시 메모리 요구사항 증가
최적화 공간: 계산 효율성, 해석 가능성 및 견고성 추가 개선 필요