2025-11-17T17:34:12.559157

Adaptive graph Kolmogorov-Arnold network for 3D human pose estimation

Shahjahan, Hamza

Graph convolutional network (GCN)-based methods have shown strong performance in 3D human pose estimation by leveraging the natural graph structure of the human skeleton. However, their local receptive field limits their ability to capture long-range dependencies essential for handling occlusions and depth ambiguities. They also exhibit spectral bias, which prioritizes low-frequency components while struggling to model high-frequency details. In this paper, we introduce PoseKAN, an adaptive graph Kolmogorov-Arnold Network (KAN), framework that extends KANs to graph-based learning for 2D-to-3D pose lifting from a single image. Unlike GCNs that use fixed activation functions, KANs employ learnable functions on graph edges, allowing data-driven, adaptive feature transformations. This enhances the model's adaptability and expressiveness, making it more expressive in learning complex pose variations. Our model employs multi-hop feature aggregation, ensuring the body joints can leverage information from both local and distant neighbors, leading to improved spatial awareness. It also incorporates residual PoseKAN blocks for deeper feature refinement, and a global response normalization for improved feature selectivity and contrast. Extensive experiments on benchmark datasets demonstrate the competitive performance of our model against state-of-the-art methods.

academic

3D人体姿勢推定のための適応グラフKolmogorov-Arnoldネットワーク

基本情報

論文ID: 2511.08809
タイトル: Adaptive Graph Kolmogorov-Arnold Network for 3D Human Pose Estimation
著者: Abu Taib Mohammed Shahjahan and A. Ben Hamza (Concordia University, Montreal, Canada)
分類: cs.CV (コンピュータビジョン)
投稿日時: 2025年11月11日にarXivに投稿
論文リンク: https://arxiv.org/abs/2511.08809
コードリンク: https://github.com/shahjahan0275/PoseKAN

要約

本論文は3D人体姿勢推定タスクに対して、PoseKAN——適応グラフKolmogorov-Arnoldネットワークフレームワークを提案する。本手法は従来のグラフ畳み込みネットワーク(GCN)の3つの核心的な制限に対処する：局所受容野の制限、スペクトル偏差(spectral bias)、および固定活性化関数の表現能力不足。PoseKANはグラフエッジ上で学習可能な関数変換を固定活性化関数に代わって使用し、マルチホップ特徴集約メカニズムと組み合わせることで、局所および遠距離関節依存関係の効果的なモデリングを実現する。Human3.6MおよびMPI-INF-3DHP標準ベンチマークデータセット上の実験により、本手法は最先端手法と同等の性能を達成したことが示された。

研究背景と動機

1. 核心問題

3D人体姿勢推定は、2D画像またはビデオから身体関節の3D座標を推論することを目的としており、人体運動の理解に重要であるが、入力データ固有の深度曖昧性と遮蔽問題により極めて困難である。

2. 問題の重要性

応用範囲の広さ：人機相互作用、動作認識、スポーツ分析、医療リハビリテーション等の分野
技術的課題：単眼画像の深度情報欠落、自己遮蔽、複雑な姿勢変化

3. 既存手法の制限

GCN手法の3つの主要な制限：

局所受容野の制限：主に1ホップ隣接集約に依存し、遠距離関節間の長期依存関係を捉えることが困難
スペクトル偏差問題：MLPをコア成分として使用するため、低周波成分を学習する傾向があり、高周波細部（高速運動、精細な関節相互作用など）を捉えることが困難
表現能力不足：事前定義された固定活性化関数と訓練可能な重み行列を使用し、動的適応性と解釈可能性に欠ける

4. 研究動機

Kolmogorov-Arnold表現定理に着想を得て、KANネットワークは学習可能な単変量関数で固定活性化関数を置き換え、より強い関数近似能力と解釈可能性を提供する。本論文はKANをグラフ学習領域に拡張し、3D姿勢推定の2D-to-3D提升タスクに特化させる。

核心的貢献

PoseKANフレームワークの提案：Kolmogorov-Arnoldネットワークをグラフ構造データに初めて拡張し、3D人体姿勢推定に適用。学習可能な関数ベース変換を通じてモデルの適応性と汎化能力を向上させる
マルチホップ特徴伝播メカニズムの設計：スケーリングパラメータsを導入して局所および全局特徴集約のバランスを制御。伝播行列P = (1-s)Â + sÂ²は1ホップおよび2ホップ隣接を同時に考慮し、遮蔽と深度曖昧性に対する堅牢性を向上させる
革新的なアーキテクチャ設計：
- 残差PoseKANブロックによる深層特徴精製
- グローバル応答正規化(GRN)による特徴選択性とコントラスト向上
- GELU非線形性の組み込みによる表現能力強化
包括的な実験検証：Human3.6MおよびMPI-INF-3DHP データセット上での詳細な比較実験とアブレーション研究を実施し、手法の有効性を証明

手法の詳細説明

タスク定義

訓練集合 D = {(xᵢ, yᵢ)}ᴺᵢ₌₁が与えられた場合、以下のように定義される：

入力：xᵢ ∈ ℝ² は2D関節位置（既成の2D姿勢検出器により提供）
出力：yᵢ ∈ ℝ³ は対応する真の3D関節位置
目標：回帰モデル fω: X → Y のパラメータωを学習する

人体骨格はグラフ G = (V, E, X) として表現される：

V = {1,...,J} はJ個のノード（関節）
E ⊆ V × V はエッジ集合
X ∈ ℝᴶˣᶠ はノード特徴行列
A は隣接行列、Â = D⁻¹/²AD⁻¹/² は正規化隣接行列

モデルアーキテクチャ

1. Kolmogorov-Arnoldネットワークの基礎

KAN層の核心は学習可能な活性化関数であり、以下のように定義される：

ϕ(x) = wᵦb(x) + wₛspline(x)

ここで：

b(x) = SiLU(x) = x/(1+e⁻ˣ) はシグモイド線形ユニット
spline(x) = Σᵢ cᵢBᵢ(x) はB-スプライン基関数の重み付き和
wᵦ, wₛ, cᵢ は学習可能なパラメータ

2. スペクトル調整フィルタ

本論文で提案された革新的なスペクトル調整フィルタ：

hₛ(λ) = 1/((1+s)λ - sλ²)

ここで s ∈ (0,1) はスケーリングパラメータであり、異なる周波数成分への減衰動作を制御する。このフィルタは適応的なローパス特性を有する。

固定点反復により解く： H⁽ᵗ⁺¹⁾ = ((1-s)I + sÂ)ÂH⁽ᵗ⁾ + X

3. PoseKAN層の更新規則

核心的な層ごとの更新式：

H⁽ˡ⁺¹⁾ = KAN⁽ˡ⁾(((1-s)Â + sÂ²)H⁽ˡ⁾ + X)

2つの操作に分解可能：

特徴伝播： G⁽ˡ⁾ = PH⁽ˡ⁾ + X

ここで P = (1-s)Â + sÂ² は伝播行列であり、1ホップおよび2ホップ隣接情報のバランスを取る

特徴埋め込み： H⁽ˡ⁺¹⁾ = KAN⁽ˡ⁾(G⁽ˡ⁾)

各グラフエッジは学習可能な単変量関数に関連付けられる

4. 全体アーキテクチャ

初期PoseKAN層：2D入力を潜在空間にマッピング
4つの残差PoseKANブロック：各ブロックは以下を含む
- 階層的特徴学習のための5つのPoseKAN層
- 訓練の安定化のための層正規化
- 追加のPoseKAN層 + GELU非線形性
- 勾配消失を防ぐ残差接続
グローバル応答正規化(GRN)：予測前の特徴振幅の校正
終了PoseKAN層：3D姿勢空間への投影

5. 損失関数

混合損失関数（エラスティックネットに着想）：

L = 1/N(1-α)Σᵢ||yᵢ - ŷᵢ||₂² + αΣᵢ||yᵢ - ŷᵢ||₁

ここで α ∈ 0,1 はMSEとMAEの重み付けバランスを制御

技術的革新点

1. 学習可能な関数変換 vs 固定活性化

GCN：固定活性化関数（ReLUなど）と訓練可能な重み行列を使用。本質的にはノードレベルの線形マッピング
PoseKAN：エッジ上で学習可能な単変量関数を使用。データ駆動の適応的特徴変換を提供し、表現能力がより強い

2. マルチホップ依存関係のモデリング

伝播行列 P = (1-s)Â + sÂ² を通じて：

1ホップおよび2ホップ隣接情報を明示的に結合
パラメータs により局所 vs 全局情報のバランスを調整可能
Â² の明示的計算を回避（右から左への乗算戦略を採用）

3. スペクトル偏差の緩和

KANの関数ベース変換は低周波および高周波成分を同時に捉えることができる：

低周波：滑らかで段階的な関節位置変化（Walking、Eatingなど）
高周波：高速で急激な運動（Greetingの突然の動作など）

4. 計算複雑度分析

時間複雑度：O(L||Â||₀F + LGF²)
- 第1項：特徴伝播（グラフエッジ数に依存）
- 第2項：KAN変換（Gはグリッドサイズ）
空間複雑度：O(LJF + 2kGLF²)
- 2k は k 次スプラインの再帰計算から

k と G は通常小さいため、追加オーバーヘッドは管理可能

規模：11人の演技者（男性6名、女性5名）、15種類の室内活動
取得：50Hz、4台の同期カメラ
アノテーション：モーションキャプチャにより正確な3D関節座標を取得
分割：
- 訓練集合：5人の演技者（S1, S5, S6, S7, S8）
- テスト集合：2人の演技者（S9, S11）
前処理：正規化、股関節を根関節として零中心化

2. MPI-INF-3DHP

規模：8人の演技者（男性4名、女性4名）、8つの活動シーケンス
取得：14の異なる角度、室内外シーン
特徴：Human3.6Mより多様性に富み、基本動作から動的高強度動作を含む

評価指標

Human3.6M

プロトコル #1：MPJPE (Mean Per-Joint Position Error) - 平均関節位置誤差（ミリメートル）
プロトコル #2：PA-MPJPE (Procrustes-Aligned MPJPE) - Procrustes整列後の誤差

MPI-INF-3DHP

PCK (Percentage of Correct Keypoint)：正解キーポイント率
AUC (Area Under Curve)：曲線下面積

比較手法

GCNシリーズ：SemGCN, High-order GCN, CompGCN, Modulated GCN, Group GCN, MM-GCN, Flex-GCN
ハイブリッド手法：GraphMLP（MLPとGCNの組み合わせ）
その他：HOIF-Net, PoseGraphNet, WSGN等

実装詳細

ハードウェア：単一のNVIDIA RTX A4500 GPU (20GB)
フレームワーク：PyTorch
最適化器：AMSGrad
訓練エポック数：30
学習率：初期値0.001、4エポックごとに0.99で減衰
バッチサイズ：64
埋め込み次元：F = 240
主要ハイパーパラメータ：s = 0.2, α = 0.03（グリッドサーチにより決定）
正則化：各PoseKAN層後のドロップアウト=0.2
スプライン設定：次数=3、グリッドサイズ=5

PoseKAN: 46.7mm（最適）
GraphMLP: 48.0mm（第2位）
Modulated GCN: 49.4mm
相対誤差削減：
- vs GraphMLP: 2.7%
- vs Modulated GCN: 5.47%
- vs High-order GCN: 15.99%

主要動作の性能（遮蔽課題）：

Eating: 44.4mm（他の手法を大幅に上回る）
Sitting: 54.6mm
Smoking: 46.1mm
15の動作中14で Modulated GCN を上回る

Human3.6M - プロトコル #2 (PA-MPJPE)

全体的性能：

PoseKAN: 38.3mm（最適）
GraphMLP: 38.4mm（相対誤差削減0.26%）
Modulated GCN: 39.1mm（相対誤差削減2.04%）
High-order GCN: 43.7mm（相対誤差削減12.35%）

優位な動作：

15の動作中11で GraphMLP を上回る
15の動作中13で Modulated GCN を上回る
特に Greeting、Sitting、Smoking など遮蔽が深刻なシーンで優れた性能

MPI-INF-3DHP（クロスデータセット汎化）

Human3.6M上で訓練、MPI-INF-3DHP上でテスト：

PCK: 86.0%（最高）
AUC: 52.9%（第2位、ICFNetの54.3%に次ぐ）
ICFNetに対するPCKの相対的改善：0.5%

グラウンドトゥルース2D入力の使用

MPJPE: 33.51mm
相対誤差削減：
- vs SemGCN: 19.62%
- vs High-order GCN: 14.29%
- vs GraphMLP: 2.01%
PA-MPJPE: 28.01mm（最適）

アブレーション実験

1. 初期残差接続(IRC)の影響

構成	MPJPE	PA-MPJPE
IRC なし	34.44mm	28.79mm
IRC あり	33.51mm	28.01mm
改善	1.65%	1.49%

結論：IRC は初期特徴を保持することで訓練を安定化させ、情報損失を防ぐ

2. スプライン次数の影響

次数2: MPJPE=47.43mm, PA-MPJPE=38.86mm
次数3: MPJPE=46.77mm, PA-MPJPE=38.36mm（最適）
次数4: MPJPE=47.10mm, PA-MPJPE=38.59mm

結論：次数3は最適なバランスを達成。過度に高い次数は複雑性を増加させるだけで利益がない

3. グリッドサイズの影響

サイズ4: MPJPE=47.40mm, PA-MPJPE=38.91mm
サイズ5: MPJPE=46.77mm, PA-MPJPE=38.36mm（最適）
サイズ6: MPJPE=47.98mm, PA-MPJPE=39.11mm

結論：グリッドサイズ5は十分な関数近似能力を提供

4. スケーリング因子sの影響

テスト範囲：s ∈ {0.1, 0.2, 0.3, 0.5, 0.7, 0.9}

最適値: s=0.2
より小さいsは局所情報をより強調し、同時に遠距離ノードを適度に考慮
s が過度に大きいまたは小さいと性能低下

5. 埋め込み次元の影響

224: MPJPE=47.38mm
240: MPJPE=46.77mm（最適）
256: MPJPE=47.29mm

結論：240次元は過学習なしに十分な表現能力を提供

ケース分析

定性的可視化（図2）は様々な動作カテゴリにおけるPoseKANの予測を示す：

予測された3D姿勢は真の値と高度に一致
自己遮蔽シーン（腕の交差、座位など）で GraphMLP を上回る
GraphMLP は時々不自然な関節位置を生成するが、PoseKAN は骨格構造の一貫性を保つ
正確な関節配置と自然な肢体関節は、モデルが深度曖昧性を緩和する能力を検証

実験的発見

学習可能な関数の利点は明白：固定活性化関数と比較して、エッジ上の学習可能な関数はより強い適応性を提供
マルチホップ集約は重要：遮蔽と複雑な姿勢の処理を大幅に改善
パラメータ効率が高い：PoseKAN は5.72Mパラメータのみで、GraphMLP の9.49Mより大幅に少ない
クロスデータセット汎化能力が強い：MPI-INF-3DHP上の性能は良好な汎化性を証明
高周波細部に敏感：高速運動細部が必要な動作（Greeting など）で優位性が明白

結論と考察

主要な結論

手法の有効性：PoseKAN は Human3.6M および MPI-INF-3DHP データセット上で最先端手法と同等またはそれ以上の性能を達成
核心的利点：
- 学習可能な関数はより強い適応性と表現能力を提供
- マルチホップ特徴集約は長期依存関係を効果的に捉える
- スペクトル偏差を緩和し、低周波および高周波成分を同時に学習
実用性：パラメータ効率が高い（5.72M）、計算オーバーヘッドが管理可能、実用的応用に適している
汎化能力：クロスデータセット評価で優れた性能を示し、良好な汎化性を証明