2025-11-17T17:34:12.559157

Adaptive graph Kolmogorov-Arnold network for 3D human pose estimation

Shahjahan, Hamza
Graph convolutional network (GCN)-based methods have shown strong performance in 3D human pose estimation by leveraging the natural graph structure of the human skeleton. However, their local receptive field limits their ability to capture long-range dependencies essential for handling occlusions and depth ambiguities. They also exhibit spectral bias, which prioritizes low-frequency components while struggling to model high-frequency details. In this paper, we introduce PoseKAN, an adaptive graph Kolmogorov-Arnold Network (KAN), framework that extends KANs to graph-based learning for 2D-to-3D pose lifting from a single image. Unlike GCNs that use fixed activation functions, KANs employ learnable functions on graph edges, allowing data-driven, adaptive feature transformations. This enhances the model's adaptability and expressiveness, making it more expressive in learning complex pose variations. Our model employs multi-hop feature aggregation, ensuring the body joints can leverage information from both local and distant neighbors, leading to improved spatial awareness. It also incorporates residual PoseKAN blocks for deeper feature refinement, and a global response normalization for improved feature selectivity and contrast. Extensive experiments on benchmark datasets demonstrate the competitive performance of our model against state-of-the-art methods.
academic

3D人体姿勢推定のための適応グラフKolmogorov-Arnoldネットワーク

基本情報

  • 論文ID: 2511.08809
  • タイトル: Adaptive Graph Kolmogorov-Arnold Network for 3D Human Pose Estimation
  • 著者: Abu Taib Mohammed Shahjahan and A. Ben Hamza (Concordia University, Montreal, Canada)
  • 分類: cs.CV (コンピュータビジョン)
  • 投稿日時: 2025年11月11日にarXivに投稿
  • 論文リンク: https://arxiv.org/abs/2511.08809
  • コードリンク: https://github.com/shahjahan0275/PoseKAN

要約

本論文は3D人体姿勢推定タスクに対して、PoseKAN——適応グラフKolmogorov-Arnoldネットワークフレームワークを提案する。本手法は従来のグラフ畳み込みネットワーク(GCN)の3つの核心的な制限に対処する:局所受容野の制限、スペクトル偏差(spectral bias)、および固定活性化関数の表現能力不足。PoseKANはグラフエッジ上で学習可能な関数変換を固定活性化関数に代わって使用し、マルチホップ特徴集約メカニズムと組み合わせることで、局所および遠距離関節依存関係の効果的なモデリングを実現する。Human3.6MおよびMPI-INF-3DHP標準ベンチマークデータセット上の実験により、本手法は最先端手法と同等の性能を達成したことが示された。

研究背景と動機

1. 核心問題

3D人体姿勢推定は、2D画像またはビデオから身体関節の3D座標を推論することを目的としており、人体運動の理解に重要であるが、入力データ固有の深度曖昧性と遮蔽問題により極めて困難である。

2. 問題の重要性

  • 応用範囲の広さ:人機相互作用、動作認識、スポーツ分析、医療リハビリテーション等の分野
  • 技術的課題:単眼画像の深度情報欠落、自己遮蔽、複雑な姿勢変化

3. 既存手法の制限

GCN手法の3つの主要な制限

  • 局所受容野の制限:主に1ホップ隣接集約に依存し、遠距離関節間の長期依存関係を捉えることが困難
  • スペクトル偏差問題:MLPをコア成分として使用するため、低周波成分を学習する傾向があり、高周波細部(高速運動、精細な関節相互作用など)を捉えることが困難
  • 表現能力不足:事前定義された固定活性化関数と訓練可能な重み行列を使用し、動的適応性と解釈可能性に欠ける

4. 研究動機

Kolmogorov-Arnold表現定理に着想を得て、KANネットワークは学習可能な単変量関数で固定活性化関数を置き換え、より強い関数近似能力と解釈可能性を提供する。本論文はKANをグラフ学習領域に拡張し、3D姿勢推定の2D-to-3D提升タスクに特化させる。

核心的貢献

  1. PoseKANフレームワークの提案:Kolmogorov-Arnoldネットワークをグラフ構造データに初めて拡張し、3D人体姿勢推定に適用。学習可能な関数ベース変換を通じてモデルの適応性と汎化能力を向上させる
  2. マルチホップ特徴伝播メカニズムの設計:スケーリングパラメータsを導入して局所および全局特徴集約のバランスを制御。伝播行列P = (1-s) + s²は1ホップおよび2ホップ隣接を同時に考慮し、遮蔽と深度曖昧性に対する堅牢性を向上させる
  3. 革新的なアーキテクチャ設計
    • 残差PoseKANブロックによる深層特徴精製
    • グローバル応答正規化(GRN)による特徴選択性とコントラスト向上
    • GELU非線形性の組み込みによる表現能力強化
  4. 包括的な実験検証:Human3.6MおよびMPI-INF-3DHP データセット上での詳細な比較実験とアブレーション研究を実施し、手法の有効性を証明

手法の詳細説明

タスク定義

訓練集合 D = {(xᵢ, yᵢ)}ᴺᵢ₌₁が与えられた場合、以下のように定義される:

  • 入力:xᵢ ∈ ℝ² は2D関節位置(既成の2D姿勢検出器により提供)
  • 出力:yᵢ ∈ ℝ³ は対応する真の3D関節位置
  • 目標:回帰モデル fω: X → Y のパラメータωを学習する

人体骨格はグラフ G = (V, E, X) として表現される:

  • V = {1,...,J} はJ個のノード(関節)
  • E ⊆ V × V はエッジ集合
  • X ∈ ℝᴶˣᶠ はノード特徴行列
  • A は隣接行列、Â = D⁻¹/²AD⁻¹/² は正規化隣接行列

モデルアーキテクチャ

1. Kolmogorov-Arnoldネットワークの基礎

KAN層の核心は学習可能な活性化関数であり、以下のように定義される:

ϕ(x) = wᵦb(x) + wₛspline(x)

ここで:

  • b(x) = SiLU(x) = x/(1+e⁻ˣ) はシグモイド線形ユニット
  • spline(x) = Σᵢ cᵢBᵢ(x) はB-スプライン基関数の重み付き和
  • wᵦ, wₛ, cᵢ は学習可能なパラメータ

2. スペクトル調整フィルタ

本論文で提案された革新的なスペクトル調整フィルタ:

hₛ(λ) = 1/((1+s)λ - sλ²)

ここで s ∈ (0,1) はスケーリングパラメータであり、異なる周波数成分への減衰動作を制御する。このフィルタは適応的なローパス特性を有する。

固定点反復により解く: H⁽ᵗ⁺¹⁾ = ((1-s)I + sÂ)ÂH⁽ᵗ⁾ + X

3. PoseKAN層の更新規則

核心的な層ごとの更新式:

H⁽ˡ⁺¹⁾ = KAN⁽ˡ⁾(((1-s) + s²)H⁽ˡ⁾ + X)

2つの操作に分解可能:

特徴伝播G⁽ˡ⁾ = PH⁽ˡ⁾ + X

ここで P = (1-s) + s² は伝播行列であり、1ホップおよび2ホップ隣接情報のバランスを取る

特徴埋め込みH⁽ˡ⁺¹⁾ = KAN⁽ˡ⁾(G⁽ˡ⁾)

各グラフエッジは学習可能な単変量関数に関連付けられる

4. 全体アーキテクチャ

  • 初期PoseKAN層:2D入力を潜在空間にマッピング
  • 4つの残差PoseKANブロック:各ブロックは以下を含む
    • 階層的特徴学習のための5つのPoseKAN層
    • 訓練の安定化のための層正規化
    • 追加のPoseKAN層 + GELU非線形性
    • 勾配消失を防ぐ残差接続
  • グローバル応答正規化(GRN):予測前の特徴振幅の校正
  • 終了PoseKAN層:3D姿勢空間への投影

5. 損失関数

混合損失関数(エラスティックネットに着想):

L = 1/N(1-α)Σᵢ||yᵢ - ŷᵢ||₂² + αΣᵢ||yᵢ - ŷᵢ||₁

ここで α ∈ 0,1 はMSEとMAEの重み付けバランスを制御

技術的革新点

1. 学習可能な関数変換 vs 固定活性化

  • GCN:固定活性化関数(ReLUなど)と訓練可能な重み行列を使用。本質的にはノードレベルの線形マッピング
  • PoseKAN:エッジ上で学習可能な単変量関数を使用。データ駆動の適応的特徴変換を提供し、表現能力がより強い

2. マルチホップ依存関係のモデリング

伝播行列 P = (1-s) + s² を通じて:

  • 1ホップおよび2ホップ隣接情報を明示的に結合
  • パラメータs により局所 vs 全局情報のバランスを調整可能
  • ² の明示的計算を回避(右から左への乗算戦略を採用)

3. スペクトル偏差の緩和

KANの関数ベース変換は低周波および高周波成分を同時に捉えることができる:

  • 低周波:滑らかで段階的な関節位置変化(Walking、Eatingなど)
  • 高周波:高速で急激な運動(Greetingの突然の動作など)

4. 計算複雑度分析

  • 時間複雑度:O(L||Â||₀F + LGF²)
    • 第1項:特徴伝播(グラフエッジ数に依存)
    • 第2項:KAN変換(Gはグリッドサイズ)
  • 空間複雑度:O(LJF + 2kGLF²)
    • 2k は k 次スプラインの再帰計算から

k と G は通常小さいため、追加オーバーヘッドは管理可能

実験設定

データセット

1. Human3.6M

  • 規模:11人の演技者(男性6名、女性5名)、15種類の室内活動
  • 取得:50Hz、4台の同期カメラ
  • アノテーション:モーションキャプチャにより正確な3D関節座標を取得
  • 分割
    • 訓練集合:5人の演技者(S1, S5, S6, S7, S8)
    • テスト集合:2人の演技者(S9, S11)
  • 前処理:正規化、股関節を根関節として零中心化

2. MPI-INF-3DHP

  • 規模:8人の演技者(男性4名、女性4名)、8つの活動シーケンス
  • 取得:14の異なる角度、室内外シーン
  • 特徴:Human3.6Mより多様性に富み、基本動作から動的高強度動作を含む

評価指標

Human3.6M

  • プロトコル #1:MPJPE (Mean Per-Joint Position Error) - 平均関節位置誤差(ミリメートル)
  • プロトコル #2:PA-MPJPE (Procrustes-Aligned MPJPE) - Procrustes整列後の誤差

MPI-INF-3DHP

  • PCK (Percentage of Correct Keypoint):正解キーポイント率
  • AUC (Area Under Curve):曲線下面積

比較手法

  • GCNシリーズ:SemGCN, High-order GCN, CompGCN, Modulated GCN, Group GCN, MM-GCN, Flex-GCN
  • ハイブリッド手法:GraphMLP(MLPとGCNの組み合わせ)
  • その他:HOIF-Net, PoseGraphNet, WSGN等

実装詳細

  • ハードウェア:単一のNVIDIA RTX A4500 GPU (20GB)
  • フレームワーク:PyTorch
  • 最適化器:AMSGrad
  • 訓練エポック数:30
  • 学習率:初期値0.001、4エポックごとに0.99で減衰
  • バッチサイズ:64
  • 埋め込み次元:F = 240
  • 主要ハイパーパラメータ:s = 0.2, α = 0.03(グリッドサーチにより決定)
  • 正則化:各PoseKAN層後のドロップアウト=0.2
  • スプライン設定:次数=3、グリッドサイズ=5

実験結果

主要結果

Human3.6M - プロトコル #1 (MPJPE)

全体的性能

  • PoseKAN: 46.7mm(最適)
  • GraphMLP: 48.0mm(第2位)
  • Modulated GCN: 49.4mm
  • 相対誤差削減:
    • vs GraphMLP: 2.7%
    • vs Modulated GCN: 5.47%
    • vs High-order GCN: 15.99%

主要動作の性能(遮蔽課題):

  • Eating: 44.4mm(他の手法を大幅に上回る)
  • Sitting: 54.6mm
  • Smoking: 46.1mm
  • 15の動作中14で Modulated GCN を上回る

Human3.6M - プロトコル #2 (PA-MPJPE)

全体的性能

  • PoseKAN: 38.3mm(最適)
  • GraphMLP: 38.4mm(相対誤差削減0.26%)
  • Modulated GCN: 39.1mm(相対誤差削減2.04%)
  • High-order GCN: 43.7mm(相対誤差削減12.35%)

優位な動作

  • 15の動作中11で GraphMLP を上回る
  • 15の動作中13で Modulated GCN を上回る
  • 特に Greeting、Sitting、Smoking など遮蔽が深刻なシーンで優れた性能

MPI-INF-3DHP(クロスデータセット汎化)

Human3.6M上で訓練、MPI-INF-3DHP上でテスト:

  • PCK: 86.0%(最高)
  • AUC: 52.9%(第2位、ICFNetの54.3%に次ぐ)
  • ICFNetに対するPCKの相対的改善:0.5%

グラウンドトゥルース2D入力の使用

  • MPJPE: 33.51mm
  • 相対誤差削減:
    • vs SemGCN: 19.62%
    • vs High-order GCN: 14.29%
    • vs GraphMLP: 2.01%
  • PA-MPJPE: 28.01mm(最適)

アブレーション実験

1. 初期残差接続(IRC)の影響

構成MPJPEPA-MPJPE
IRC なし34.44mm28.79mm
IRC あり33.51mm28.01mm
改善1.65%1.49%

結論:IRC は初期特徴を保持することで訓練を安定化させ、情報損失を防ぐ

2. スプライン次数の影響

  • 次数2: MPJPE=47.43mm, PA-MPJPE=38.86mm
  • 次数3: MPJPE=46.77mm, PA-MPJPE=38.36mm(最適)
  • 次数4: MPJPE=47.10mm, PA-MPJPE=38.59mm

結論:次数3は最適なバランスを達成。過度に高い次数は複雑性を増加させるだけで利益がない

3. グリッドサイズの影響

  • サイズ4: MPJPE=47.40mm, PA-MPJPE=38.91mm
  • サイズ5: MPJPE=46.77mm, PA-MPJPE=38.36mm(最適)
  • サイズ6: MPJPE=47.98mm, PA-MPJPE=39.11mm

結論:グリッドサイズ5は十分な関数近似能力を提供

4. スケーリング因子sの影響

テスト範囲:s ∈ {0.1, 0.2, 0.3, 0.5, 0.7, 0.9}

  • 最適値: s=0.2
  • より小さいsは局所情報をより強調し、同時に遠距離ノードを適度に考慮
  • s が過度に大きいまたは小さいと性能低下

5. 埋め込み次元の影響

  • 224: MPJPE=47.38mm
  • 240: MPJPE=46.77mm(最適)
  • 256: MPJPE=47.29mm

結論:240次元は過学習なしに十分な表現能力を提供

ケース分析

定性的可視化(図2)は様々な動作カテゴリにおけるPoseKANの予測を示す:

  • 予測された3D姿勢は真の値と高度に一致
  • 自己遮蔽シーン(腕の交差、座位など)で GraphMLP を上回る
  • GraphMLP は時々不自然な関節位置を生成するが、PoseKAN は骨格構造の一貫性を保つ
  • 正確な関節配置と自然な肢体関節は、モデルが深度曖昧性を緩和する能力を検証

実験的発見

  1. 学習可能な関数の利点は明白:固定活性化関数と比較して、エッジ上の学習可能な関数はより強い適応性を提供
  2. マルチホップ集約は重要:遮蔽と複雑な姿勢の処理を大幅に改善
  3. パラメータ効率が高い:PoseKAN は5.72Mパラメータのみで、GraphMLP の9.49Mより大幅に少ない
  4. クロスデータセット汎化能力が強い:MPI-INF-3DHP上の性能は良好な汎化性を証明
  5. 高周波細部に敏感:高速運動細部が必要な動作(Greeting など)で優位性が明白

関連研究

1. 3D人体姿勢推定手法の分類

単段階手法

  • 画像から3D関節座標を直接回帰
  • 代表例:Integral Human Pose Regression, Compositional Human Pose Regression
  • 制限:遮蔽の影響を受けやすく、精度が低い

二段階手法(2D-to-3D提升)

  • 第1段階:2D関節位置を検出
  • 第2段階:3D空間に提升
  • 代表例:SimpleBaseline, LCN
  • 利点:モジュール設計、最適な2D検出器の選択可能、堅牢性が高い
  • 本論文はこのカテゴリに属する

2. グラフベースの3D姿勢推定

標準GCN手法

  • SemGCN:GCNを3D姿勢推定に初めて適用
  • 制限:1ホップ隣接集約、局所受容野

高次GCN拡張

  • High-order GCN:複数ホップ近傍に拡張
  • Modulated GCN:隣接行列調整、追加エッジ学習
  • GroupGCN:グループ化グラフ畳み込み
  • MM-GCN:マルチホップ調整GCN、複数ホップ近傍情報の融合

ハイブリッドアーキテクチャ

  • GraphMLP:MLPとGCNの組み合わせ、全局および局所骨格相互作用を利用
  • 制限:依然として固定活性化関数を使用、スペクトル偏差が存在

3. Kolmogorov-Arnoldネットワーク

  • 理論的基礎:Kolmogorov-Arnold表現定理(任意の連続多変量関数は単変量関数の有限組み合わせで表現可能)
  • KANネットワーク:学習可能な単変量関数で固定活性化を置き換え、解釈可能性と適応性を向上
  • KAGNN:最近KANをグラフ学習に拡張(ノード/グラフ分類、リンク予測)
  • 本論文の革新:KANを3D姿勢推定の2D-to-3D提升タスクに初めて適用

4. 本論文の相対的利点

  • vs 標準GCN:学習可能な関数 vs 固定活性化、マルチホップ集約 vs 1ホップ
  • vs 高次GCN:適応的関数変換 vs 固定高次畳み込み
  • vs GraphMLP:スペクトル偏差の緩和、より強い表現能力
  • vs KAGNN:姿勢推定に特化した設計、スペクトル調整フィルタの導入

結論と考察

主要な結論

  1. 手法の有効性:PoseKAN は Human3.6M および MPI-INF-3DHP データセット上で最先端手法と同等またはそれ以上の性能を達成
  2. 核心的利点
    • 学習可能な関数はより強い適応性と表現能力を提供
    • マルチホップ特徴集約は長期依存関係を効果的に捉える
    • スペクトル偏差を緩和し、低周波および高周波成分を同時に学習
  3. 実用性:パラメータ効率が高い(5.72M)、計算オーバーヘッドが管理可能、実用的応用に適している
  4. 汎化能力:クロスデータセット評価で優れた性能を示し、良好な汎化性を証明

制限事項

著者が認める制限

  1. 解釈可能性の課題:GCNより解釈可能だが、各学習可能活性化関数が骨格の異なる部分にどのように適応するかを可視化することは依然として困難
  2. 計算コスト:学習可能活性化は各層の計算オーバーヘッドを増加させ、スプライン基関数は追加メモリを必要とする
  3. メモリ消費:大規模データセットと深層ネットワーク訓練時のメモリ要件が大きい
  4. 最適化の余地:計算効率、解釈可能性、堅牢性のさらなる改善が必要

潜在的な制限

  1. 単人姿勢制限:現在は単人姿勢のみを処理し、複数人シーンに拡張されていない
  2. 2D検出への依存:性能は2D姿勢検出器の品質に依存
  3. 静的グラフ構造:エッジ重みを学習するが、トポロジー構造は事前定義
  4. ハイパーパラメータ感度:s、α等のハイパーパラメータは慎重な調整が必要

今後の方向

著者が提案

  1. 複数人姿勢推定:複数人シーンに拡張、人間相互作用を処理
  2. 他のグラフ学習タスク:動作認識、異常検出等

潜在的な拡張

  1. 時系列モデリング:ビデオシーケンスの時間情報を組み込む
  2. エンドツーエンド学習:2D検出と3D提升を共同最適化
  3. 適応的グラフ構造:事前定義ではなく動的にグラフトポロジーを学習
  4. 軽量化設計:モバイルデバイス向けのモデル圧縮

深度評価

利点

1. 手法の革新性(★★★★★)

  • 理論的革新:KANを3D姿勢推定のグラフ学習に初めて拡張、理論的基礎が堅実
  • 技術的革新:スペクトル調整フィルタ設計が巧妙、マルチホップ集約メカニズムが効果的
  • アーキテクチャ革新:残差PoseKANブロックとGRNの組み合わせ設計が合理的

2. 実験の充分性(★★★★☆)

  • データセット多様性:Human3.6M(室内)+ MPI-INF-3DHP(室内外)
  • 比較の包括性:10以上の最先端手法との比較
  • アブレーション詳細:IRC、スプライン次数、グリッドサイズ、スケーリング因子、埋め込み次元等
  • 定性分析:可視化ケース比較を提供

3. 結果の説得力(★★★★☆)

  • 性能リード:複数の指標で SOTA またはそれに近い性能を達成
  • 一貫性:クロスデータセット、クロスプロトコルで安定した性能
  • 統計的有意性:相対誤差削減幅が明白(最大19.62%)
  • パラメータ効率:5.72Mパラメータで GraphMLP の9.49Mを上回る

4. 執筆の明確性(★★★★★)

  • 構造の明確性:論理が厳密、動機から手法から実験へと段階的に進行
  • 数学的厳密性:式の導出が完全、記号定義が明確
  • 図表の豊富さ:アーキテクチャ図、比較表、アブレーション図が充実
  • 補足資料:詳細な付録説明を提供

不足

1. 手法の制限

  • 計算オーバーヘッド:著者は管理可能と主張するが、スプライン計算と関数学習は確かに複雑性を増加
  • メモリ要件:O(2kGLF²)のメモリ複雑度は大規模応用でボトルネックになる可能性
  • 単人制限:複数人シーンを処理していない、実用的応用範囲を制限

2. 実験設定

  • ハイパーパラメータ探索:s=0.2 と α=0.03 はグリッドサーチで決定されたが、探索範囲と過程が報告されていない
  • 統計検定:有意性検定(t検定など)が欠けている
  • 失敗ケース:モデルが失敗する典型的なケースと原因分析が示されていない

3. 分析の深さ

  • 解釈可能性:GCNより解釈可能と主張するが、具体的な関数可視化や分析が提供されていない
  • 周波数分析:スペクトル偏差の緩和を言及するが、周波数スペクトル分析の定量的証拠が欠けている
  • 誤差分布:異なる関節、異なる動作の誤差分布パターンが分析されていない

4. 比較の公平性

  • 入力一貫性:同じ2D検出器を使用するが、検出器誤差が結果に与える影響が報告されていない
  • 実装詳細:ベースライン手法は異なる訓練戦略を使用している可能性があり、公平な比較に影響

影響力評価

1. 領域への貢献(★★★★☆)

  • 理論的貢献:KANをグラフベース姿勢推定に導入、新しい方向を開拓
  • 手法的貢献:スペクトル調整フィルタとマルチホップ集約メカニズムは他のグラフタスクに転用可能
  • 実証的貢献:標準データセット上で新しい性能ベンチマークを確立

2. 実用的価値(★★★☆☆)

  • 性能向上:相対的改善2-19%、実用的応用に有意
  • パラメータ効率:5.72Mパラメータは適度で、デプロイ可能
  • 制限:単人制限と計算オーバーヘッドはリアルタイム応用を制限
  • コード公開:GitHubリンク提供、複製と応用を促進

3. 再現性(★★★★☆)

  • 詳細の充分性:ハイパーパラメータ、訓練戦略、ネットワーク構成が詳細
  • コード公開:コードのオープンソース化を約束
  • データ標準:公開データセットと標準プロトコルを使用
  • 潜在的課題:KAN実装詳細(スプライン計算)に技術的障壁がある可能性

適用シーン

適切な応用

  1. 高精度要求シーン:スポーツ分析、医療診断など精度要求が高い応用
  2. 遮蔽が深刻なシーン:マルチホップ集約メカニズムが遮蔽状況で優位
  3. 複雑動作分析:高周波細部捉える能力が高速複雑動作に適している
  4. オフライン処理:リアルタイム要求がなく高精度が必要なシーン

不適切なシーン

  1. リアルタイム応用:計算オーバーヘッドが相対的に高く、リアルタイム処理に不適
  2. 複数人シーン:現在のアーキテクチャは複数人相互作用を考慮していない
  3. リソース制約デバイス:メモリ要件が大きく、モバイルデバイスに不適
  4. 大規模デプロイ:訓練と推論コストが大規模応用を制限する可能性

拡張の可能性

  • ビデオシーケンス:時系列モデリングに拡張可能
  • 他のグラフタスク:動作認識、人体メッシュ復元等
  • マルチモーダル融合:RGB、深度、IMU等複数ソースデータを結合
  • 転移学習:事前訓練モデルを他の姿勢推定タスクに転用

参考文献(主要文献)

  1. Liu et al., 2025 - KAN: Kolmogorov-Arnold networks (ICLR 2025) - KANの原始提案
  2. Zhao et al., 2019 - SemGCN - GCNを3D姿勢推定に初めて適用
  3. Zou & Tang, 2021 - Modulated GCN - 隣接行列調整手法
  4. Li et al., 2025 - GraphMLP - 最強ベースラインの一つ
  5. Bresson et al., 2025 - KAGNNs - KANのグラフ学習への応用
  6. Ionescu et al., 2013 - Human3.6M dataset - 標準評価データセット
  7. Martinez et al., 2017 - SimpleBaseline - 2D-to-3D提升の古典的手法

総合評価

  • 革新性: 9/10
  • 技術品質: 8/10
  • 実験充分性: 8/10
  • 執筆品質: 9/10
  • 実用的価値: 7/10
  • 総合評価: 8.2/10

推奨指数: ★★★★☆ (強く推奨、特にグラフニューラルネットワークと3Dビジョンに関心のある研究者向け)