Graph convolutional network (GCN)-based methods have shown strong performance in 3D human pose estimation by leveraging the natural graph structure of the human skeleton. However, their local receptive field limits their ability to capture long-range dependencies essential for handling occlusions and depth ambiguities. They also exhibit spectral bias, which prioritizes low-frequency components while struggling to model high-frequency details. In this paper, we introduce PoseKAN, an adaptive graph Kolmogorov-Arnold Network (KAN), framework that extends KANs to graph-based learning for 2D-to-3D pose lifting from a single image. Unlike GCNs that use fixed activation functions, KANs employ learnable functions on graph edges, allowing data-driven, adaptive feature transformations. This enhances the model's adaptability and expressiveness, making it more expressive in learning complex pose variations. Our model employs multi-hop feature aggregation, ensuring the body joints can leverage information from both local and distant neighbors, leading to improved spatial awareness. It also incorporates residual PoseKAN blocks for deeper feature refinement, and a global response normalization for improved feature selectivity and contrast. Extensive experiments on benchmark datasets demonstrate the competitive performance of our model against state-of-the-art methods.
Réseau Adaptatif Kolmogorov-Arnold sur Graphe pour l'Estimation de la Pose Humaine 3D
- ID de l'article: 2511.08809
- Titre: Adaptive Graph Kolmogorov-Arnold Network for 3D Human Pose Estimation
- Auteurs: Abu Taib Mohammed Shahjahan et A. Ben Hamza (Université Concordia, Montréal, Canada)
- Classification: cs.CV (Vision par Ordinateur)
- Date de soumission: 11 novembre 2025 sur arXiv
- Lien de l'article: https://arxiv.org/abs/2511.08809
- Lien du code: https://github.com/shahjahan0275/PoseKAN
Cet article propose PoseKAN, un cadre de réseau Kolmogorov-Arnold sur graphe adaptatif pour la tâche d'estimation de la pose humaine 3D. Cette méthode aborde trois limitations fondamentales des réseaux de convolution sur graphe (GCN) traditionnels : la restriction du champ réceptif local, le biais spectral et l'insuffisance de la capacité d'expression des fonctions d'activation fixes. PoseKAN remplace les fonctions d'activation fixes par des transformations de fonctions apprises sur les arêtes du graphe, combinées avec un mécanisme d'agrégation de caractéristiques multi-sauts, réalisant une modélisation efficace des dépendances entre articulations locales et distantes. Les expériences sur les ensembles de données de référence Human3.6M et MPI-INF-3DHP démontrent que la méthode atteint des performances comparables aux méthodes de pointe.
L'estimation de la pose humaine 3D vise à déduire les coordonnées 3D des articulations du corps à partir d'images 2D ou de vidéos, ce qui est crucial pour la compréhension du mouvement humain, mais extrêmement difficile en raison de l'ambiguïté de profondeur inhérente aux données d'entrée et des problèmes d'occlusion.
- Applications étendues: Interaction homme-machine, reconnaissance d'actions, analyse sportive, réadaptation médicale, etc.
- Défis techniques: Absence d'information de profondeur dans les images monoculaires, auto-occlusion, variations de poses complexes
Trois limitations majeures des méthodes GCN:
- Restriction du champ réceptif local: Dépend principalement de l'agrégation des voisins à un saut, difficile de capturer les dépendances à long terme entre articulations distantes
- Problème de biais spectral: En utilisant des MLP comme composant central, tend à apprendre les composantes basse fréquence tout en ayant du mal à capturer les détails haute fréquence (comme les mouvements rapides, les interactions articulaires fines)
- Capacité d'expression insuffisante: Utilise des fonctions d'activation prédéfinies et des matrices de poids entraînables, manquant d'adaptabilité dynamique et d'interprétabilité
Inspiré par le théorème de représentation Kolmogorov-Arnold, le réseau KAN remplace les fonctions d'activation fixes par des fonctions univariées apprises, offrant une capacité d'approximation de fonction plus forte et une meilleure interprétabilité. Cet article étend KAN au domaine de l'apprentissage sur graphe, spécifiquement pour la tâche de remontée 2D-vers-3D de l'estimation de pose 3D.
- Proposition du cadre PoseKAN: Extension pour la première fois du réseau Kolmogorov-Arnold aux données structurées en graphe pour l'estimation de la pose humaine 3D, améliorant l'adaptabilité et la capacité de généralisation du modèle grâce à des transformations basées sur des fonctions apprises
- Conception d'un mécanisme de propagation de caractéristiques multi-sauts: Introduction d'un paramètre d'échelle s contrôlant l'équilibre entre l'agrégation de caractéristiques locales et globales, avec une matrice de propagation P = (1-s) + s² considérant simultanément les voisins à un et deux sauts, améliorant la robustesse face à l'occlusion et l'ambiguïté de profondeur
- Conception d'architecture innovante:
- Blocs PoseKAN résiduels pour l'affinage des caractéristiques profondes
- Normalisation de réponse globale (GRN) améliorant la sélectivité des caractéristiques et le contraste
- Combinaison avec la non-linéarité GELU renforçant la capacité d'expression
- Vérification expérimentale complète: Expériences détaillées de comparaison et études d'ablation sur les ensembles de données Human3.6M et MPI-INF-3DHP, démontrant l'efficacité de la méthode
Étant donné un ensemble d'entraînement D = {(xᵢ, yᵢ)}ᴺᵢ₌₁, où:
- Entrée: xᵢ ∈ ℝ² positions d'articulations 2D (fournies par un détecteur de pose 2D prêt à l'emploi)
- Sortie: yᵢ ∈ ℝ³ positions d'articulations 3D réelles correspondantes
- Objectif: Apprendre les paramètres ω du modèle de régression fω: X → Y
Le squelette humain est représenté comme un graphe G = (V, E, X):
- V = {1,...,J} ensemble de J nœuds (articulations)
- E ⊆ V × V ensemble d'arêtes
- X ∈ ℝᴶˣᶠ matrice de caractéristiques des nœuds
- A matrice d'adjacence, Â = D⁻¹/²AD⁻¹/² matrice d'adjacence normalisée
Le cœur d'une couche KAN est la fonction d'activation apprendre, définie comme:
ϕ(x) = wᵦb(x) + wₛspline(x)
Où:
- b(x) = SiLU(x) = x/(1+e⁻ˣ) unité linéaire sigmoïde
- spline(x) = Σᵢ cᵢBᵢ(x) somme pondérée de fonctions de base B-spline
- wᵦ, wₛ, cᵢ paramètres apprises
Le filtre de modulation spectrale innovant proposé:
hₛ(λ) = 1/((1+s)λ - sλ²)
Où s ∈ (0,1) paramètre d'échelle, contrôlant le comportement d'atténuation du filtre pour différentes composantes de fréquence. Ce filtre possède une caractéristique passe-bas adaptative.
Résolu par itération de point fixe:
H⁽ᵗ⁺¹⁾ = ((1-s)I + sÂ)ÂH⁽ᵗ⁾ + X
Formule de mise à jour centrale couche par couche:
H⁽ˡ⁺¹⁾ = KAN⁽ˡ⁾(((1-s) + s²)H⁽ˡ⁾ + X)
Décomposable en deux opérations:
Propagation de caractéristiques:
G⁽ˡ⁾ = PH⁽ˡ⁾ + X
Où P = (1-s) + s² matrice de propagation, équilibrant l'information des voisins à un et deux sauts
Intégration de caractéristiques:
H⁽ˡ⁺¹⁾ = KAN⁽ˡ⁾(G⁽ˡ⁾)
Chaque arête du graphe associée à une fonction univariée apprendre
- Couche PoseKAN initiale: Projection de l'entrée 2D vers l'espace latent
- 4 blocs PoseKAN résiduels: Chaque bloc contient
- 5 couches PoseKAN pour l'apprentissage hiérarchique des caractéristiques
- Normalisation par couche stabilisant l'entraînement
- Couche PoseKAN supplémentaire + non-linéarité GELU
- Connexions résiduelles prévenant la disparition du gradient
- Normalisation de Réponse Globale (GRN): Étalonnage de l'amplitude des caractéristiques avant prédiction
- Couche PoseKAN finale: Projection vers l'espace de pose 3D
Fonction de perte hybride (inspirée du réseau élastique):
L = 1/N(1-α)Σᵢ||yᵢ - ŷᵢ||₂² + αΣᵢ||yᵢ - ŷᵢ||₁
Où α ∈ 0,1 contrôle l'équilibre pondéré entre MSE et MAE
- GCN: Utilise des fonctions d'activation fixes (comme ReLU) et des matrices de poids entraînables, essentiellement des mappages linéaires au niveau des nœuds
- PoseKAN: Utilise des fonctions univariées apprises sur les arêtes, fournissant des transformations de caractéristiques adaptatives pilotées par les données, avec une capacité d'expression plus forte
Via la matrice de propagation P = (1-s) + s²:
- Combine explicitement l'information des voisins à un et deux sauts
- Paramètre s ajustable équilibrant l'information locale vs globale
- Évite le calcul explicite de ² (utilisant une stratégie de multiplication de droite à gauche)
La transformation de base de fonction KAN peut capturer simultanément les composantes basse et haute fréquence:
- Basse fréquence: Variations de position articulaire lisses et graduelles (comme Walking, Eating)
- Haute fréquence: Mouvements rapides et soudains (comme les actions soudaines dans Greeting)
- Complexité temporelle: O(L||Â||₀F + LGF²)
- Premier terme: Propagation de caractéristiques (dépend du nombre d'arêtes du graphe)
- Deuxième terme: Transformation KAN (G taille de la grille)
- Complexité spatiale: O(LJF + 2kGLF²)
- 2k provient du calcul récursif des splines d'ordre k
Puisque k et G sont généralement petits, les frais supplémentaires sont contrôlables
- Échelle: 11 acteurs (6 hommes, 5 femmes), 15 activités intérieures
- Acquisition: 50Hz, 4 caméras synchronisées
- Annotation: Coordonnées 3D précises obtenues par capture de mouvement
- Division:
- Ensemble d'entraînement: 5 acteurs (S1, S5, S6, S7, S8)
- Ensemble de test: 2 acteurs (S9, S11)
- Prétraitement: Normalisation, centrage à zéro avec la hanche comme articulation racine
- Échelle: 8 acteurs (4 hommes, 4 femmes), 8 séquences d'activités
- Acquisition: 14 angles différents, scènes intérieures et extérieures
- Caractéristiques: Plus diversifié que Human3.6M, incluant actions basiques à mouvements dynamiques haute intensité
- Protocole #1: MPJPE (Erreur Moyenne de Position par Articulation) - erreur en millimètres
- Protocole #2: PA-MPJPE (MPJPE Alignée par Procrustes) - erreur après alignement Procrustes
- PCK (Pourcentage de Point Clé Correct): Pourcentage de points clés correctement détectés
- AUC (Aire Sous la Courbe): Aire sous la courbe ROC
- Série GCN: SemGCN, High-order GCN, CompGCN, Modulated GCN, Group GCN, MM-GCN, Flex-GCN
- Méthodes hybrides: GraphMLP (combinant MLP et GCN)
- Autres: HOIF-Net, PoseGraphNet, WSGN, etc.
- Matériel: GPU NVIDIA RTX A4500 unique (20GB)
- Framework: PyTorch
- Optimiseur: AMSGrad
- Nombre d'epochs: 30
- Taux d'apprentissage: Initial 0.001, décroissance 0.99 tous les 4 epochs
- Taille de batch: 64
- Dimension d'intégration: F = 240
- Hyperparamètres clés: s = 0.2, α = 0.03 (déterminés par recherche en grille)
- Régularisation: Dropout = 0.2 après chaque couche PoseKAN
- Configuration des splines: Ordre = 3, taille de grille = 5
Performance globale:
- PoseKAN: 46.7mm (optimal)
- GraphMLP: 48.0mm (deuxième)
- Modulated GCN: 49.4mm
- Réduction d'erreur relative:
- vs GraphMLP: 2.7%
- vs Modulated GCN: 5.47%
- vs High-order GCN: 15.99%
Performance sur actions clés (défis d'occlusion):
- Eating: 44.4mm (significativement supérieur aux autres méthodes)
- Sitting: 54.6mm
- Smoking: 46.1mm
- Supérieur à Modulated GCN sur 14 des 15 actions
Performance globale:
- PoseKAN: 38.3mm (optimal)
- GraphMLP: 38.4mm (réduction d'erreur relative 0.26%)
- Modulated GCN: 39.1mm (réduction d'erreur relative 2.04%)
- High-order GCN: 43.7mm (réduction d'erreur relative 12.35%)
Actions avantageuses:
- Supérieur à GraphMLP sur 11 des 15 actions
- Supérieur à Modulated GCN sur 13 des 15 actions
- Performance particulièrement excellente dans les scènes d'occlusion sévère (Greeting, Sitting, Smoking)
Entraîné sur Human3.6M, testé sur MPI-INF-3DHP:
- PCK: 86.0% (le plus élevé)
- AUC: 52.9% (deuxième, juste après ICFNet avec 54.3%)
- Amélioration PCK relative vs ICFNet: 0.5%
- MPJPE: 33.51mm
- Réduction d'erreur relative:
- vs SemGCN: 19.62%
- vs High-order GCN: 14.29%
- vs GraphMLP: 2.01%
- PA-MPJPE: 28.01mm (optimal)
| Configuration | MPJPE | PA-MPJPE |
|---|
| Sans IRC | 34.44mm | 28.79mm |
| Avec IRC | 33.51mm | 28.01mm |
| Amélioration | 1.65% | 1.49% |
Conclusion: IRC stabilise l'entraînement en préservant les caractéristiques initiales, prévenant la perte d'information
- Ordre 2: MPJPE=47.43mm, PA-MPJPE=38.86mm
- Ordre 3: MPJPE=46.77mm, PA-MPJPE=38.36mm (optimal)
- Ordre 4: MPJPE=47.10mm, PA-MPJPE=38.59mm
Conclusion: L'ordre 3 atteint le meilleur équilibre, les ordres plus élevés augmentent la complexité sans bénéfice
- Taille 4: MPJPE=47.40mm, PA-MPJPE=38.91mm
- Taille 5: MPJPE=46.77mm, PA-MPJPE=38.36mm (optimal)
- Taille 6: MPJPE=47.98mm, PA-MPJPE=39.11mm
Conclusion: La taille de grille 5 fournit une capacité d'approximation de fonction suffisante
Plage testée: s ∈ {0.1, 0.2, 0.3, 0.5, 0.7, 0.9}
- Valeur optimale: s=0.2
- Les petites valeurs de s mettent davantage l'accent sur l'information locale, tout en considérant modérément les nœuds distants
- Les valeurs de s trop grandes ou trop petites entraînent une dégradation des performances
- 224: MPJPE=47.38mm
- 240: MPJPE=46.77mm (optimal)
- 256: MPJPE=47.29mm
Conclusion: La dimension 240 fournit une capacité d'expression suffisante sans surapprentissage
Visualisations qualitatives (Figure 2) montrant les prédictions de PoseKAN sur diverses catégories d'actions:
- Les poses 3D prédites s'alignent hautement avec les valeurs réelles
- Performance supérieure à GraphMLP dans les scènes d'auto-occlusion (comme les bras croisés, positions assises)
- GraphMLP produit occasionnellement des positions articulaires non naturelles, tandis que PoseKAN maintient la cohérence de la structure squelettique
- Le placement précis des articulations et la validation des articulations de membres naturels vérifient la capacité du modèle à atténuer l'ambiguïté de profondeur
- Avantage évident des fonctions apprises: Comparées aux fonctions d'activation fixes, les fonctions apprises sur les arêtes offrent une adaptabilité plus forte
- Importance critique de l'agrégation multi-sauts: Améliore significativement la gestion de l'occlusion et des poses complexes
- Efficacité paramétrique élevée: PoseKAN avec seulement 5.72M paramètres, bien inférieur aux 9.49M de GraphMLP
- Capacité de généralisation interensembles forte: Les performances sur MPI-INF-3DHP démontrent une bonne généralisation
- Sensibilité aux détails haute fréquence: Avantage manifeste dans les actions nécessitant des détails de mouvement rapide (comme Greeting)
- Régression directe des coordonnées 3D à partir de l'image
- Représentants: Integral Human Pose Regression, Compositional Human Pose Regression
- Limitations: Sensibles à l'occlusion, précision plus faible
- Première étape: Détection des positions d'articulations 2D
- Deuxième étape: Remontée vers l'espace 3D
- Représentants: SimpleBaseline, LCN
- Avantages: Conception modulaire, sélection du meilleur détecteur 2D possible, robustesse plus forte
- Cet article appartient à cette catégorie
- SemGCN: Première application de GCN à l'estimation de pose 3D
- Limitation: Agrégation des voisins à un saut, champ réceptif local
- High-order GCN: Extension à voisinages multi-sauts
- Modulated GCN: Modulation de matrice d'adjacence, apprentissage d'arêtes supplémentaires
- GroupGCN: Convolution sur graphe groupée
- MM-GCN: GCN multi-sauts modulé, fusion d'information multi-sauts
- GraphMLP: Combinaison de MLP et GCN, exploitant les interactions squelettiques globales et locales
- Limitation: Utilise toujours des fonctions d'activation fixes, présente un biais spectral
- Fondement théorique: Théorème de représentation Kolmogorov-Arnold (toute fonction continue multivariée peut être représentée comme une composition finie de fonctions univariées)
- Réseau KAN: Remplace les fonctions d'activation fixes par des fonctions univariées apprises, améliorant l'interprétabilité et l'adaptabilité
- KAGNN: Extension récente de KAN à l'apprentissage sur graphe (classification de nœuds/graphes, prédiction de liens)
- Innovation de cet article: Première application de KAN à la tâche de remontée 2D-vers-3D de l'estimation de pose 3D
- vs GCN Standard: Fonctions apprises vs activation fixes, agrégation multi-sauts vs un saut
- vs GCN Haute Ordre: Transformation de fonction adaptative vs convolution haute ordre fixe
- vs GraphMLP: Atténuation du biais spectral, capacité d'expression plus forte
- vs KAGNN: Conception spécialisée pour l'estimation de pose, introduction du filtre de modulation spectrale
- Efficacité de la méthode: PoseKAN atteint ou dépasse les méthodes de pointe sur les ensembles de données Human3.6M et MPI-INF-3DHP
- Avantages fondamentaux:
- Les fonctions apprises offrent une adaptabilité et une capacité d'expression plus fortes
- L'agrégation de caractéristiques multi-sauts capture efficacement les dépendances à long terme
- Atténue le biais spectral, apprenant simultanément les composantes basse et haute fréquence
- Praticité: Efficacité paramétrique élevée (5.72M), frais computationnels contrôlables, adapté aux applications pratiques
- Capacité de généralisation: Évaluation interensembles excellente, démontrant une bonne généralisation
- Défi d'interprétabilité: Bien que plus interprétable que GCN, la visualisation de la façon dont chaque fonction d'activation apprendre s'adapte à travers différentes parties du squelette reste difficile
- Coût computationnel: Les activations apprises augmentent les frais computationnels par couche, les fonctions de base B-spline nécessitent de la mémoire supplémentaire
- Consommation mémoire: Besoins mémoire plus importants lors de l'entraînement sur de grands ensembles de données et réseaux profonds
- Espace d'optimisation: Amélioration supplémentaire nécessaire en efficacité computationnelle, interprétabilité et robustesse
- Limitation à la pose unique: Traite actuellement uniquement la pose humaine unique, non étendu aux scènes multi-personnes
- Dépendance à la détection 2D: Les performances dépendent de la qualité du détecteur de pose 2D
- Structure de graphe statique: Bien que l'apprentissage des poids d'arêtes, la topologie est prédéfinie
- Sensibilité aux hyperparamètres: Les hyperparamètres comme s, α nécessitent un ajustement minutieux
- Estimation de pose multi-personnes: Extension aux scènes multi-personnes, gestion des interactions interpersonnelles
- Autres tâches d'apprentissage sur graphe: Reconnaissance d'actions, détection d'anomalies, etc.
- Modélisation temporelle: Intégration d'informations temporelles de séquences vidéo
- Apprentissage bout en bout: Optimisation conjointe de la détection 2D et de la remontée 3D
- Structure de graphe adaptative: Apprentissage dynamique de la topologie du graphe plutôt que prédéfinie
- Conception légère: Compression de modèle pour appareils mobiles
- Innovation théorique: Extension pour la première fois de KAN à l'apprentissage sur graphe pour l'estimation de pose 3D, fondement théorique solide
- Innovation technique: Conception ingénieuse du filtre de modulation spectrale, mécanisme d'agrégation multi-sauts efficace
- Innovation architecturale: Combinaison bien conçue des blocs PoseKAN résiduels et GRN
- Diversité des ensembles de données: Human3.6M (intérieur) + MPI-INF-3DHP (intérieur/extérieur)
- Comparaisons complètes: Comparaison avec 10+ méthodes de pointe
- Ablations détaillées: IRC, ordre des splines, taille de grille, facteur d'échelle, dimension d'intégration, etc.
- Analyse qualitative: Comparaisons de visualisation de cas
- Performance leader: Atteint SOTA ou proche SOTA sur plusieurs métriques
- Bonne cohérence: Performance stable entre ensembles de données et protocoles
- Significativité statistique: Ampleur de réduction d'erreur relative manifeste (jusqu'à 19.62%)
- Efficacité paramétrique: 5.72M paramètres supérieur aux 9.49M de GraphMLP
- Structure claire: Logique rigoureuse, progression du contexte à la méthode aux expériences
- Rigueur mathématique: Dérivations de formules complètes, définitions de symboles claires
- Richesse des figures: Diagrammes d'architecture, tableaux de comparaison, graphiques d'ablation complets
- Matériaux supplémentaires: Explications détaillées en annexe
- Frais computationnels: Bien que déclarés contrôlables, le calcul des splines et l'apprentissage de fonctions augmentent effectivement la complexité
- Besoins mémoire: La complexité mémoire O(2kGLF²) peut devenir goulot d'étranglement dans les applications à grande échelle
- Limitation mono-personne: Non traité pour les scènes multi-personnes, limitant la portée des applications pratiques
- Recherche en grille: s=0.2 et α=0.03 déterminés par recherche en grille, mais plage de recherche et processus non rapportés
- Tests statistiques: Absence de tests de significativité (comme t-test)
- Cas d'échec: Pas de démonstration des cas d'échec typiques du modèle et analyse des causes
- Interprétabilité: Bien que déclarée plus interprétable que GCN, pas de visualisation ou analyse spécifique de fonction fournie
- Analyse fréquentielle: Mention de l'atténuation du biais spectral, mais absence de preuve quantitative d'analyse spectrale
- Distribution d'erreur: Pas d'analyse de la distribution d'erreur entre différentes articulations et actions
- Cohérence d'entrée: Utilisation du même détecteur 2D, mais impact de l'erreur de détection sur les résultats non rapporté
- Détails d'implémentation: Les méthodes de base peuvent utiliser différentes stratégies d'entraînement, affectant l'équité de comparaison
- Contribution théorique: Introduction de KAN à l'estimation de pose basée sur graphe, ouverture de nouvelles directions
- Contribution méthodologique: Le filtre de modulation spectrale et le mécanisme d'agrégation multi-sauts sont transférables à d'autres tâches sur graphe
- Contribution empirique: Établissement de nouveaux repères de performance sur ensembles de données standard
- Amélioration de performance: Amélioration relative de 2-19%, significative pour les applications pratiques
- Efficacité paramétrique: 5.72M paramètres modérés, déployables
- Limitations: Limitation mono-personne et frais computationnels limitent les applications en temps réel
- Code ouvert: Lien GitHub fourni, facilitant la reproduction et l'application
- Détails suffisants: Hyperparamètres, stratégies d'entraînement, configuration réseau détaillés
- Code public: Engagement de rendre le code open source
- Données standard: Utilisation d'ensembles de données publics et protocoles standard
- Problème potentiel: Les détails d'implémentation de KAN (calcul des splines) peuvent présenter des barrières techniques
- Scénarios haute précision: Analyse sportive, diagnostic médical et autres applications exigeant haute précision
- Scénarios occlusion sévère: Le mécanisme d'agrégation multi-sauts montre des avantages manifestes en cas d'occlusion
- Analyse d'actions complexes: La capacité de capture de détails haute fréquence adaptée aux actions rapides complexes
- Traitement hors ligne: Scénarios sans exigence temps réel mais nécessitant haute précision
- Applications temps réel: Frais computationnels relativement élevés, inadapté au traitement temps réel
- Scènes multi-personnes: L'architecture actuelle ne considère pas les interactions multi-personnes
- Appareils ressources limitées: Besoins mémoire importants, inadapté aux appareils mobiles
- Déploiement à grande échelle: Les coûts d'entraînement et d'inférence peuvent limiter le déploiement à grande échelle
- Séquences vidéo: Extensible à la modélisation temporelle
- Autres tâches sur graphe: Reconnaissance d'actions, reconstruction de maillage humain, etc.
- Fusion multimodale: Intégration de données RGB, profondeur, IMU et autres sources multiples
- Apprentissage par transfert: Transfert de modèles pré-entraînés à d'autres tâches d'estimation de pose
- Liu et al., 2025 - KAN: Kolmogorov-Arnold networks (ICLR 2025) - Proposition originale de KAN
- Zhao et al., 2019 - SemGCN - Première application de GCN à l'estimation de pose 3D
- Zou & Tang, 2021 - Modulated GCN - Méthode de modulation de matrice d'adjacence
- Li et al., 2025 - GraphMLP - L'une des meilleures baselines
- Bresson et al., 2025 - KAGNNs - Application de KAN à l'apprentissage sur graphe
- Ionescu et al., 2013 - Ensemble de données Human3.6M - Ensemble de données d'évaluation standard
- Martinez et al., 2017 - SimpleBaseline - Méthode classique de remontée 2D-vers-3D
- Innovativité: 9/10
- Qualité Technique: 8/10
- Exhaustivité Expérimentale: 8/10
- Qualité de Rédaction: 9/10
- Valeur Pratique: 7/10
- Score Composite: 8.2/10
Indice de Recommandation: ★★★★☆ (Lecture fortement recommandée, particulièrement pour les chercheurs intéressés par les réseaux de neurones sur graphe et la vision 3D)