Graph convolutional network (GCN)-based methods have shown strong performance in 3D human pose estimation by leveraging the natural graph structure of the human skeleton. However, their local receptive field limits their ability to capture long-range dependencies essential for handling occlusions and depth ambiguities. They also exhibit spectral bias, which prioritizes low-frequency components while struggling to model high-frequency details. In this paper, we introduce PoseKAN, an adaptive graph Kolmogorov-Arnold Network (KAN), framework that extends KANs to graph-based learning for 2D-to-3D pose lifting from a single image. Unlike GCNs that use fixed activation functions, KANs employ learnable functions on graph edges, allowing data-driven, adaptive feature transformations. This enhances the model's adaptability and expressiveness, making it more expressive in learning complex pose variations. Our model employs multi-hop feature aggregation, ensuring the body joints can leverage information from both local and distant neighbors, leading to improved spatial awareness. It also incorporates residual PoseKAN blocks for deeper feature refinement, and a global response normalization for improved feature selectivity and contrast. Extensive experiments on benchmark datasets demonstrate the competitive performance of our model against state-of-the-art methods.
- ID del Artículo: 2511.08809
- Título: Adaptive Graph Kolmogorov-Arnold Network for 3D Human Pose Estimation
- Autores: Abu Taib Mohammed Shahjahan y A. Ben Hamza (Universidad Concordia, Montreal, Canadá)
- Clasificación: cs.CV (Visión por Computadora)
- Fecha de Publicación: Enviado a arXiv el 11 de noviembre de 2025
- Enlace del Artículo: https://arxiv.org/abs/2511.08809
- Enlace del Código: https://github.com/shahjahan0275/PoseKAN
Este artículo propone PoseKAN, un marco de red adaptativa de Kolmogorov-Arnold en grafos para la tarea de estimación de pose humana 3D. El método aborda tres limitaciones fundamentales de las redes de convolución en grafos (GCN) tradicionales: restricción del campo receptivo local, sesgo espectral (spectral bias) e insuficiente capacidad expresiva de las funciones de activación fijas. PoseKAN logra un modelado efectivo de dependencias entre articulaciones locales y distantes mediante transformaciones de funciones aprendibles en los bordes del grafo, combinadas con un mecanismo de agregación de características de múltiples saltos. Los experimentos en los conjuntos de datos de referencia Human3.6M y MPI-INF-3DHP demuestran que el método alcanza un rendimiento comparable a los métodos más avanzados.
La estimación de pose humana 3D tiene como objetivo inferir las coordenadas 3D de las articulaciones corporales a partir de imágenes o videos 2D, lo cual es crucial para comprender el movimiento humano. Sin embargo, presenta desafíos significativos debido a la ambigüedad de profundidad inherente a los datos de entrada y problemas de oclusión.
- Aplicaciones Amplias: Interacción humano-computadora, reconocimiento de acciones, análisis deportivo, rehabilitación médica y otros campos
- Desafíos Técnicos: Pérdida de información de profundidad en imágenes monoculares, auto-oclusión, cambios de pose complejos
Tres Limitaciones Principales de los Métodos GCN:
- Restricción del Campo Receptivo Local: Dependen principalmente de la agregación de vecinos de un salto, lo que dificulta la captura de dependencias a largo plazo entre articulaciones distantes
- Problema de Sesgo Espectral: Debido al uso de MLP como componente central, tienden a aprender componentes de baja frecuencia y tienen dificultades para capturar detalles de alta frecuencia (como movimientos rápidos e interacciones articulares finas)
- Capacidad Expresiva Insuficiente: El uso de funciones de activación predefinidas fijas y matrices de pesos entrenables carece de adaptabilidad dinámica e interpretabilidad
Inspirado en el teorema de representación de Kolmogorov-Arnold, la red KAN reemplaza las funciones de activación fijas con funciones univariadas aprendibles, proporcionando una mayor capacidad de aproximación de funciones e interpretabilidad. Este artículo extiende KAN al aprendizaje en grafos, específicamente para la tarea de elevación 2D-a-3D en estimación de pose.
- Propuesta del Marco PoseKAN: Primera extensión de redes de Kolmogorov-Arnold a datos estructurados en grafos para estimación de pose humana 3D, mejorando la adaptabilidad y capacidad de generalización del modelo mediante transformaciones basadas en funciones aprendibles
- Diseño de Mecanismo de Propagación de Características de Múltiples Saltos: Introducción de un parámetro de escala s que controla el equilibrio entre agregación de características locales y globales, con matriz de propagación P = (1-s) + s² que considera simultáneamente vecinos de uno y dos saltos, mejorando la robustez ante oclusión y ambigüedad de profundidad
- Diseño Arquitectónico Innovador:
- Bloques PoseKAN residuales para refinamiento de características profundas
- Normalización de Respuesta Global (GRN) para mejorar selectividad de características y contraste
- Combinación con no-linealidad GELU para mejorar capacidad expresiva
- Verificación Experimental Exhaustiva: Experimentos detallados de comparación y estudios de ablación en los conjuntos de datos Human3.6M y MPI-INF-3DHP, demostrando la efectividad del método
Dado el conjunto de entrenamiento D = {(xᵢ, yᵢ)}ᴺᵢ₌₁, donde:
- Entrada: xᵢ ∈ ℝ² son posiciones de articulaciones 2D (proporcionadas por detectores de pose 2D listos para usar)
- Salida: yᵢ ∈ ℝ³ son las posiciones de articulaciones 3D verdaderas correspondientes
- Objetivo: Aprender los parámetros ω del modelo de regresión fω: X → Y
El esqueleto humano se representa como un grafo G = (V, E, X):
- V = {1,...,J} son J nodos (articulaciones)
- E ⊆ V × V es el conjunto de bordes
- X ∈ ℝᴶˣᶠ es la matriz de características de nodos
- A es la matriz de adyacencia, Â = D⁻¹/²AD⁻¹/² es la matriz de adyacencia normalizada
El núcleo de la capa KAN es la función de activación aprendible, definida como:
ϕ(x) = wᵦb(x) + wₛspline(x)
Donde:
- b(x) = SiLU(x) = x/(1+e⁻ˣ) es la unidad lineal sigmoide
- spline(x) = Σᵢ cᵢBᵢ(x) es la suma ponderada de funciones base B-spline
- wᵦ, wₛ, cᵢ son parámetros aprendibles
El filtro de modulación espectral innovador propuesto:
hₛ(λ) = 1/((1+s)λ - sλ²)
Donde s ∈ (0,1) es un parámetro de escala que controla el comportamiento de atenuación del filtro para diferentes componentes de frecuencia. Este filtro posee características adaptativas de paso bajo.
Resuelto mediante iteración de punto fijo:
H⁽ᵗ⁺¹⁾ = ((1-s)I + sÂ)ÂH⁽ᵗ⁾ + X
La fórmula de actualización capa por capa central:
H⁽ˡ⁺¹⁾ = KAN⁽ˡ⁾(((1-s) + s²)H⁽ˡ⁾ + X)
Descomponible en dos operaciones:
Propagación de Características:
G⁽ˡ⁾ = PH⁽ˡ⁾ + X
Donde P = (1-s) + s² es la matriz de propagación que equilibra información de vecinos de uno y dos saltos
Incrustación de Características:
H⁽ˡ⁺¹⁾ = KAN⁽ˡ⁾(G⁽ˡ⁾)
Cada borde del grafo está asociado con una función univariada aprendible
- Capa PoseKAN Inicial: Mapea entrada 2D al espacio latente
- 4 Bloques PoseKAN Residuales: Cada bloque contiene
- 5 capas PoseKAN para aprendizaje jerárquico de características
- Normalización de capas para estabilizar el entrenamiento
- Capa PoseKAN adicional + no-linealidad GELU
- Conexiones residuales para prevenir desvanecimiento de gradientes
- Normalización de Respuesta Global (GRN): Calibra amplitud de características antes de predicción
- Capa PoseKAN Final: Proyecta de vuelta al espacio de pose 3D
Función de pérdida híbrida (inspirada en red elástica):
L = 1/N(1-α)Σᵢ||yᵢ - ŷᵢ||₂² + αΣᵢ||yᵢ - ŷᵢ||₁
Donde α ∈ 0,1 controla el equilibrio de pesos entre MSE y MAE
- GCN: Usa funciones de activación fijas (como ReLU) y matrices de pesos entrenables, esencialmente mapeos lineales a nivel de nodo
- PoseKAN: Usa funciones univariadas aprendibles en los bordes, proporcionando transformaciones de características adaptativas impulsadas por datos con mayor capacidad expresiva
Mediante matriz de propagación P = (1-s) + s²:
- Combina explícitamente información de vecinos de uno y dos saltos
- Parámetro s ajustable para equilibrar información local vs global
- Evita cálculo explícito de ² (usando estrategia de multiplicación de derecha a izquierda)
La transformación de base de función de KAN puede capturar simultáneamente componentes de baja y alta frecuencia:
- Baja Frecuencia: Cambios suaves y graduales en posiciones de articulaciones (como Caminar, Comer)
- Alta Frecuencia: Movimientos rápidos y abruptos (como acciones repentinas en Saludar)
- Complejidad Temporal: O(L||Â||₀F + LGF²)
- Primer término: propagación de características (depende del número de bordes del grafo)
- Segundo término: transformación KAN (G es tamaño de malla)
- Complejidad Espacial: O(LJF + 2kGLF²)
- 2k proviene del cálculo recursivo de splines de orden k
Dado que k y G son típicamente pequeños, el costo adicional es manejable
- Escala: 11 actores (6 hombres, 5 mujeres), 15 actividades de interior
- Captura: 50Hz, 4 cámaras sincronizadas
- Anotación: Coordenadas 3D precisas obtenidas mediante captura de movimiento
- División:
- Conjunto de entrenamiento: 5 actores (S1, S5, S6, S7, S8)
- Conjunto de prueba: 2 actores (S9, S11)
- Preprocesamiento: Normalización, centrado en cadera como articulación raíz
- Escala: 8 actores (4 hombres, 4 mujeres), 8 secuencias de actividades
- Captura: 14 ángulos diferentes, escenas de interior y exterior
- Características: Mayor diversidad que Human3.6M, incluye desde acciones básicas hasta movimientos dinámicos de alta intensidad
- Protocolo #1: MPJPE (Error Medio de Posición por Articulación) - error en milímetros
- Protocolo #2: PA-MPJPE (MPJPE Alineado por Procrustes) - error después de alineación de Procrustes
- PCK (Porcentaje de Punto Clave Correcto): Porcentaje de puntos clave correctos
- AUC (Área Bajo la Curva): Área bajo la curva
- Serie GCN: SemGCN, High-order GCN, CompGCN, Modulated GCN, Group GCN, MM-GCN, Flex-GCN
- Métodos Híbridos: GraphMLP (combinando MLP y GCN)
- Otros: HOIF-Net, PoseGraphNet, WSGN, etc.
- Hardware: GPU NVIDIA RTX A4500 única (20GB)
- Marco: PyTorch
- Optimizador: AMSGrad
- Épocas de Entrenamiento: 30
- Tasa de Aprendizaje: Inicial 0.001, decaimiento 0.99 cada 4 épocas
- Tamaño de Lote: 64
- Dimensión de Incrustación: F = 240
- Hiperparámetros Clave: s = 0.2, α = 0.03 (determinados mediante búsqueda en malla)
- Regularización: Dropout = 0.2 después de cada capa PoseKAN
- Configuración de Spline: Orden = 3, Tamaño de Malla = 5
Rendimiento General:
- PoseKAN: 46.7mm (óptimo)
- GraphMLP: 48.0mm (segundo)
- Modulated GCN: 49.4mm
- Reducción de Error Relativo:
- vs GraphMLP: 2.7%
- vs Modulated GCN: 5.47%
- vs High-order GCN: 15.99%
Rendimiento en Acciones Clave (desafío de oclusión):
- Eating: 44.4mm (significativamente superior a otros métodos)
- Sitting: 54.6mm
- Smoking: 46.1mm
- Superior a Modulated GCN en 14 de 15 acciones
Rendimiento General:
- PoseKAN: 38.3mm (óptimo)
- GraphMLP: 38.4mm (reducción de error relativo 0.26%)
- Modulated GCN: 39.1mm (reducción de error relativo 2.04%)
- High-order GCN: 43.7mm (reducción de error relativo 12.35%)
Acciones de Ventaja:
- Superior a GraphMLP en 11 de 15 acciones
- Superior a Modulated GCN en 13 de 15 acciones
- Desempeño destacado en escenarios con oclusión severa como Greeting, Sitting, Smoking
Entrenado en Human3.6M, evaluado en MPI-INF-3DHP:
- PCK: 86.0% (máximo)
- AUC: 52.9% (segundo, solo superado por ICFNet con 54.3%)
- Mejora relativa de PCK respecto a ICFNet: 0.5%
- MPJPE: 33.51mm
- Reducción de Error Relativo:
- vs SemGCN: 19.62%
- vs High-order GCN: 14.29%
- vs GraphMLP: 2.01%
- PA-MPJPE: 28.01mm (óptimo)
| Configuración | MPJPE | PA-MPJPE |
|---|
| Sin IRC | 34.44mm | 28.79mm |
| Con IRC | 33.51mm | 28.01mm |
| Mejora | 1.65% | 1.49% |
Conclusión: IRC estabiliza el entrenamiento mediante retención de características iniciales, previniendo pérdida de información
- Orden 2: MPJPE=47.43mm, PA-MPJPE=38.86mm
- Orden 3: MPJPE=46.77mm, PA-MPJPE=38.36mm (óptimo)
- Orden 4: MPJPE=47.10mm, PA-MPJPE=38.59mm
Conclusión: Orden 3 logra el mejor equilibrio; órdenes superiores aumentan complejidad sin beneficio
- Tamaño 4: MPJPE=47.40mm, PA-MPJPE=38.91mm
- Tamaño 5: MPJPE=46.77mm, PA-MPJPE=38.36mm (óptimo)
- Tamaño 6: MPJPE=47.98mm, PA-MPJPE=39.11mm
Conclusión: Tamaño de malla 5 proporciona capacidad de aproximación de función suficiente
Rango de prueba: s ∈ {0.1, 0.2, 0.3, 0.5, 0.7, 0.9}
- Valor Óptimo: s=0.2
- Valores de s más pequeños enfatizan información local, considerando moderadamente nodos distantes
- Valores de s demasiado grandes o pequeños resultan en degradación de rendimiento
- 224: MPJPE=47.38mm
- 240: MPJPE=46.77mm (óptimo)
- 256: MPJPE=47.29mm
Conclusión: 240 dimensiones proporciona capacidad expresiva suficiente sin sobreajuste
Visualización Cualitativa (Figura 2) muestra predicciones de PoseKAN en varias categorías de acciones:
- Las poses 3D predichas están altamente alineadas con valores verdaderos
- Rendimiento superior en escenarios de auto-oclusión (como brazos cruzados, posición sentada)
- GraphMLP ocasionalmente produce posiciones de articulaciones no naturales, mientras PoseKAN mantiene consistencia de estructura esquelética
- Colocación precisa de articulaciones y validación natural de articulaciones confirman la capacidad del modelo para mitigar ambigüedad de profundidad
- Ventaja Clara de Funciones Aprendibles: Comparado con funciones de activación fijas, las funciones aprendibles en bordes proporcionan adaptabilidad significativamente mejorada
- Agregación de Múltiples Saltos Crítica: Mejora significativamente el manejo de oclusión y poses complejas
- Alta Eficiencia de Parámetros: PoseKAN con solo 5.72M parámetros, muy por debajo de los 9.49M de GraphMLP
- Fuerte Capacidad de Generalización Entre Conjuntos de Datos: El rendimiento en MPI-INF-3DHP demuestra buena generalización
- Sensibilidad a Detalles de Alta Frecuencia: Ventaja evidente en acciones que requieren detalles de movimiento rápido (como Greeting)
- Regresión directa de coordenadas 3D de articulaciones desde imagen
- Representantes: Integral Human Pose Regression, Compositional Human Pose Regression
- Limitaciones: Susceptibles a oclusión, precisión más baja
- Primera Etapa: Detección de posiciones de articulaciones 2D
- Segunda Etapa: Elevación al espacio 3D
- Representantes: SimpleBaseline, LCN
- Ventajas: Diseño modular, selección del mejor detector 2D, mayor robustez
- Este artículo pertenece a esta categoría
- SemGCN: Primera aplicación de GCN a estimación de pose 3D
- Limitación: Agregación de vecinos de un salto, campo receptivo local
- High-order GCN: Extensión a vecindarios de múltiples saltos
- Modulated GCN: Modulación de matriz de adyacencia, aprendizaje de bordes adicionales
- GroupGCN: Convolución en grafos agrupada
- MM-GCN: GCN modulado de múltiples saltos, fusión de información de múltiples saltos
- GraphMLP: Combinación de MLP y GCN, aprovechando interacciones de esqueleto global y local
- Limitación: Aún usa funciones de activación fijas, presenta sesgo espectral
- Fundamento Teórico: Teorema de Representación de Kolmogorov-Arnold (cualquier función multivariada continua puede expresarse como composición finita de funciones univariadas)
- Red KAN: Reemplaza funciones de activación fijas con funciones univariadas aprendibles, mejorando interpretabilidad y adaptabilidad
- KAGNN: Extensión reciente de KAN a aprendizaje en grafos (clasificación de nodos/grafos, predicción de enlaces)
- Innovación de Este Artículo: Primera aplicación de KAN a tarea de elevación 2D-a-3D en estimación de pose
- vs GCN Estándar: Funciones aprendibles vs activación fija, agregación de múltiples saltos vs un salto
- vs GCN de Orden Superior: Transformación de función adaptativa vs convolución de orden superior fija
- vs GraphMLP: Mitigación de sesgo espectral, capacidad expresiva más fuerte
- vs KAGNN: Diseño especializado para estimación de pose, introducción de filtro de modulación espectral
- Efectividad del Método: PoseKAN alcanza o supera métodos más avanzados en conjuntos de datos Human3.6M y MPI-INF-3DHP
- Ventajas Principales:
- Funciones aprendibles proporcionan adaptabilidad y capacidad expresiva más fuertes
- Agregación de características de múltiples saltos captura efectivamente dependencias a largo plazo
- Mitigación de sesgo espectral, aprendizaje simultáneo de componentes de baja y alta frecuencia
- Practicidad: Alta eficiencia de parámetros (5.72M), costo computacional manejable, adecuado para aplicaciones prácticas
- Capacidad de Generalización: Evaluación entre conjuntos de datos con rendimiento superior demuestra buena generalización
- Desafío de Interpretabilidad: Aunque más interpretable que GCN, sigue siendo desafiante visualizar cómo cada función de activación aprendible se adapta entre diferentes partes del esqueleto
- Costo Computacional: Las activaciones aprendibles aumentan costo computacional por capa; funciones base spline requieren memoria adicional
- Consumo de Memoria: Mayor demanda de memoria durante entrenamiento en conjuntos de datos grandes y redes profundas
- Espacio de Optimización: Necesidad de mejora adicional en eficiencia computacional, interpretabilidad y robustez
- Restricción de Pose Única: Actualmente solo maneja pose de una persona, no extendido a escenarios multipersona
- Dependencia de Detección 2D: El rendimiento depende de la calidad del detector de pose 2D
- Estructura de Grafo Estática: Aunque aprende pesos de bordes, la topología está predefinida
- Sensibilidad a Hiperparámetros: Hiperparámetros como s, α requieren ajuste cuidadoso
- Estimación de Pose Multipersona: Extensión a escenarios multipersona, manejo de interacciones interpersonales
- Otras Tareas de Aprendizaje en Grafos: Reconocimiento de acciones, detección de anomalías, etc.
- Modelado Temporal: Incorporación de información temporal de secuencias de video
- Aprendizaje Extremo a Extremo: Optimización conjunta de detección 2D y elevación 3D
- Estructura de Grafo Adaptativa: Aprendizaje dinámico de topología de grafo en lugar de predefinida
- Diseño Ligero: Compresión de modelo para dispositivos con recursos limitados
- Innovación Teórica: Primera extensión de KAN a aprendizaje en grafos para estimación de pose 3D, con fundamento teórico sólido
- Innovación Técnica: Diseño ingenioso de filtro de modulación espectral, mecanismo de agregación de múltiples saltos efectivo
- Innovación Arquitectónica: Combinación razonable de bloques PoseKAN residuales y GRN
- Diversidad de Conjuntos de Datos: Human3.6M (interior) + MPI-INF-3DHP (interior/exterior)
- Comparación Exhaustiva: Comparación con 10+ métodos de vanguardia
- Ablación Detallada: IRC, orden de spline, tamaño de malla, factor de escala, dimensión de incrustación, etc.
- Análisis Cualitativo: Comparación visual de casos
- Rendimiento Líder: Alcanza SOTA o cercano a SOTA en múltiples métricas
- Buena Consistencia: Rendimiento estable entre conjuntos de datos y protocolos
- Significancia Estadística: Magnitud de reducción de error relativo notable (máximo 19.62%)
- Eficiencia de Parámetros: 5.72M parámetros superior a GraphMLP con 9.49M
- Estructura Clara: Lógica rigurosa, progresión de motivación a método a experimentos
- Rigor Matemático: Derivaciones de fórmulas completas, definición clara de símbolos
- Figuras Abundantes: Diagramas de arquitectura, tablas de comparación, gráficos de ablación
- Material Complementario: Apéndice detallado
- Costo Computacional: Aunque se afirma manejable, el cálculo de spline y aprendizaje de función ciertamente aumentan complejidad
- Requisito de Memoria: Complejidad de memoria O(2kGLF²) puede ser cuello de botella en aplicaciones a gran escala
- Restricción Multipersona: No maneja escenarios multipersona, limitando rango de aplicación práctica
- Búsqueda de Hiperparámetros: s=0.2 y α=0.03 determinados mediante búsqueda en malla, pero rango de búsqueda y proceso no reportados
- Prueba Estadística: Falta prueba de significancia (como t-test)
- Análisis de Casos Fallidos: No muestra casos típicos de fallo del modelo y análisis de causas
- Interpretabilidad: Aunque se afirma mayor interpretabilidad que GCN, falta visualización específica de función o análisis
- Análisis de Frecuencia: Se menciona mitigación de sesgo espectral, pero falta evidencia cuantitativa de análisis espectral
- Distribución de Error: No analiza patrones de distribución de error entre diferentes articulaciones y acciones
- Consistencia de Entrada: Usa mismo detector 2D, pero no reporta impacto de error de detector en resultados
- Detalles de Implementación: Métodos baseline pueden usar diferentes estrategias de entrenamiento, afectando comparación justa
- Contribución Teórica: Introducción de KAN a estimación de pose basada en grafos, abre nueva dirección
- Contribución de Método: Filtro de modulación espectral y mecanismo de agregación de múltiples saltos transferibles a otras tareas de grafos
- Contribución Empírica: Establece nuevo punto de referencia de rendimiento en conjuntos de datos estándar
- Mejora de Rendimiento: Mejora relativa de 2-19%, significativa para aplicaciones prácticas
- Eficiencia de Parámetros: 5.72M parámetros moderados, desplegables
- Limitaciones: Restricción de persona única y costo computacional limitan aplicaciones en tiempo real
- Código Abierto: Proporciona enlace GitHub, facilita reproducción y aplicación
- Detalles Suficientes: Hiperparámetros, estrategia de entrenamiento, configuración de red detallada
- Código Público: Compromiso de código abierto
- Datos Estándar: Usa conjuntos de datos públicos y protocolos estándar
- Barrera Potencial: Detalles de implementación de KAN (cálculo de spline) pueden tener barrera técnica
- Escenarios de Alta Precisión: Análisis deportivo, diagnóstico médico y otras aplicaciones con requisitos altos de precisión
- Escenarios con Oclusión Severa: Mecanismo de agregación de múltiples saltos muestra ventaja clara en oclusión
- Análisis de Acciones Complejas: Capacidad de captura de detalles de alta frecuencia adecuada para acciones rápidas complejas
- Procesamiento Offline: Escenarios sin requisitos de tiempo real pero necesitando alta precisión
- Aplicaciones en Tiempo Real: Costo computacional relativamente alto, no adecuado para procesamiento en tiempo real
- Escenarios Multipersona: Arquitectura actual no considera interacción multipersona
- Dispositivos con Recursos Limitados: Requisito de memoria grande, no adecuado para dispositivos móviles
- Despliegue a Gran Escala: Costo de entrenamiento e inferencia puede limitar despliegue a gran escala
- Secuencias de Video: Extensible a modelado temporal
- Otras Tareas de Grafos: Reconocimiento de acciones, reconstrucción de malla corporal, etc.
- Fusión Multimodal: Combinación de RGB, profundidad, datos IMU y otras fuentes
- Aprendizaje por Transferencia: Transferencia de modelo preentrenado a otras tareas de estimación de pose
- Liu et al., 2025 - KAN: Kolmogorov-Arnold networks (ICLR 2025) - Propuesta original de KAN
- Zhao et al., 2019 - SemGCN - Primera aplicación de GCN a estimación de pose 3D
- Zou & Tang, 2021 - Modulated GCN - Método de modulación de matriz de adyacencia
- Li et al., 2025 - GraphMLP - Uno de los baselines más fuertes
- Bresson et al., 2025 - KAGNNs - Aplicación de KAN a aprendizaje en grafos
- Ionescu et al., 2013 - Conjunto de datos Human3.6M - Conjunto de datos de evaluación estándar
- Martinez et al., 2017 - SimpleBaseline - Método clásico de elevación 2D-a-3D
- Innovación: 9/10
- Calidad Técnica: 8/10
- Suficiencia Experimental: 8/10
- Calidad de Escritura: 9/10
- Valor Práctico: 7/10
- Puntuación Integral: 8.2/10
Índice de Recomendación: ★★★★☆ (Lectura Fuertemente Recomendada, especialmente para investigadores interesados en redes neuronales en grafos y visión 3D)