Graph convolutional network (GCN)-based methods have shown strong performance in 3D human pose estimation by leveraging the natural graph structure of the human skeleton. However, their local receptive field limits their ability to capture long-range dependencies essential for handling occlusions and depth ambiguities. They also exhibit spectral bias, which prioritizes low-frequency components while struggling to model high-frequency details. In this paper, we introduce PoseKAN, an adaptive graph Kolmogorov-Arnold Network (KAN), framework that extends KANs to graph-based learning for 2D-to-3D pose lifting from a single image. Unlike GCNs that use fixed activation functions, KANs employ learnable functions on graph edges, allowing data-driven, adaptive feature transformations. This enhances the model's adaptability and expressiveness, making it more expressive in learning complex pose variations. Our model employs multi-hop feature aggregation, ensuring the body joints can leverage information from both local and distant neighbors, leading to improved spatial awareness. It also incorporates residual PoseKAN blocks for deeper feature refinement, and a global response normalization for improved feature selectivity and contrast. Extensive experiments on benchmark datasets demonstrate the competitive performance of our model against state-of-the-art methods.
- ID статьи: 2511.08809
- Название: Adaptive Graph Kolmogorov-Arnold Network for 3D Human Pose Estimation
- Авторы: Abu Taib Mohammed Shahjahan и A. Ben Hamza (Университет Конкордия, Монреаль, Канада)
- Категория: cs.CV (Компьютерное зрение)
- Дата публикации: Отправлено на arXiv 11 ноября 2025 года
- Ссылка на статью: https://arxiv.org/abs/2511.08809
- Ссылка на код: https://github.com/shahjahan0275/PoseKAN
В данной работе предлагается PoseKAN — адаптивная графовая сеть Колмогорова-Арнольда для задачи оценки 3D позы человека. Метод решает три основных ограничения традиционных графовых сверточных сетей (GCN): ограничение локального рецептивного поля, спектральное смещение (spectral bias) и недостаточная выразительная способность фиксированных функций активации. PoseKAN использует обучаемые функциональные преобразования на рёбрах графа вместо фиксированных функций активации в сочетании с механизмом многошаговой агрегации признаков, что позволяет эффективно моделировать локальные и дальние зависимости между суставами. Экспериментальные результаты на эталонных наборах данных Human3.6M и MPI-INF-3DHP демонстрируют производительность, сравнимую с современными методами.
Оценка 3D позы человека направлена на определение 3D координат суставов тела из 2D изображений или видео, что имеет решающее значение для понимания движений человека, но является чрезвычайно сложной задачей из-за неотъемлемой неоднозначности глубины и проблем окклюзии входных данных.
- Широкое применение: взаимодействие человека и компьютера, распознавание действий, анализ спорта, медицинская реабилитация и другие области
- Технические вызовы: отсутствие информации о глубине в монокулярных изображениях, самоокклюзия, сложные изменения позы
Три основных ограничения методов GCN:
- Ограничение локального рецептивного поля: в основном полагаются на агрегацию соседей на расстоянии одного шага, что затрудняет захват долгосрочных зависимостей между удалёнными суставами
- Проблема спектрального смещения: из-за использования MLP в качестве основного компонента склонны изучать низкочастотные компоненты и испытывают трудности с захватом высокочастотных деталей (таких как быстрые движения и тонкие взаимодействия суставов)
- Недостаточная выразительная способность: использование предопределённых фиксированных функций активации и обучаемых матриц весов, отсутствие динамической адаптивности и интерпретируемости
Вдохновлённые теоремой представления Колмогорова-Арнольда, сети KAN заменяют фиксированные функции активации обучаемыми одномерными функциями, обеспечивая более сильную способность аппроксимации функций и интерпретируемость. В данной работе KAN расширяется на область графового обучения, специально для задачи повышения размерности 2D-в-3D при оценке 3D позы человека.
- Предложение фреймворка PoseKAN: впервые расширяет сети Колмогорова-Арнольда на графовые структурированные данные для оценки 3D позы человека, повышая адаптивность и обобщающую способность модели благодаря обучаемым функциональным преобразованиям
- Разработка механизма многошаговой передачи признаков: введение масштабирующего параметра s для управления балансом между локальной и глобальной агрегацией признаков, матрица передачи P = (1-s) + s² одновременно учитывает соседей на расстоянии одного и двух шагов, повышая робастность к окклюзии и неоднозначности глубины
- Инновационный дизайн архитектуры:
- Остаточные блоки PoseKAN для глубокого уточнения признаков
- Глобальная нормализация отклика (GRN) для повышения селективности признаков и контраста
- Комбинация с нелинейностью GELU для повышения выразительной способности
- Комплексная экспериментальная проверка: проведены подробные сравнительные эксперименты и исследования абляции на наборах данных Human3.6M и MPI-INF-3DHP, подтверждающие эффективность метода
Дан обучающий набор D = {(xᵢ, yᵢ)}ᴺᵢ₌₁, где:
- Вход: xᵢ ∈ ℝ² — 2D позиции суставов (предоставляются готовым детектором 2D позы)
- Выход: yᵢ ∈ ℝ³ — соответствующие истинные 3D позиции суставов
- Цель: изучить параметры ω регрессионной модели fω: X → Y
Скелет человека представляется как граф G = (V, E, X):
- V = {1,...,J} — J узлов (суставов)
- E ⊆ V × V — множество рёбер
- X ∈ ℝᴶˣᶠ — матрица признаков узлов
- A — матрица смежности, Â = D⁻¹/²AD⁻¹/² — нормализованная матрица смежности
Ядро слоя KAN — обучаемая функция активации, определяемая как:
ϕ(x) = wᵦb(x) + wₛspline(x)
где:
- b(x) = SiLU(x) = x/(1+e⁻ˣ) — сигмоидная линейная единица
- spline(x) = Σᵢ cᵢBᵢ(x) — взвешенная сумма базисных функций B-сплайна
- wᵦ, wₛ, cᵢ — обучаемые параметры
Предложенный инновационный фильтр спектральной модуляции:
hₛ(λ) = 1/((1+s)λ - sλ²)
где s ∈ (0,1) — масштабирующий параметр, управляющий поведением затухания фильтра для различных частотных компонент. Фильтр обладает адаптивными низкочастотными свойствами.
Решение через итерацию неподвижной точки:
H⁽ᵗ⁺¹⁾ = ((1-s)I + sÂ)ÂH⁽ᵗ⁾ + X
Основная формула послойного обновления:
H⁽ˡ⁺¹⁾ = KAN⁽ˡ⁾(((1-s) + s²)H⁽ˡ⁾ + X)
Может быть разложена на две операции:
Передача признаков:
G⁽ˡ⁾ = PH⁽ˡ⁾ + X
где P = (1-s) + s² — матрица передачи, балансирующая информацию соседей на расстояниях одного и двух шагов
Встраивание признаков:
H⁽ˡ⁺¹⁾ = KAN⁽ˡ⁾(G⁽ˡ⁾)
Каждому рёбру графа соответствует обучаемая одномерная функция
- Начальный слой PoseKAN: отображает 2D вход в скрытое пространство
- 4 остаточных блока PoseKAN: каждый блок содержит
- 5 слоёв PoseKAN для иерархического изучения признаков
- Нормализацию слоя для стабилизации обучения
- Дополнительный слой PoseKAN + нелинейность GELU
- Остаточные соединения для предотвращения исчезновения градиентов
- Глобальная нормализация отклика (GRN): калибровка амплитуды признаков перед предсказанием
- Завершающий слой PoseKAN: проекция обратно в пространство 3D позы
Гибридная функция потерь (вдохновлённая эластичной сетью):
L = 1/N(1-α)Σᵢ||yᵢ - ŷᵢ||₂² + αΣᵢ||yᵢ - ŷᵢ||₁
где α ∈ 0,1 управляет весовым балансом между MSE и MAE
- GCN: использует фиксированные функции активации (например, ReLU) и обучаемые матрицы весов, по сути являясь линейным отображением на уровне узлов
- PoseKAN: использует обучаемые одномерные функции на рёбрах, обеспечивая управляемые данными адаптивные функциональные преобразования с большей выразительной способностью
Через матрицу передачи P = (1-s) + s²:
- Явно объединяет информацию соседей на расстояниях одного и двух шагов
- Параметр s регулируется для балансирования локальной и глобальной информации
- Избегает явного вычисления ² (использует стратегию умножения справа налево)
Функциональное базовое преобразование KAN способно одновременно захватывать низкочастотные и высокочастотные компоненты:
- Низкие частоты: плавные, постепенные изменения позиций суставов (например, Walking, Eating)
- Высокие частоты: быстрые, резкие движения (например, внезапные действия в Greeting)
- Временная сложность: O(L||Â||₀F + LGF²)
- Первый член: передача признаков (зависит от количества рёбер графа)
- Второй член: преобразование KAN (G — размер сетки)
- Пространственная сложность: O(LJF + 2kGLF²)
- 2k происходит из рекурсивного вычисления k-го порядка сплайна
Поскольку k и G обычно небольшие, дополнительные затраты управляемы
- Масштаб: 11 актёров (6 мужчин, 5 женщин), 15 видов помещений деятельности
- Сбор: 50 Гц, 4 синхронизированные камеры
- Аннотация: точные 3D координаты суставов получены через захват движения
- Разделение:
- Обучающий набор: 5 актёров (S1, S5, S6, S7, S8)
- Тестовый набор: 2 актёра (S9, S11)
- Предварительная обработка: нормализация, центрирование относительно тазобедренного сустава как корневого узла
- Масштаб: 8 актёров (4 мужчины, 4 женщины), 8 последовательностей деятельности
- Сбор: 14 различных углов, сцены в помещении и на открытом воздухе
- Особенности: более разнообразный, чем Human3.6M, включает базовые движения и динамичные высокоинтенсивные действия
- Протокол #1: MPJPE (Mean Per-Joint Position Error) — средняя ошибка позиции на сустав (миллиметры)
- Протокол #2: PA-MPJPE (Procrustes-Aligned MPJPE) — ошибка после выравнивания Прокруста
- PCK (Percentage of Correct Keypoint): процент правильных ключевых точек
- AUC (Area Under Curve): площадь под кривой
- Семейство GCN: SemGCN, High-order GCN, CompGCN, Modulated GCN, Group GCN, MM-GCN, Flex-GCN
- Гибридные методы: GraphMLP (комбинирующий MLP и GCN)
- Другие: HOIF-Net, PoseGraphNet, WSGN и т.д.
- Оборудование: одна видеокарта NVIDIA RTX A4500 GPU (20 ГБ)
- Фреймворк: PyTorch
- Оптимизатор: AMSGrad
- Количество эпох обучения: 30
- Скорость обучения: начальная 0.001, затухание 0.99 каждые 4 эпохи
- Размер пакета: 64
- Размер встраивания: F = 240
- Ключевые гиперпараметры: s = 0.2, α = 0.03 (определены через поиск по сетке)
- Регуляризация: dropout=0.2 после каждого слоя PoseKAN
- Настройки сплайна: порядок=3, размер сетки=5
Общая производительность:
- PoseKAN: 46.7 мм (оптимально)
- GraphMLP: 48.0 мм (второе место)
- Modulated GCN: 49.4 мм
- Относительное снижение ошибки:
- vs GraphMLP: 2.7%
- vs Modulated GCN: 5.47%
- vs High-order GCN: 15.99%
Производительность на ключевых действиях (вызовы окклюзии):
- Eating: 44.4 мм (значительно превосходит другие методы)
- Sitting: 54.6 мм
- Smoking: 46.1 мм
- В 14 из 15 действий превосходит Modulated GCN
Общая производительность:
- PoseKAN: 38.3 мм (оптимально)
- GraphMLP: 38.4 мм (относительное снижение ошибки 0.26%)
- Modulated GCN: 39.1 мм (относительное снижение ошибки 2.04%)
- High-order GCN: 43.7 мм (относительное снижение ошибки 12.35%)
Действия с преимуществом:
- В 11 из 15 действий превосходит GraphMLP
- В 13 из 15 действий превосходит Modulated GCN
- Особенно выделяется в сценах с серьёзной окклюзией: Greeting, Sitting, Smoking
Обучение на Human3.6M, тестирование на MPI-INF-3DHP:
- PCK: 86.0% (максимум)
- AUC: 52.9% (второе место, только после ICFNet с 54.3%)
- Относительное улучшение PCK vs ICFNet: 0.5%
- MPJPE: 33.51 мм
- Относительное снижение ошибки:
- vs SemGCN: 19.62%
- vs High-order GCN: 14.29%
- vs GraphMLP: 2.01%
- PA-MPJPE: 28.01 мм (оптимально)
| Конфигурация | MPJPE | PA-MPJPE |
|---|
| Без IRC | 34.44 мм | 28.79 мм |
| С IRC | 33.51 мм | 28.01 мм |
| Улучшение | 1.65% | 1.49% |
Вывод: IRC стабилизирует обучение путём сохранения начальных признаков, предотвращая потерю информации
- Порядок 2: MPJPE=47.43 мм, PA-MPJPE=38.86 мм
- Порядок 3: MPJPE=46.77 мм, PA-MPJPE=38.36 мм (оптимально)
- Порядок 4: MPJPE=47.10 мм, PA-MPJPE=38.59 мм
Вывод: Порядок 3 достигает оптимального баланса, более высокие порядки увеличивают сложность без пользы
- Размер 4: MPJPE=47.40 мм, PA-MPJPE=38.91 мм
- Размер 5: MPJPE=46.77 мм, PA-MPJPE=38.36 мм (оптимально)
- Размер 6: MPJPE=47.98 мм, PA-MPJPE=39.11 мм
Вывод: Размер сетки 5 обеспечивает достаточную способность аппроксимации функций
Тестирование диапазона: s ∈ {0.1, 0.2, 0.3, 0.5, 0.7, 0.9}
- Оптимальное значение: s=0.2
- Меньшие значения s больше подчёркивают локальную информацию, одновременно умеренно учитывая удалённые узлы
- Слишком большие или слишком малые значения s приводят к снижению производительности
- 224: MPJPE=47.38 мм
- 240: MPJPE=46.77 мм (оптимально)
- 256: MPJPE=47.29 мм
Вывод: 240 измерений обеспечивают достаточную выразительную способность без переобучения
Качественная визуализация (рисунок 2) демонстрирует предсказания PoseKAN на различных категориях действий:
- Предсказанные 3D позы высоко согласуются с истинными значениями
- В сценах с самоокклюзией (например, скрещённые руки, сидячее положение) превосходит GraphMLP
- GraphMLP иногда производит неестественные позиции суставов, тогда как PoseKAN сохраняет согласованность скелетной структуры
- Точное размещение суставов и естественные углы суставов подтверждают способность модели смягчать неоднозначность глубины
- Явное преимущество обучаемых функций: по сравнению с фиксированными функциями активации, обучаемые функции на рёбрах обеспечивают значительно большую адаптивность
- Многошаговая агрегация критична: значительно улучшает обработку окклюзии и сложных поз
- Высокая параметрическая эффективность: PoseKAN содержит только 5.72M параметров, значительно меньше, чем GraphMLP с 9.49M
- Сильная способность кросс-датасетного обобщения: производительность на MPI-INF-3DHP подтверждает хорошее обобщение
- Чувствительность к высокочастотным деталям: явное преимущество в действиях, требующих быстрых деталей движения (например, Greeting)
- Прямая регрессия 3D координат суставов из изображения
- Представители: Integral Human Pose Regression, Compositional Human Pose Regression
- Ограничения: подвержены окклюзии, более низкая точность
- Первый этап: обнаружение 2D позиций суставов
- Второй этап: повышение размерности в 3D пространство
- Представители: SimpleBaseline, LCN
- Преимущества: модульный дизайн, возможность выбора лучшего 2D детектора, большая робастность
- Данная работа принадлежит этому классу
- SemGCN: первое применение GCN к оценке 3D позы
- Ограничения: агрегация соседей на расстоянии одного шага, локальное рецептивное поле
- High-order GCN: расширение на многошаговые окрестности
- Modulated GCN: модуляция матрицы смежности, изучение дополнительных рёбер
- GroupGCN: групповая графовая свёртка
- MM-GCN: многошаговая модулированная GCN, объединение информации многошаговых окрестностей
- GraphMLP: комбинирование MLP и GCN, использование глобальных и локальных взаимодействий скелета
- Ограничения: всё ещё использует фиксированные функции активации, страдает от спектрального смещения
- Теоретическая основа: теорема представления Колмогорова-Арнольда (любая непрерывная многомерная функция может быть представлена как конечная комбинация одномерных функций)
- Сеть KAN: замена фиксированных функций активации обучаемыми одномерными функциями, повышение интерпретируемости и адаптивности
- KAGNN: недавнее расширение KAN на графовое обучение (классификация узлов/графов, предсказание связей)
- Данная работа: впервые применяет KAN к задаче повышения размерности 2D-в-3D при оценке 3D позы
- vs стандартные GCN: обучаемые функции vs фиксированные активации, многошаговая агрегация vs одношаговая
- vs высокого порядка GCN: адаптивные функциональные преобразования vs фиксированные высокого порядка свёртки
- vs GraphMLP: смягчение спектрального смещения, более сильная выразительная способность
- vs KAGNN: специализированный дизайн для оценки позы, введение фильтра спектральной модуляции
- Эффективность метода: PoseKAN достигает или превосходит современные методы на наборах данных Human3.6M и MPI-INF-3DHP
- Основные преимущества:
- Обучаемые функции обеспечивают большую адаптивность и выразительную способность
- Многошаговая агрегация признаков эффективно захватывает долгосрочные зависимости
- Смягчение спектрального смещения, одновременное изучение низкочастотных и высокочастотных компонент
- Практичность: высокая параметрическая эффективность (5.72M), управляемые вычислительные затраты, пригодна для практического применения
- Способность обобщения: отличная производительность при кросс-датасетной оценке, подтверждающая хорошее обобщение
- Вызовы интерпретируемости: хотя и более интерпретируема, чем GCN, визуализация того, как каждая обучаемая функция активации адаптируется к различным частям скелета, остаётся сложной
- Вычислительные затраты: обучаемые активации увеличивают вычислительные затраты на слой, базисные функции сплайна требуют дополнительной памяти
- Потребление памяти: при обучении на больших наборах данных и глубоких сетях требования к памяти значительны
- Пространство оптимизации: необходимо дальнейшее улучшение вычислительной эффективности, интерпретируемости и робастности
- Ограничение одного человека: текущий метод обрабатывает только одного человека, не расширяется на многолюдные сцены
- Зависимость от 2D обнаружения: производительность зависит от качества детектора 2D позы
- Статическая структура графа: хотя изучаются веса рёбер, топология предопределена
- Чувствительность гиперпараметров: гиперпараметры s, α и т.д. требуют тщательной настройки
- Оценка позы нескольких людей: расширение на многолюдные сцены с обработкой межличностных взаимодействий
- Другие задачи графового обучения: распознавание действий, обнаружение аномалий и т.д.
- Временное моделирование: интеграция временной информации видеопоследовательностей
- Сквозное обучение: совместная оптимизация 2D обнаружения и 3D повышения размерности
- Адаптивная структура графа: динамическое изучение топологии графа вместо предопределённой
- Облегчённый дизайн: сжатие модели для мобильных устройств
- Теоретическая инновация: впервые расширяет KAN на графовое обучение для оценки 3D позы, прочная теоретическая основа
- Техническая инновация: искусный дизайн фильтра спектральной модуляции, эффективный механизм многошаговой агрегации
- Архитектурная инновация: разумная комбинация остаточных блоков PoseKAN и GRN
- Разнообразие наборов данных: Human3.6M (в помещении) + MPI-INF-3DHP (в помещении и на открытом воздухе)
- Полное сравнение: сравнение с 10+ современными методами
- Подробная абляция: IRC, порядок сплайна, размер сетки, масштабирующий фактор, размер встраивания и т.д.
- Качественный анализ: визуальное сравнение примеров
- Лидирующая производительность: достигает SOTA или близко к SOTA по нескольким метрикам
- Хорошая согласованность: стабильная производительность на разных наборах данных и протоколах
- Статистическая значимость: значительное относительное снижение ошибки (максимум 19.62%)
- Параметрическая эффективность: 5.72M параметров лучше, чем GraphMLP с 9.49M
- Чёткая структура: логичное развитие от мотивации к методу к экспериментам
- Математическая строгость: полные выводы формул, чёткие определения символов
- Богатые иллюстрации: диаграммы архитектуры, таблицы сравнения, графики абляции
- Дополнительные материалы: подробные приложения
- Вычислительные затраты: хотя авторы утверждают управляемость, вычисление сплайнов и изучение функций действительно увеличивают сложность
- Требования к памяти: пространственная сложность O(2kGLF²) может стать узким местом при крупномасштабных приложениях
- Ограничение одного человека: неспособность обрабатывать многолюдные сцены ограничивает практическое применение
- Поиск гиперпараметров: s=0.2 и α=0.03 определены через поиск по сетке, но диапазон поиска и процесс не сообщены
- Статистические тесты: отсутствуют тесты значимости (например, t-тест)
- Анализ отказов: не показаны типичные случаи отказа модели и анализ причин
- Интерпретируемость: хотя утверждается большая интерпретируемость, чем GCN, отсутствует конкретная визуализация или анализ функций
- Частотный анализ: упоминается смягчение спектрального смещения, но отсутствуют количественные доказательства спектрального анализа
- Распределение ошибок: не проанализировано распределение ошибок по различным суставам и действиям
- Согласованность входа: использование одного и того же 2D детектора, но влияние ошибок обнаружения на результаты не сообщено
- Детали реализации: методы baseline могут использовать различные стратегии обучения, влияющие на справедливость сравнения
- Теоретический вклад: введение KAN в графовое обучение для оценки позы открывает новое направление
- Методологический вклад: фильтр спектральной модуляции и механизм многошаговой агрегации переносимы на другие графовые задачи
- Эмпирический вклад: установление новых эталонов производительности на стандартных наборах данных
- Улучшение производительности: относительное улучшение на 2-19% имеет значение для практических приложений
- Параметрическая эффективность: 5.72M параметров умеренны, пригодны для развёртывания
- Ограничения: ограничение одного человека и вычислительные затраты ограничивают приложения в реальном времени
- Открытый исходный код: предоставлена ссылка на GitHub, способствует воспроизведению и применению
- Полные детали: гиперпараметры, стратегии обучения, конфигурация сети подробны
- Открытый код: обещано открытие исходного кода
- Стандартные данные: использование общедоступных наборов данных и стандартных протоколов
- Потенциальные проблемы: детали реализации KAN (вычисление сплайнов) могут иметь технические барьеры
- Сценарии высокой точности: спортивный анализ, медицинская диагностика и другие приложения с высокими требованиями к точности
- Сценарии с серьёзной окклюзией: механизм многошаговой агрегации показывает преимущества в условиях окклюзии
- Анализ сложных действий: способность захватывать высокочастотные детали подходит для быстрых сложных действий
- Автономная обработка: для сценариев без требований к реальному времени, но требующих высокой точности
- Приложения в реальном времени: относительно высокие вычислительные затраты, непригодны для обработки в реальном времени
- Многолюдные сцены: текущая архитектура не учитывает межличностные взаимодействия
- Устройства с ограниченными ресурсами: большие требования к памяти, непригодны для мобильных устройств
- Крупномасштабное развёртывание: затраты на обучение и вывод могут ограничить крупномасштабное применение
- Видеопоследовательности: расширение на временное моделирование
- Другие графовые задачи: распознавание действий, восстановление человеческой сетки и т.д.
- Многомодальное слияние: интеграция RGB, глубины, IMU и других многоисточниковых данных
- Трансферное обучение: передача предварительно обученной модели на другие задачи оценки позы
- Liu et al., 2025 - KAN: Kolmogorov-Arnold networks (ICLR 2025) - исходное предложение KAN
- Zhao et al., 2019 - SemGCN - первое применение GCN к оценке 3D позы
- Zou & Tang, 2021 - Modulated GCN - метод модуляции матрицы смежности
- Li et al., 2025 - GraphMLP - один из сильнейших baseline
- Bresson et al., 2025 - KAGNNs - применение KAN к графовому обучению
- Ionescu et al., 2013 - Набор данных Human3.6M - стандартный набор для оценки
- Martinez et al., 2017 - SimpleBaseline - классический метод повышения размерности 2D-в-3D
- Инновационность: 9/10
- Техническое качество: 8/10
- Полнота экспериментов: 8/10
- Качество написания: 9/10
- Практическая ценность: 7/10
- Комплексная оценка: 8.2/10
Индекс рекомендации: ★★★★☆ (Настоятельно рекомендуется к прочтению, особенно для исследователей, интересующихся графовыми нейронными сетями и 3D компьютерным зрением)