2025-11-17T17:34:12.559157

Adaptive graph Kolmogorov-Arnold network for 3D human pose estimation

Shahjahan, Hamza

Graph convolutional network (GCN)-based methods have shown strong performance in 3D human pose estimation by leveraging the natural graph structure of the human skeleton. However, their local receptive field limits their ability to capture long-range dependencies essential for handling occlusions and depth ambiguities. They also exhibit spectral bias, which prioritizes low-frequency components while struggling to model high-frequency details. In this paper, we introduce PoseKAN, an adaptive graph Kolmogorov-Arnold Network (KAN), framework that extends KANs to graph-based learning for 2D-to-3D pose lifting from a single image. Unlike GCNs that use fixed activation functions, KANs employ learnable functions on graph edges, allowing data-driven, adaptive feature transformations. This enhances the model's adaptability and expressiveness, making it more expressive in learning complex pose variations. Our model employs multi-hop feature aggregation, ensuring the body joints can leverage information from both local and distant neighbors, leading to improved spatial awareness. It also incorporates residual PoseKAN blocks for deeper feature refinement, and a global response normalization for improved feature selectivity and contrast. Extensive experiments on benchmark datasets demonstrate the competitive performance of our model against state-of-the-art methods.

academic

Адаптивная графовая сеть Колмогорова-Арнольда для оценки 3D позы человека

Основная информация

ID статьи: 2511.08809
Название: Adaptive Graph Kolmogorov-Arnold Network for 3D Human Pose Estimation
Авторы: Abu Taib Mohammed Shahjahan и A. Ben Hamza (Университет Конкордия, Монреаль, Канада)
Категория: cs.CV (Компьютерное зрение)
Дата публикации: Отправлено на arXiv 11 ноября 2025 года
Ссылка на статью: https://arxiv.org/abs/2511.08809
Ссылка на код: https://github.com/shahjahan0275/PoseKAN

Аннотация

В данной работе предлагается PoseKAN — адаптивная графовая сеть Колмогорова-Арнольда для задачи оценки 3D позы человека. Метод решает три основных ограничения традиционных графовых сверточных сетей (GCN): ограничение локального рецептивного поля, спектральное смещение (spectral bias) и недостаточная выразительная способность фиксированных функций активации. PoseKAN использует обучаемые функциональные преобразования на рёбрах графа вместо фиксированных функций активации в сочетании с механизмом многошаговой агрегации признаков, что позволяет эффективно моделировать локальные и дальние зависимости между суставами. Экспериментальные результаты на эталонных наборах данных Human3.6M и MPI-INF-3DHP демонстрируют производительность, сравнимую с современными методами.

Исследовательский контекст и мотивация

1. Основная проблема

Оценка 3D позы человека направлена на определение 3D координат суставов тела из 2D изображений или видео, что имеет решающее значение для понимания движений человека, но является чрезвычайно сложной задачей из-за неотъемлемой неоднозначности глубины и проблем окклюзии входных данных.

2. Важность проблемы

Широкое применение: взаимодействие человека и компьютера, распознавание действий, анализ спорта, медицинская реабилитация и другие области
Технические вызовы: отсутствие информации о глубине в монокулярных изображениях, самоокклюзия, сложные изменения позы

3. Ограничения существующих методов

Три основных ограничения методов GCN:

Ограничение локального рецептивного поля: в основном полагаются на агрегацию соседей на расстоянии одного шага, что затрудняет захват долгосрочных зависимостей между удалёнными суставами
Проблема спектрального смещения: из-за использования MLP в качестве основного компонента склонны изучать низкочастотные компоненты и испытывают трудности с захватом высокочастотных деталей (таких как быстрые движения и тонкие взаимодействия суставов)
Недостаточная выразительная способность: использование предопределённых фиксированных функций активации и обучаемых матриц весов, отсутствие динамической адаптивности и интерпретируемости

4. Исследовательская мотивация

Вдохновлённые теоремой представления Колмогорова-Арнольда, сети KAN заменяют фиксированные функции активации обучаемыми одномерными функциями, обеспечивая более сильную способность аппроксимации функций и интерпретируемость. В данной работе KAN расширяется на область графового обучения, специально для задачи повышения размерности 2D-в-3D при оценке 3D позы человека.

Основные вклады

Предложение фреймворка PoseKAN: впервые расширяет сети Колмогорова-Арнольда на графовые структурированные данные для оценки 3D позы человека, повышая адаптивность и обобщающую способность модели благодаря обучаемым функциональным преобразованиям
Разработка механизма многошаговой передачи признаков: введение масштабирующего параметра s для управления балансом между локальной и глобальной агрегацией признаков, матрица передачи P = (1-s)Â + sÂ² одновременно учитывает соседей на расстоянии одного и двух шагов, повышая робастность к окклюзии и неоднозначности глубины
Инновационный дизайн архитектуры:
- Остаточные блоки PoseKAN для глубокого уточнения признаков
- Глобальная нормализация отклика (GRN) для повышения селективности признаков и контраста
- Комбинация с нелинейностью GELU для повышения выразительной способности
Комплексная экспериментальная проверка: проведены подробные сравнительные эксперименты и исследования абляции на наборах данных Human3.6M и MPI-INF-3DHP, подтверждающие эффективность метода

Подробное описание метода

Определение задачи

Дан обучающий набор D = {(xᵢ, yᵢ)}ᴺᵢ₌₁, где:

Вход: xᵢ ∈ ℝ² — 2D позиции суставов (предоставляются готовым детектором 2D позы)
Выход: yᵢ ∈ ℝ³ — соответствующие истинные 3D позиции суставов
Цель: изучить параметры ω регрессионной модели fω: X → Y

Скелет человека представляется как граф G = (V, E, X):

V = {1,...,J} — J узлов (суставов)
E ⊆ V × V — множество рёбер
X ∈ ℝᴶˣᶠ — матрица признаков узлов
A — матрица смежности, Â = D⁻¹/²AD⁻¹/² — нормализованная матрица смежности

Архитектура модели

1. Основы сети Колмогорова-Арнольда

Ядро слоя KAN — обучаемая функция активации, определяемая как:

ϕ(x) = wᵦb(x) + wₛspline(x)

где:

b(x) = SiLU(x) = x/(1+e⁻ˣ) — сигмоидная линейная единица
spline(x) = Σᵢ cᵢBᵢ(x) — взвешенная сумма базисных функций B-сплайна
wᵦ, wₛ, cᵢ — обучаемые параметры

2. Фильтр спектральной модуляции

Предложенный инновационный фильтр спектральной модуляции:

hₛ(λ) = 1/((1+s)λ - sλ²)

где s ∈ (0,1) — масштабирующий параметр, управляющий поведением затухания фильтра для различных частотных компонент. Фильтр обладает адаптивными низкочастотными свойствами.

Решение через итерацию неподвижной точки: H⁽ᵗ⁺¹⁾ = ((1-s)I + sÂ)ÂH⁽ᵗ⁾ + X

3. Правило обновления слоя PoseKAN

Основная формула послойного обновления:

H⁽ˡ⁺¹⁾ = KAN⁽ˡ⁾(((1-s)Â + sÂ²)H⁽ˡ⁾ + X)

Может быть разложена на две операции:

Передача признаков: G⁽ˡ⁾ = PH⁽ˡ⁾ + X

где P = (1-s)Â + sÂ² — матрица передачи, балансирующая информацию соседей на расстояниях одного и двух шагов

Встраивание признаков: H⁽ˡ⁺¹⁾ = KAN⁽ˡ⁾(G⁽ˡ⁾)

Каждому рёбру графа соответствует обучаемая одномерная функция

4. Общая архитектура

Начальный слой PoseKAN: отображает 2D вход в скрытое пространство
4 остаточных блока PoseKAN: каждый блок содержит
- 5 слоёв PoseKAN для иерархического изучения признаков
- Нормализацию слоя для стабилизации обучения
- Дополнительный слой PoseKAN + нелинейность GELU
- Остаточные соединения для предотвращения исчезновения градиентов
Глобальная нормализация отклика (GRN): калибровка амплитуды признаков перед предсказанием
Завершающий слой PoseKAN: проекция обратно в пространство 3D позы

5. Функция потерь

Гибридная функция потерь (вдохновлённая эластичной сетью):

L = 1/N(1-α)Σᵢ||yᵢ - ŷᵢ||₂² + αΣᵢ||yᵢ - ŷᵢ||₁

где α ∈ 0,1 управляет весовым балансом между MSE и MAE

Технические инновации

1. Обучаемые функциональные преобразования vs фиксированные активации

GCN: использует фиксированные функции активации (например, ReLU) и обучаемые матрицы весов, по сути являясь линейным отображением на уровне узлов
PoseKAN: использует обучаемые одномерные функции на рёбрах, обеспечивая управляемые данными адаптивные функциональные преобразования с большей выразительной способностью

2. Моделирование многошаговых зависимостей

Через матрицу передачи P = (1-s)Â + sÂ²:

Явно объединяет информацию соседей на расстояниях одного и двух шагов
Параметр s регулируется для балансирования локальной и глобальной информации
Избегает явного вычисления Â² (использует стратегию умножения справа налево)

3. Смягчение спектрального смещения

Функциональное базовое преобразование KAN способно одновременно захватывать низкочастотные и высокочастотные компоненты:

Низкие частоты: плавные, постепенные изменения позиций суставов (например, Walking, Eating)
Высокие частоты: быстрые, резкие движения (например, внезапные действия в Greeting)

4. Анализ вычислительной сложности

Временная сложность: O(L||Â||₀F + LGF²)
- Первый член: передача признаков (зависит от количества рёбер графа)
- Второй член: преобразование KAN (G — размер сетки)
Пространственная сложность: O(LJF + 2kGLF²)
- 2k происходит из рекурсивного вычисления k-го порядка сплайна

Поскольку k и G обычно небольшие, дополнительные затраты управляемы

Экспериментальная установка

Наборы данных

1. Human3.6M

Масштаб: 11 актёров (6 мужчин, 5 женщин), 15 видов помещений деятельности
Сбор: 50 Гц, 4 синхронизированные камеры
Аннотация: точные 3D координаты суставов получены через захват движения
Разделение:
- Обучающий набор: 5 актёров (S1, S5, S6, S7, S8)
- Тестовый набор: 2 актёра (S9, S11)
Предварительная обработка: нормализация, центрирование относительно тазобедренного сустава как корневого узла

2. MPI-INF-3DHP

Масштаб: 8 актёров (4 мужчины, 4 женщины), 8 последовательностей деятельности
Сбор: 14 различных углов, сцены в помещении и на открытом воздухе
Особенности: более разнообразный, чем Human3.6M, включает базовые движения и динамичные высокоинтенсивные действия

Метрики оценки

Human3.6M

Протокол #1: MPJPE (Mean Per-Joint Position Error) — средняя ошибка позиции на сустав (миллиметры)
Протокол #2: PA-MPJPE (Procrustes-Aligned MPJPE) — ошибка после выравнивания Прокруста

MPI-INF-3DHP

PCK (Percentage of Correct Keypoint): процент правильных ключевых точек
AUC (Area Under Curve): площадь под кривой

Методы сравнения

Семейство GCN: SemGCN, High-order GCN, CompGCN, Modulated GCN, Group GCN, MM-GCN, Flex-GCN
Гибридные методы: GraphMLP (комбинирующий MLP и GCN)
Другие: HOIF-Net, PoseGraphNet, WSGN и т.д.

Детали реализации

Оборудование: одна видеокарта NVIDIA RTX A4500 GPU (20 ГБ)
Фреймворк: PyTorch
Оптимизатор: AMSGrad
Количество эпох обучения: 30
Скорость обучения: начальная 0.001, затухание 0.99 каждые 4 эпохи
Размер пакета: 64
Размер встраивания: F = 240
Ключевые гиперпараметры: s = 0.2, α = 0.03 (определены через поиск по сетке)
Регуляризация: dropout=0.2 после каждого слоя PoseKAN
Настройки сплайна: порядок=3, размер сетки=5

Экспериментальные результаты

Основные результаты

Human3.6M - Протокол #1 (MPJPE)

Общая производительность:

PoseKAN: 46.7 мм (оптимально)
GraphMLP: 48.0 мм (второе место)
Modulated GCN: 49.4 мм
Относительное снижение ошибки:
- vs GraphMLP: 2.7%
- vs Modulated GCN: 5.47%
- vs High-order GCN: 15.99%

Производительность на ключевых действиях (вызовы окклюзии):

Eating: 44.4 мм (значительно превосходит другие методы)
Sitting: 54.6 мм
Smoking: 46.1 мм
В 14 из 15 действий превосходит Modulated GCN

Human3.6M - Протокол #2 (PA-MPJPE)

Общая производительность:

PoseKAN: 38.3 мм (оптимально)
GraphMLP: 38.4 мм (относительное снижение ошибки 0.26%)
Modulated GCN: 39.1 мм (относительное снижение ошибки 2.04%)
High-order GCN: 43.7 мм (относительное снижение ошибки 12.35%)

Действия с преимуществом:

В 11 из 15 действий превосходит GraphMLP
В 13 из 15 действий превосходит Modulated GCN
Особенно выделяется в сценах с серьёзной окклюзией: Greeting, Sitting, Smoking

MPI-INF-3DHP (кросс-датасетное обобщение)

Обучение на Human3.6M, тестирование на MPI-INF-3DHP:

PCK: 86.0% (максимум)
AUC: 52.9% (второе место, только после ICFNet с 54.3%)
Относительное улучшение PCK vs ICFNet: 0.5%

Использование истинного 2D входа

MPJPE: 33.51 мм
Относительное снижение ошибки:
- vs SemGCN: 19.62%
- vs High-order GCN: 14.29%
- vs GraphMLP: 2.01%
PA-MPJPE: 28.01 мм (оптимально)

Исследования абляции

1. Влияние начальных остаточных соединений (IRC)

Конфигурация	MPJPE	PA-MPJPE
Без IRC	34.44 мм	28.79 мм
С IRC	33.51 мм	28.01 мм
Улучшение	1.65%	1.49%

Вывод: IRC стабилизирует обучение путём сохранения начальных признаков, предотвращая потерю информации

2. Влияние порядка сплайна

Порядок 2: MPJPE=47.43 мм, PA-MPJPE=38.86 мм
Порядок 3: MPJPE=46.77 мм, PA-MPJPE=38.36 мм (оптимально)
Порядок 4: MPJPE=47.10 мм, PA-MPJPE=38.59 мм

Вывод: Порядок 3 достигает оптимального баланса, более высокие порядки увеличивают сложность без пользы

3. Влияние размера сетки

Размер 4: MPJPE=47.40 мм, PA-MPJPE=38.91 мм
Размер 5: MPJPE=46.77 мм, PA-MPJPE=38.36 мм (оптимально)
Размер 6: MPJPE=47.98 мм, PA-MPJPE=39.11 мм

Вывод: Размер сетки 5 обеспечивает достаточную способность аппроксимации функций

4. Влияние масштабирующего фактора s

Тестирование диапазона: s ∈ {0.1, 0.2, 0.3, 0.5, 0.7, 0.9}

Оптимальное значение: s=0.2
Меньшие значения s больше подчёркивают локальную информацию, одновременно умеренно учитывая удалённые узлы
Слишком большие или слишком малые значения s приводят к снижению производительности

5. Влияние размера встраивания

224: MPJPE=47.38 мм
240: MPJPE=46.77 мм (оптимально)
256: MPJPE=47.29 мм

Вывод: 240 измерений обеспечивают достаточную выразительную способность без переобучения

Анализ случаев

Качественная визуализация (рисунок 2) демонстрирует предсказания PoseKAN на различных категориях действий:

Предсказанные 3D позы высоко согласуются с истинными значениями
В сценах с самоокклюзией (например, скрещённые руки, сидячее положение) превосходит GraphMLP
GraphMLP иногда производит неестественные позиции суставов, тогда как PoseKAN сохраняет согласованность скелетной структуры
Точное размещение суставов и естественные углы суставов подтверждают способность модели смягчать неоднозначность глубины

Экспериментальные находки

Явное преимущество обучаемых функций: по сравнению с фиксированными функциями активации, обучаемые функции на рёбрах обеспечивают значительно большую адаптивность
Многошаговая агрегация критична: значительно улучшает обработку окклюзии и сложных поз
Высокая параметрическая эффективность: PoseKAN содержит только 5.72M параметров, значительно меньше, чем GraphMLP с 9.49M
Сильная способность кросс-датасетного обобщения: производительность на MPI-INF-3DHP подтверждает хорошее обобщение
Чувствительность к высокочастотным деталям: явное преимущество в действиях, требующих быстрых деталей движения (например, Greeting)

Связанные работы

1. Классификация методов оценки 3D позы человека

Одноэтапные методы

Прямая регрессия 3D координат суставов из изображения
Представители: Integral Human Pose Regression, Compositional Human Pose Regression
Ограничения: подвержены окклюзии, более низкая точность

Двухэтапные методы (повышение размерности 2D-в-3D)

Первый этап: обнаружение 2D позиций суставов
Второй этап: повышение размерности в 3D пространство
Представители: SimpleBaseline, LCN
Преимущества: модульный дизайн, возможность выбора лучшего 2D детектора, большая робастность
Данная работа принадлежит этому классу

2. Оценка 3D позы на основе графов

Стандартные методы GCN

SemGCN: первое применение GCN к оценке 3D позы
Ограничения: агрегация соседей на расстоянии одного шага, локальное рецептивное поле

Расширения высокого порядка GCN

High-order GCN: расширение на многошаговые окрестности
Modulated GCN: модуляция матрицы смежности, изучение дополнительных рёбер
GroupGCN: групповая графовая свёртка
MM-GCN: многошаговая модулированная GCN, объединение информации многошаговых окрестностей

Гибридные архитектуры

GraphMLP: комбинирование MLP и GCN, использование глобальных и локальных взаимодействий скелета
Ограничения: всё ещё использует фиксированные функции активации, страдает от спектрального смещения

3. Сети Колмогорова-Арнольда

Теоретическая основа: теорема представления Колмогорова-Арнольда (любая непрерывная многомерная функция может быть представлена как конечная комбинация одномерных функций)
Сеть KAN: замена фиксированных функций активации обучаемыми одномерными функциями, повышение интерпретируемости и адаптивности
KAGNN: недавнее расширение KAN на графовое обучение (классификация узлов/графов, предсказание связей)
Данная работа: впервые применяет KAN к задаче повышения размерности 2D-в-3D при оценке 3D позы

4. Относительные преимущества данной работы

vs стандартные GCN: обучаемые функции vs фиксированные активации, многошаговая агрегация vs одношаговая
vs высокого порядка GCN: адаптивные функциональные преобразования vs фиксированные высокого порядка свёртки
vs GraphMLP: смягчение спектрального смещения, более сильная выразительная способность
vs KAGNN: специализированный дизайн для оценки позы, введение фильтра спектральной модуляции

Заключение и обсуждение

Основные выводы

Эффективность метода: PoseKAN достигает или превосходит современные методы на наборах данных Human3.6M и MPI-INF-3DHP
Основные преимущества:
- Обучаемые функции обеспечивают большую адаптивность и выразительную способность
- Многошаговая агрегация признаков эффективно захватывает долгосрочные зависимости
- Смягчение спектрального смещения, одновременное изучение низкочастотных и высокочастотных компонент
Практичность: высокая параметрическая эффективность (5.72M), управляемые вычислительные затраты, пригодна для практического применения
Способность обобщения: отличная производительность при кросс-датасетной оценке, подтверждающая хорошее обобщение

Ограничения

Ограничения, признанные авторами

Вызовы интерпретируемости: хотя и более интерпретируема, чем GCN, визуализация того, как каждая обучаемая функция активации адаптируется к различным частям скелета, остаётся сложной
Вычислительные затраты: обучаемые активации увеличивают вычислительные затраты на слой, базисные функции сплайна требуют дополнительной памяти
Потребление памяти: при обучении на больших наборах данных и глубоких сетях требования к памяти значительны
Пространство оптимизации: необходимо дальнейшее улучшение вычислительной эффективности, интерпретируемости и робастности

Потенциальные ограничения

Ограничение одного человека: текущий метод обрабатывает только одного человека, не расширяется на многолюдные сцены
Зависимость от 2D обнаружения: производительность зависит от качества детектора 2D позы
Статическая структура графа: хотя изучаются веса рёбер, топология предопределена
Чувствительность гиперпараметров: гиперпараметры s, α и т.д. требуют тщательной настройки

Будущие направления

Предложенные авторами

Оценка позы нескольких людей: расширение на многолюдные сцены с обработкой межличностных взаимодействий
Другие задачи графового обучения: распознавание действий, обнаружение аномалий и т.д.

Потенциальные расширения

Временное моделирование: интеграция временной информации видеопоследовательностей
Сквозное обучение: совместная оптимизация 2D обнаружения и 3D повышения размерности
Адаптивная структура графа: динамическое изучение топологии графа вместо предопределённой
Облегчённый дизайн: сжатие модели для мобильных устройств

Глубокая оценка

Преимущества

1. Инновационность метода (★★★★★)

Теоретическая инновация: впервые расширяет KAN на графовое обучение для оценки 3D позы, прочная теоретическая основа
Техническая инновация: искусный дизайн фильтра спектральной модуляции, эффективный механизм многошаговой агрегации
Архитектурная инновация: разумная комбинация остаточных блоков PoseKAN и GRN

2. Полнота экспериментов (★★★★☆)

Разнообразие наборов данных: Human3.6M (в помещении) + MPI-INF-3DHP (в помещении и на открытом воздухе)
Полное сравнение: сравнение с 10+ современными методами
Подробная абляция: IRC, порядок сплайна, размер сетки, масштабирующий фактор, размер встраивания и т.д.
Качественный анализ: визуальное сравнение примеров

3. Убедительность результатов (★★★★☆)

Лидирующая производительность: достигает SOTA или близко к SOTA по нескольким метрикам
Хорошая согласованность: стабильная производительность на разных наборах данных и протоколах
Статистическая значимость: значительное относительное снижение ошибки (максимум 19.62%)
Параметрическая эффективность: 5.72M параметров лучше, чем GraphMLP с 9.49M

4. Ясность написания (★★★★★)

Чёткая структура: логичное развитие от мотивации к методу к экспериментам
Математическая строгость: полные выводы формул, чёткие определения символов
Богатые иллюстрации: диаграммы архитектуры, таблицы сравнения, графики абляции
Дополнительные материалы: подробные приложения

Недостатки

1. Ограничения метода

Вычислительные затраты: хотя авторы утверждают управляемость, вычисление сплайнов и изучение функций действительно увеличивают сложность
Требования к памяти: пространственная сложность O(2kGLF²) может стать узким местом при крупномасштабных приложениях
Ограничение одного человека: неспособность обрабатывать многолюдные сцены ограничивает практическое применение

2. Экспериментальная установка

Поиск гиперпараметров: s=0.2 и α=0.03 определены через поиск по сетке, но диапазон поиска и процесс не сообщены
Статистические тесты: отсутствуют тесты значимости (например, t-тест)
Анализ отказов: не показаны типичные случаи отказа модели и анализ причин

3. Глубина анализа

Интерпретируемость: хотя утверждается большая интерпретируемость, чем GCN, отсутствует конкретная визуализация или анализ функций
Частотный анализ: упоминается смягчение спектрального смещения, но отсутствуют количественные доказательства спектрального анализа
Распределение ошибок: не проанализировано распределение ошибок по различным суставам и действиям

4. Справедливость сравнения

Согласованность входа: использование одного и того же 2D детектора, но влияние ошибок обнаружения на результаты не сообщено
Детали реализации: методы baseline могут использовать различные стратегии обучения, влияющие на справедливость сравнения

Оценка влияния

1. Вклад в область (★★★★☆)

Теоретический вклад: введение KAN в графовое обучение для оценки позы открывает новое направление
Методологический вклад: фильтр спектральной модуляции и механизм многошаговой агрегации переносимы на другие графовые задачи
Эмпирический вклад: установление новых эталонов производительности на стандартных наборах данных

2. Практическая ценность (★★★☆☆)

Улучшение производительности: относительное улучшение на 2-19% имеет значение для практических приложений
Параметрическая эффективность: 5.72M параметров умеренны, пригодны для развёртывания
Ограничения: ограничение одного человека и вычислительные затраты ограничивают приложения в реальном времени
Открытый исходный код: предоставлена ссылка на GitHub, способствует воспроизведению и применению

3. Воспроизводимость (★★★★☆)

Полные детали: гиперпараметры, стратегии обучения, конфигурация сети подробны
Открытый код: обещано открытие исходного кода
Стандартные данные: использование общедоступных наборов данных и стандартных протоколов
Потенциальные проблемы: детали реализации KAN (вычисление сплайнов) могут иметь технические барьеры

Применимые сценарии

Подходящие приложения

Сценарии высокой точности: спортивный анализ, медицинская диагностика и другие приложения с высокими требованиями к точности
Сценарии с серьёзной окклюзией: механизм многошаговой агрегации показывает преимущества в условиях окклюзии
Анализ сложных действий: способность захватывать высокочастотные детали подходит для быстрых сложных действий
Автономная обработка: для сценариев без требований к реальному времени, но требующих высокой точности

Менее подходящие сценарии

Приложения в реальном времени: относительно высокие вычислительные затраты, непригодны для обработки в реальном времени
Многолюдные сцены: текущая архитектура не учитывает межличностные взаимодействия
Устройства с ограниченными ресурсами: большие требования к памяти, непригодны для мобильных устройств
Крупномасштабное развёртывание: затраты на обучение и вывод могут ограничить крупномасштабное применение

Потенциал расширения

Видеопоследовательности: расширение на временное моделирование
Другие графовые задачи: распознавание действий, восстановление человеческой сетки и т.д.
Многомодальное слияние: интеграция RGB, глубины, IMU и других многоисточниковых данных
Трансферное обучение: передача предварительно обученной модели на другие задачи оценки позы

Ключевые ссылки

Liu et al., 2025 - KAN: Kolmogorov-Arnold networks (ICLR 2025) - исходное предложение KAN
Zhao et al., 2019 - SemGCN - первое применение GCN к оценке 3D позы
Zou & Tang, 2021 - Modulated GCN - метод модуляции матрицы смежности
Li et al., 2025 - GraphMLP - один из сильнейших baseline
Bresson et al., 2025 - KAGNNs - применение KAN к графовому обучению
Ionescu et al., 2013 - Набор данных Human3.6M - стандартный набор для оценки
Martinez et al., 2017 - SimpleBaseline - классический метод повышения размерности 2D-в-3D

Общая оценка

Инновационность: 9/10
Техническое качество: 8/10
Полнота экспериментов: 8/10
Качество написания: 9/10
Практическая ценность: 7/10
Комплексная оценка: 8.2/10

Индекс рекомендации: ★★★★☆ (Настоятельно рекомендуется к прочтению, особенно для исследователей, интересующихся графовыми нейронными сетями и 3D компьютерным зрением)