2025-11-13T18:28:11.410735

Action-Dynamics Modeling and Cross-Temporal Interaction for Online Action Understanding

Yang, Jiang, Zhou et al.
Action understanding, encompassing action detection and anticipation, plays a crucial role in numerous practical applications. However, untrimmed videos are often characterized by substantial redundant information and noise. Moreover, in modeling action understanding, the influence of the agent's intention on the action is often overlooked. Motivated by these issues, we propose a novel framework called the State-Specific Model (SSM), designed to unify and enhance both action detection and anticipation tasks. In the proposed framework, the Critical State-Based Memory Compression module compresses frame sequences into critical states, reducing information redundancy. The Action Pattern Learning module constructs a state-transition graph with multi-dimensional edges to model action dynamics in complex scenarios, on the basis of which potential future cues can be generated to represent intention. Furthermore, our Cross-Temporal Interaction module models the mutual influence between intentions and past as well as current information through cross-temporal interactions, thereby refining present and future features and ultimately realizing simultaneous action detection and anticipation. Extensive experiments on multiple benchmark datasets -- including EPIC-Kitchens-100, THUMOS'14, TVSeries, and the introduced Parkinson's Disease Mouse Behaviour (PDMB) dataset -- demonstrate the superior performance of our proposed framework compared to other state-of-the-art approaches. These results highlight the importance of action dynamics learning and cross-temporal interactions, laying a foundation for future action understanding research.
academic

Моделирование динамики действий и кросс-временное взаимодействие для онлайн-понимания действий

Основная информация

  • ID статьи: 2510.10682
  • Название: Action-Dynamics Modeling and Cross-Temporal Interaction for Online Action Understanding
  • Авторы: Xinyu Yang, Zheheng Jiang, Feixiang Zhou, Yihang Zhu, Na Lv, Nan Xing, Huiyu Zhou
  • Категория: cs.CV (Компьютерное зрение)
  • Дата публикации: 12 октября 2025 г. (препринт arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2510.10682

Аннотация

Понимание действий включает обнаружение действий и предсказание действий, играя ключевую роль во многих практических приложениях. Однако неотредактированные видео обычно содержат большое количество избыточной информации и шума. Кроме того, при моделировании понимания действий влияние намерения агента на действие часто упускается из виду. На основе этих проблем в статье предлагается новая структура, называемая моделью, специфичной для состояния (State-Specific Model, SSM), целью которой является объединение и улучшение задач обнаружения и предсказания действий. Структура содержит модуль сжатия памяти ключевых состояний, модуль обучения паттернам действий и модуль кросс-временного взаимодействия, моделирующие динамику действий через граф переходов состояний, генерирующие представления скрытых будущих подсказок для выражения намерения и одновременно достигающие обнаружения и предсказания действий через кросс-временное взаимодействие.

Исследовательский контекст и мотивация

Основные проблемы

  1. Проблема избыточности информации: неотредактированные видео содержат большое количество фоновых кадров и шума, которые препятствуют обучению модели ключевым паттернам действий
  2. Отсутствие моделирования намерения: существующие методы в основном сосредоточены на влиянии исторической информации на текущие/будущие действия, игнорируя направляющую роль намерения агента при выполнении действий
  3. Проблема разделения задач: задачи обнаружения и предсказания действий обычно обрабатываются отдельно, не полностью используя их дополнительность

Значимость исследования

Онлайн-понимание действий имеет решающее значение для интеллектуального видеонаблюдения, взаимодействия человека и машины, автономного вождения и других приложений. Точное обнаружение и предсказание действий позволяют системам лучше понимать и реагировать на поведение человека.

Ограничения существующих методов

  1. Методы на основе памяти: такие как LSTR, GateHub и др., зависят от обработки полной последовательности и легко подвергаются влиянию шума в длинных видео
  2. Проектирование для одной задачи: большинство методов сосредоточены на одной задаче, не используя взаимное усиление между задачами обнаружения и предсказания
  3. Отсутствие моделирования намерения: игнорируется важная роль намерения как движущей силы действия

Основные вклады

  1. Предложение структуры SSM: новая структура, объединяющая задачи обнаружения и предсказания действий, улучшающая понимание действий путем моделирования динамики действий и кросс-временного взаимодействия
  2. Модуль сжатия памяти ключевых состояний (CSMC): введение механизма временного взвешенного внимания, сжимающего исходную последовательность в ключевые состояния, снижающего информационную избыточность
  3. Модуль обучения паттернам действий (APL): построение многомерного графа переходов состояний для моделирования сложной динамики действий в сложных сценариях, генерирующего скрытые будущие подсказки, представляющие намерение
  4. Модуль кросс-временного взаимодействия (CTI): моделирование взаимного влияния между намерением и прошлой/текущей информацией, одновременно оптимизирующее производительность обнаружения и предсказания
  5. Комплексная экспериментальная проверка: проверка эффективности и способности к обобщению метода на нескольких эталонных наборах данных

Подробное описание метода

Определение задачи

Учитывая последовательность признаков видео F={fi}0L1RL×DF = \{f_i\}_{0}^{L-1} \in \mathbb{R}^{L \times D}, содержащую последовательность памяти Fm={f}1LmF_m = \{f\}_{-1}^{-L_m} и текущий кадр Fcurrent={f}0F_{current} = \{f\}_0, целью является одновременное достижение:

  • Онлайн-обнаружение действий: определение класса действия в текущий момент времени
  • Предсказание действий: предсказание класса действия в будущий момент времени

Архитектура модели

1. Модуль сжатия памяти ключевых состояний (CSMC)

Извлечение ключевых кадров:

  • Использование представления ProPos и гауссовой смешанной модели (GMM) для кластеризации кадров видео
  • Моделирование плотности вероятности: p(f(xi))=k=1KπkN(f(xi)μk,Σk)p(f(x_i)) = \sum_{k=1}^K \pi_k \mathcal{N}(f(x_i) | \mu_k, \Sigma_k)
  • Расчет апостериорной вероятности: p(kf(xi))=πkN(f(xi)μk,Σk)j=1KπjN(f(xi)μj,Σj)p(k|f(x_i)) = \frac{\pi_k \mathcal{N}(f(x_i)|\mu_k,\Sigma_k)}{\sum_{j=1}^K \pi_j \mathcal{N}(f(x_i)|\mu_j,\Sigma_j)}
  • Выбор кадра, ближайшего к центру кластера: xkc=argminxif(xi)μk2x_k^c = \arg\min_{x_i} \|f(x_i) - \mu_k\|_2

Механизм временного взвешенного внимания (TWA):

  • Ключевые кадры служат запросом (Q), исходные кадры последовательности служат ключами (K) и значениями (V)
  • Функция временного веса: g(Δti,j)=exp(Δti,j22δ2)g(\Delta t_{i,j}) = \exp(-\frac{\Delta t_{i,j}^2}{2\delta^2})
  • Веса внимания: ai,j=σ(QiKjTdkg(Δti,j))a_{i,j} = \sigma(\frac{Q_i \cdot K_j^T}{\sqrt{d_k}} \cdot g(\Delta t_{i,j}))
  • Представление ключевого состояния: Si=j=1LaijVjS_i = \sum_{j=1}^L a_{ij}V_j

2. Модуль обучения паттернам действий (APL)

Построение графа переходов состояний:

  • Использование механизма кросс-внимания для количественной оценки зависимостей между ключевыми состояниями
  • Многомерные рёбра переходов: Ei,j,Ej,i=CA((Si,Sj),(Sj,Si))E_{i,j}, E_{j,i} = \text{CA}((S_i, S_j), (S_j, S_i))
  • В отличие от традиционного кодирования одиночных отношений, многомерные рёбра могут захватывать множество сложных зависимостей

Моделирование динамики действий:

  • Использование вентильной сверточной сети графов (Gated GCN) для обработки графа переходов состояний
  • Генерирование скрытых будущих подсказок в качестве представления намерения
  • Предоставление ожидаемого контекста для нижестоящих задач

3. Модуль кросс-временного взаимодействия (CTI)

Три класса временных признаков:

  • Прошлые признаки FpF_p: исторические ключевые состояния
  • Текущие признаки FcF_c: мгновенная динамика действий
  • Скрытые будущие признаки FaF_a: тенденции действий, выведенные из графа переходов состояний

Механизм взаимодействия:

  • Унифицированное временное представление: Ft=[Fp,Fc,Fa]F_t = [F_p, F_c, F_a]
  • Обновление текущих признаков: Fc=CA(Fc,Ft,Ft)F_c' = \text{CA}(F_c, F_t, F_t)
  • Обновление будущих признаков: Fa=CA(Fa,Ft,Ft)F_a' = \text{CA}(F_a, F_t', F_t'), где Ft=[Fp,Fc,Fa]F_t' = [F_p, F_c', F_a]

Технические инновации

  1. Парадигма состояния vs памяти: в отличие от методов на основе памяти, обрабатывающих полную последовательность, данная работа сосредоточена на извлечении ключевых состояний, эффективно снижая избыточные помехи
  2. Многомерное моделирование отношений: многомерная конструкция рёбер графа переходов состояний может захватывать более богатые зависимости действий по сравнению с традиционными методами
  3. Проектирование, управляемое намерением: использование скрытых будущих подсказок в качестве представителя намерения, моделирующего направляющее влияние намерения на действие
  4. Унифицированная структура: достижение взаимного усиления задач обнаружения и предсказания через кросс-временное взаимодействие

Экспериментальная установка

Наборы данных

  1. EPIC-Kitchens-100: крупномасштабный набор данных кухонной деятельности от первого лица
  2. THUMOS'14: эталонный набор данных для обнаружения спортивных действий
  3. TVSeries: набор данных действий в сценах телесериалов
  4. PDMB: набор данных поведения мышей с болезнью Паркинсона (представлен авторами)

Метрики оценки

  • THUMOS'14: среднее значение точности (mAP)
  • TVSeries: откалиброванное среднее значение точности (mcAP)
  • EPIC-Kitchens-100: средний рейтинг Top-5 для глаголов, существительных и действий
  • PDMB: mAP и mcAP

Методы сравнения

Включают TRN, LSTR, GateHub, TeSTra, MAT, AVT и другие методы SOTA

Детали реализации

  • Длина последовательности памяти: Lm=511L_m = 511
  • Количество кластеров: K=4K = 4
  • Веса функции потерь: определены путём поиска по сетке
  • Использование общего классификатора для обнаружения и предсказания

Результаты экспериментов

Основные результаты

Задача предсказания действий:

  • EPIC-Kitchens-100 (RGB+OF+Obj): глаголы 44,9%, существительные 48,3%, действия 24,9%, превосходя базовый уровень UADT
  • THUMOS'14: предварительное обучение Kinetics 61,9% против MAT 58,2% (+3,7%)
  • TVSeries: предварительное обучение Kinetics 85,1% против MAT 82,6% (+2,5%)

Задача обнаружения действий:

  • THUMOS'14: предварительное обучение Kinetics 72,1% против MAT 71,6% (+0,5%)
  • TVSeries: предварительное обучение ActivityNet 89,8% против MAT 88,6% (+1,2%)
  • EPIC-Kitchens-100: глаголы 49,4%, существительные 51,9%, действия 30,6%, улучшение на 4,9%, 3,6%, 4,3% соответственно по сравнению с MAT-MC

Абляционные исследования

Анализ кросс-временного взаимодействия:

  • Без взаимодействия: обнаружение 46,1%, предсказание 43,9%
  • Прошлое + текущее: обнаружение 51,1%, предсказание 43,9%
  • Прошлое + текущее + будущее: обнаружение 71,8%, предсказание 58,1%

Анализ ключевых параметров:

  • Оптимальная производительность при длине памяти Lm=511L_m = 511
  • Количество кластеров K=4K = 4 достигает оптимального баланса
  • Общий классификатор превосходит независимые классификаторы

Анализ эффективности

Скорость вывода на GPU A100 достигает уровня SOTA, включая обработку оптического потока, извлечение признаков и вывод модели.

Визуальный анализ

  • Визуализация внимания: механизм TWA эффективно сосредоточивается на ключевых областях действий, подавляя фоновые помехи
  • Качественное сравнение: по сравнению с методами-базовыми линиями SSM показывает лучшую производительность при обнаружении границ действий и уверенности

Связанные работы

Онлайн-обнаружение действий

Ранние методы в основном основаны на архитектурах RNN/CNN, такие как TRN, моделирующий временной контекст. С успехом Transformer методы с механизмами внимания, такие как OadTR, LSTR, стали основным направлением. GateHub вводит вентильные исторические единицы для подавления фоновых последовательностей.

Онлайн-предсказание действий

От ранних Dual-LSTM к недавним архитектурам Transformer, таким как AVT. Большинство работ сосредоточены на проектировании для одной задачи, игнорируя дополнительность с задачей обнаружения.

Преимущества данной работы

  1. Унифицированная структура одновременно обрабатывает обнаружение и предсказание
  2. Проектирование на основе состояний снижает избыточность последовательности
  3. Моделирование намерения улучшает понимание действий

Заключение и обсуждение

Основные выводы

  1. Структура SSM эффективно повышает производительность понимания действий путём извлечения ключевых состояний и кросс-временного взаимодействия
  2. Граф переходов состояний может захватывать сложные паттерны динамики действий
  3. Моделирование намерения имеет решающее значение для точного предсказания действий
  4. Совместная оптимизация задач обнаружения и предсказания имеет значительные преимущества

Ограничения

  1. Ограничения семантического понимания: всё ещё есть место для улучшения в классификации существительных тонкой зернистости
  2. Обработка спонтанных действий: сложность предсказания спонтанных действий, которые не имеют явных паттернов
  3. Вычислительная сложность: построение графа переходов состояний добавляет определённые вычислительные затраты
  4. Чувствительность параметров: гиперпараметры, такие как количество кластеров, требуют настройки для разных наборов данных

Будущие направления

  1. Усиление способности к пониманию семантики тонкой зернистости
  2. Исследование более надёжных методов моделирования спонтанных действий
  3. Оптимизация вычислительной эффективности для адаптации к требованиям реального времени
  4. Расширение на дополнительные задачи понимания действий

Глубокая оценка

Преимущества

  1. Высокая инновационность: проектирование на основе состояний и кросс-временное взаимодействие предоставляют новую перспективу для понимания действий
  2. Полнота техники: три модуля хорошо спроектированы, каждый выполняет свою функцию и взаимодействует с другими
  3. Достаточные эксперименты: проверка на нескольких наборах данных и подробные абляционные исследования доказывают эффективность метода
  4. Отличная производительность: достигает уровня SOTA на нескольких эталонах
  5. Ясное изложение: подробное описание метода, богатый визуальный анализ

Недостатки

  1. Недостаточный теоретический анализ: отсутствует анализ сходимости и сложности метода
  2. Ограничения наборов данных: в основном проверено на визуальных наборах данных, способность к кросс-модальному обобщению неизвестна
  3. Анализ производительности в реальном времени: хотя упоминается эффективность, отсутствует подробный анализ производительности в реальном времени
  4. Анализ случаев отказа: анализ сценариев отказа метода относительно ограничен

Влияние

  1. Академическая ценность: предоставляет новые идеи моделирования для понимания действий, может вдохновить последующие исследования
  2. Практическая ценность: проектирование унифицированной структуры имеет хорошие перспективы применения
  3. Воспроизводимость: подробное описание метода способствует воспроизведению и улучшению

Применимые сценарии

  1. Интеллектуальное видеонаблюдение: обнаружение действий в реальном времени и предсказание аномалий
  2. Взаимодействие человека и машины: понимание действий робота и реагирование
  3. Автономное вождение: предсказание поведения пешеходов и избежание столкновений
  4. Спортивный анализ: анализ действий спортсменов и прогнозирование тактики

Библиография

Статья цитирует 93 связанные работы, охватывающие обнаружение действий, предсказание действий, механизмы внимания, графовые нейронные сети и другие смежные области, обеспечивая прочную теоретическую основу для данного исследования.


Общая оценка: Это высококачественная статья в области компьютерного зрения, предлагающая инновационное решение в области понимания действий. Метод хорошо спроектирован, эксперименты достаточны, достигнуты значительные улучшения производительности на нескольких эталонных наборах данных. Хотя есть место для улучшения в теоретическом анализе и некоторых технических деталях, в целом это ценный исследовательский вклад.