Action-Dynamics Modeling and Cross-Temporal Interaction for Online Action Understanding
Yang, Jiang, Zhou et al.
Action understanding, encompassing action detection and anticipation, plays a crucial role in numerous practical applications. However, untrimmed videos are often characterized by substantial redundant information and noise. Moreover, in modeling action understanding, the influence of the agent's intention on the action is often overlooked. Motivated by these issues, we propose a novel framework called the State-Specific Model (SSM), designed to unify and enhance both action detection and anticipation tasks. In the proposed framework, the Critical State-Based Memory Compression module compresses frame sequences into critical states, reducing information redundancy. The Action Pattern Learning module constructs a state-transition graph with multi-dimensional edges to model action dynamics in complex scenarios, on the basis of which potential future cues can be generated to represent intention. Furthermore, our Cross-Temporal Interaction module models the mutual influence between intentions and past as well as current information through cross-temporal interactions, thereby refining present and future features and ultimately realizing simultaneous action detection and anticipation. Extensive experiments on multiple benchmark datasets -- including EPIC-Kitchens-100, THUMOS'14, TVSeries, and the introduced Parkinson's Disease Mouse Behaviour (PDMB) dataset -- demonstrate the superior performance of our proposed framework compared to other state-of-the-art approaches. These results highlight the importance of action dynamics learning and cross-temporal interactions, laying a foundation for future action understanding research.
academic
Моделирование динамики действий и кросс-временное взаимодействие для онлайн-понимания действий
Понимание действий включает обнаружение действий и предсказание действий, играя ключевую роль во многих практических приложениях. Однако неотредактированные видео обычно содержат большое количество избыточной информации и шума. Кроме того, при моделировании понимания действий влияние намерения агента на действие часто упускается из виду. На основе этих проблем в статье предлагается новая структура, называемая моделью, специфичной для состояния (State-Specific Model, SSM), целью которой является объединение и улучшение задач обнаружения и предсказания действий. Структура содержит модуль сжатия памяти ключевых состояний, модуль обучения паттернам действий и модуль кросс-временного взаимодействия, моделирующие динамику действий через граф переходов состояний, генерирующие представления скрытых будущих подсказок для выражения намерения и одновременно достигающие обнаружения и предсказания действий через кросс-временное взаимодействие.
Проблема избыточности информации: неотредактированные видео содержат большое количество фоновых кадров и шума, которые препятствуют обучению модели ключевым паттернам действий
Отсутствие моделирования намерения: существующие методы в основном сосредоточены на влиянии исторической информации на текущие/будущие действия, игнорируя направляющую роль намерения агента при выполнении действий
Проблема разделения задач: задачи обнаружения и предсказания действий обычно обрабатываются отдельно, не полностью используя их дополнительность
Онлайн-понимание действий имеет решающее значение для интеллектуального видеонаблюдения, взаимодействия человека и машины, автономного вождения и других приложений. Точное обнаружение и предсказание действий позволяют системам лучше понимать и реагировать на поведение человека.
Методы на основе памяти: такие как LSTR, GateHub и др., зависят от обработки полной последовательности и легко подвергаются влиянию шума в длинных видео
Проектирование для одной задачи: большинство методов сосредоточены на одной задаче, не используя взаимное усиление между задачами обнаружения и предсказания
Отсутствие моделирования намерения: игнорируется важная роль намерения как движущей силы действия
Предложение структуры SSM: новая структура, объединяющая задачи обнаружения и предсказания действий, улучшающая понимание действий путем моделирования динамики действий и кросс-временного взаимодействия
Модуль сжатия памяти ключевых состояний (CSMC): введение механизма временного взвешенного внимания, сжимающего исходную последовательность в ключевые состояния, снижающего информационную избыточность
Модуль обучения паттернам действий (APL): построение многомерного графа переходов состояний для моделирования сложной динамики действий в сложных сценариях, генерирующего скрытые будущие подсказки, представляющие намерение
Модуль кросс-временного взаимодействия (CTI): моделирование взаимного влияния между намерением и прошлой/текущей информацией, одновременно оптимизирующее производительность обнаружения и предсказания
Комплексная экспериментальная проверка: проверка эффективности и способности к обобщению метода на нескольких эталонных наборах данных
Учитывая последовательность признаков видео F={fi}0L−1∈RL×D, содержащую последовательность памяти Fm={f}−1−Lm и текущий кадр Fcurrent={f}0, целью является одновременное достижение:
Онлайн-обнаружение действий: определение класса действия в текущий момент времени
Предсказание действий: предсказание класса действия в будущий момент времени
Парадигма состояния vs памяти: в отличие от методов на основе памяти, обрабатывающих полную последовательность, данная работа сосредоточена на извлечении ключевых состояний, эффективно снижая избыточные помехи
Многомерное моделирование отношений: многомерная конструкция рёбер графа переходов состояний может захватывать более богатые зависимости действий по сравнению с традиционными методами
Проектирование, управляемое намерением: использование скрытых будущих подсказок в качестве представителя намерения, моделирующего направляющее влияние намерения на действие
Унифицированная структура: достижение взаимного усиления задач обнаружения и предсказания через кросс-временное взаимодействие
Визуализация внимания: механизм TWA эффективно сосредоточивается на ключевых областях действий, подавляя фоновые помехи
Качественное сравнение: по сравнению с методами-базовыми линиями SSM показывает лучшую производительность при обнаружении границ действий и уверенности
Ранние методы в основном основаны на архитектурах RNN/CNN, такие как TRN, моделирующий временной контекст. С успехом Transformer методы с механизмами внимания, такие как OadTR, LSTR, стали основным направлением. GateHub вводит вентильные исторические единицы для подавления фоновых последовательностей.
От ранних Dual-LSTM к недавним архитектурам Transformer, таким как AVT. Большинство работ сосредоточены на проектировании для одной задачи, игнорируя дополнительность с задачей обнаружения.
Статья цитирует 93 связанные работы, охватывающие обнаружение действий, предсказание действий, механизмы внимания, графовые нейронные сети и другие смежные области, обеспечивая прочную теоретическую основу для данного исследования.
Общая оценка: Это высококачественная статья в области компьютерного зрения, предлагающая инновационное решение в области понимания действий. Метод хорошо спроектирован, эксперименты достаточны, достигнуты значительные улучшения производительности на нескольких эталонных наборах данных. Хотя есть место для улучшения в теоретическом анализе и некоторых технических деталях, в целом это ценный исследовательский вклад.