Action-Dynamics Modeling and Cross-Temporal Interaction for Online Action Understanding
Yang, Jiang, Zhou et al.
Action understanding, encompassing action detection and anticipation, plays a crucial role in numerous practical applications. However, untrimmed videos are often characterized by substantial redundant information and noise. Moreover, in modeling action understanding, the influence of the agent's intention on the action is often overlooked. Motivated by these issues, we propose a novel framework called the State-Specific Model (SSM), designed to unify and enhance both action detection and anticipation tasks. In the proposed framework, the Critical State-Based Memory Compression module compresses frame sequences into critical states, reducing information redundancy. The Action Pattern Learning module constructs a state-transition graph with multi-dimensional edges to model action dynamics in complex scenarios, on the basis of which potential future cues can be generated to represent intention. Furthermore, our Cross-Temporal Interaction module models the mutual influence between intentions and past as well as current information through cross-temporal interactions, thereby refining present and future features and ultimately realizing simultaneous action detection and anticipation. Extensive experiments on multiple benchmark datasets -- including EPIC-Kitchens-100, THUMOS'14, TVSeries, and the introduced Parkinson's Disease Mouse Behaviour (PDMB) dataset -- demonstrate the superior performance of our proposed framework compared to other state-of-the-art approaches. These results highlight the importance of action dynamics learning and cross-temporal interactions, laying a foundation for future action understanding research.
동작 이해는 동작 검출과 동작 예측을 포함하며, 많은 실제 응용 분야에서 핵심적인 역할을 수행한다. 그러나 편집되지 않은 비디오는 일반적으로 대량의 중복 정보와 노이즈를 포함한다. 또한 동작 이해를 모델링할 때, 에이전트의 의도가 동작에 미치는 영향은 종종 간과된다. 이러한 문제들을 바탕으로, 본 논문은 상태 특정 모델(State-Specific Model, SSM)이라는 새로운 프레임워크를 제안하며, 이는 동작 검출과 예측 작업을 통합하고 강화하기 위해 고안되었다. 본 프레임워크는 핵심 상태 메모리 압축 모듈, 동작 패턴 학습 모듈, 시간 간 상호작용 모듈을 포함하며, 상태 전이 그래프를 통해 동작 동역학을 모델링하고, 잠재적 미래 단서 표현을 생성하여 의도를 나타내며, 시간 간 상호작용을 통해 동작 검출과 예측을 동시에 달성한다.
초기 방법은 주로 RNN/CNN 아키텍처를 기반으로 하였으며, TRN은 시간 컨텍스트를 모델링한다. Transformer의 성공으로 OadTR, LSTR 등 주의 메커니즘 방법이 주류가 되었다. GateHub는 배경 시퀀스를 억제하기 위해 게이트 히스토리 유닛을 도입했다.
논문은 93편의 관련 문헌을 인용하였으며, 동작 검출, 동작 예측, 주의 메커니즘, 그래프 신경망 등 여러 관련 분야의 중요한 연구를 포함하여 본 연구에 견고한 이론적 기초를 제공한다.
종합 평가: 이는 동작 이해 분야에서 혁신적인 해결책을 제시한 고품질의 컴퓨터 비전 논문이다. 방법 설계가 합리적이고 실험 검증이 충분하며, 여러 벤치마크 데이터셋에서 현저한 성능 향상을 달성했다. 이론 분석과 일부 기술 세부사항에서 개선 여지가 있지만, 전체적으로 가치 있는 연구 기여이다.