Action understanding, encompassing action detection and anticipation, plays a crucial role in numerous practical applications. However, untrimmed videos are often characterized by substantial redundant information and noise. Moreover, in modeling action understanding, the influence of the agent's intention on the action is often overlooked. Motivated by these issues, we propose a novel framework called the State-Specific Model (SSM), designed to unify and enhance both action detection and anticipation tasks. In the proposed framework, the Critical State-Based Memory Compression module compresses frame sequences into critical states, reducing information redundancy. The Action Pattern Learning module constructs a state-transition graph with multi-dimensional edges to model action dynamics in complex scenarios, on the basis of which potential future cues can be generated to represent intention. Furthermore, our Cross-Temporal Interaction module models the mutual influence between intentions and past as well as current information through cross-temporal interactions, thereby refining present and future features and ultimately realizing simultaneous action detection and anticipation. Extensive experiments on multiple benchmark datasets -- including EPIC-Kitchens-100, THUMOS'14, TVSeries, and the introduced Parkinson's Disease Mouse Behaviour (PDMB) dataset -- demonstrate the superior performance of our proposed framework compared to other state-of-the-art approaches. These results highlight the importance of action dynamics learning and cross-temporal interactions, laying a foundation for future action understanding research.
academic 論文ID : 2510.10682タイトル : Action-Dynamics Modeling and Cross-Temporal Interaction for Online Action Understanding著者 : Xinyu Yang, Zheheng Jiang, Feixiang Zhou, Yihang Zhu, Na Lv, Nan Xing, Huiyu Zhou分類 : cs.CV(コンピュータビジョン)発表日 : 2025年10月12日(arXiv プレプリント)論文リンク : https://arxiv.org/abs/2510.10682 アクション理解はアクション検出とアクション予測を含み、多くの実用的応用において重要な役割を果たしている。しかし、未編集ビデオには通常、大量の冗長情報とノイズが含まれている。さらに、アクション理解をモデル化する際、エージェントの意図がアクションに与える影響はしばしば見落とされている。これらの問題に基づいて、本論文は状態特定モデル(State-Specific Model, SSM)と呼ばれる新しいフレームワークを提案し、アクション検出と予測タスクの統一と強化を目指している。このフレームワークは、重要状態メモリ圧縮モジュール、アクションパターン学習モジュール、および時間横断的相互作用モジュールを含み、状態遷移グラフを通じてアクション動力学をモデル化し、潜在的な将来の手がかり表現を生成して意図を表現し、時間横断的相互作用を通じてアクション検出と予測を同時に実現する。
情報冗長性の問題 :未編集ビデオは大量の背景フレームとノイズを含み、これらの冗長情報はモデルの重要なアクションパターン学習を妨害する意図モデリングの欠落 :既存の方法は主に過去の情報が現在/将来のアクションに与える影響に焦点を当て、エージェントの意図がアクション実行において果たす指導的役割を無視しているタスク分断の問題 :アクション検出と予測タスクは通常、別々に処理され、両者間の相補性を十分に活用していないオンラインアクション理解は、インテリジェント監視、人間とコンピュータの相互作用、自動運転などの応用において重要である。正確なアクション検出と予測により、システムは人間の行動をより良く理解し、対応することができる。
メモリベースの方法 :LSTR、GateHubなどは完全なシーケンスの処理に依存し、長いビデオではノイズの影響を受けやすい単一タスク設計 :ほとんどの方法は単一のタスクに焦点を当て、検出と予測タスク間の相互促進関係を活用していない意図モデリングの欠落 :アクションの駆動力としての意図の重要性を無視しているSSMフレームワークの提案 :アクション検出と予測タスクを統一する新しいフレームワーク。アクション動力学と時間横断的相互作用のモデリングを通じてアクション理解を強化する重要状態メモリ圧縮(CSMC)モジュール :時間加重注意機構を導入し、元のシーケンスを重要状態に圧縮して情報冗長性を削減するアクションパターン学習(APL)モジュール :多次元状態遷移グラフを構築して複雑なシーンにおけるアクション動力学をモデル化し、意図を表現する潜在的な将来の手がかりを生成する時間横断的相互作用(CTI)モジュール :意図と過去/現在の情報間の相互影響をモデル化し、検出と予測の性能を同時に最適化する包括的な実験検証 :複数のベンチマークデータセットで方法の有効性と汎化能力を検証するビデオ特徴シーケンス F = { f i } 0 L − 1 ∈ R L × D F = \{f_i\}_{0}^{L-1} \in \mathbb{R}^{L \times D} F = { f i } 0 L − 1 ∈ R L × D が与えられ、メモリシーケンス F m = { f } − 1 − L m F_m = \{f\}_{-1}^{-L_m} F m = { f } − 1 − L m と現在フレーム F c u r r e n t = { f } 0 F_{current} = \{f\}_0 F c u rre n t = { f } 0 を含む場合、目標は以下を同時に実現することである:
オンラインアクション検出 :現在時刻のアクションカテゴリを識別するアクション予測 :将来時刻のアクションカテゴリを予測する重要フレーム抽出 :
ProPos表現学習とガウス混合モデル(GMM)を使用してビデオフレームをクラスタリングする 確率密度モデリング:p ( f ( x i ) ) = ∑ k = 1 K π k N ( f ( x i ) ∣ μ k , Σ k ) p(f(x_i)) = \sum_{k=1}^K \pi_k \mathcal{N}(f(x_i) | \mu_k, \Sigma_k) p ( f ( x i )) = ∑ k = 1 K π k N ( f ( x i ) ∣ μ k , Σ k ) 事後確率計算:p ( k ∣ f ( x i ) ) = π k N ( f ( x i ) ∣ μ k , Σ k ) ∑ j = 1 K π j N ( f ( x i ) ∣ μ j , Σ j ) p(k|f(x_i)) = \frac{\pi_k \mathcal{N}(f(x_i)|\mu_k,\Sigma_k)}{\sum_{j=1}^K \pi_j \mathcal{N}(f(x_i)|\mu_j,\Sigma_j)} p ( k ∣ f ( x i )) = ∑ j = 1 K π j N ( f ( x i ) ∣ μ j , Σ j ) π k N ( f ( x i ) ∣ μ k , Σ k ) クラスタ中心に最も近いフレームを重要フレームとして選択:x k c = arg min x i ∥ f ( x i ) − μ k ∥ 2 x_k^c = \arg\min_{x_i} \|f(x_i) - \mu_k\|_2 x k c = arg min x i ∥ f ( x i ) − μ k ∥ 2 時間加重注意機構(TWA) :
重要フレームをクエリ(Q)として、元のシーケンスフレームをキー(K)と値(V)として使用する 時間重み関数:g ( Δ t i , j ) = exp ( − Δ t i , j 2 2 δ 2 ) g(\Delta t_{i,j}) = \exp(-\frac{\Delta t_{i,j}^2}{2\delta^2}) g ( Δ t i , j ) = exp ( − 2 δ 2 Δ t i , j 2 ) 注意重み:a i , j = σ ( Q i ⋅ K j T d k ⋅ g ( Δ t i , j ) ) a_{i,j} = \sigma(\frac{Q_i \cdot K_j^T}{\sqrt{d_k}} \cdot g(\Delta t_{i,j})) a i , j = σ ( d k Q i ⋅ K j T ⋅ g ( Δ t i , j )) 重要状態表現:S i = ∑ j = 1 L a i j V j S_i = \sum_{j=1}^L a_{ij}V_j S i = ∑ j = 1 L a ij V j 状態遷移グラフの構築 :
クロスアテンション機構を使用して重要状態間の依存関係を定量化する 多次元遷移エッジ:E i , j , E j , i = CA ( ( S i , S j ) , ( S j , S i ) ) E_{i,j}, E_{j,i} = \text{CA}((S_i, S_j), (S_j, S_i)) E i , j , E j , i = CA (( S i , S j ) , ( S j , S i )) 従来の単一関係エンコーディングと異なり、多次元エッジは複数の複雑な依存関係を捉えることができる アクション動力学のモデリング :
ゲート付きグラフ畳み込みネットワーク(Gated GCN)を使用して状態遷移グラフを処理する 意図表現として潜在的な将来の手がかりを生成する 下流タスクに予期されたコンテキストを提供する 3種類の時間特徴 :
過去特徴 F p F_p F p :過去の重要状態 現在特徴 F c F_c F c :即座のアクション動力学 潜在的な将来特徴 F a F_a F a :状態遷移グラフから推論されたアクション傾向 相互作用機構 :
統一時間表現:F t = [ F p , F c , F a ] F_t = [F_p, F_c, F_a] F t = [ F p , F c , F a ] 現在特徴の更新:F c ′ = CA ( F c , F t , F t ) F_c' = \text{CA}(F_c, F_t, F_t) F c ′ = CA ( F c , F t , F t ) 将来特徴の更新:F a ′ = CA ( F a , F t ′ , F t ′ ) F_a' = \text{CA}(F_a, F_t', F_t') F a ′ = CA ( F a , F t ′ , F t ′ ) 、ここで F t ′ = [ F p , F c ′ , F a ] F_t' = [F_p, F_c', F_a] F t ′ = [ F p , F c ′ , F a ] 状態対メモリパラダイム :完全なシーケンスを処理するメモリベースの方法と比較して、本論文は重要状態抽出に焦点を当て、冗長な干渉を効果的に削減する多次元関係モデリング :状態遷移グラフの多次元エッジ設計は、従来の方法よりも豊かなアクション依存関係を捉えることができる意図駆動設計 :潜在的な将来の手がかりを意図エージェントとして使用し、意図がアクションに与える指導的役割をモデル化する統一フレームワーク :時間横断的相互作用を通じて検出と予測タスクの相互促進を実現するEPIC-Kitchens-100 :大規模な一人称視点キッチン活動データセットTHUMOS'14 :スポーツアクション検出ベンチマークデータセットTVSeries :テレビドラマシーンアクションデータセットPDMB :パーキンソン病マウス行動データセット(著者が導入)THUMOS'14 : 平均精度の平均値(mAP)TVSeries : キャリブレーション平均精度の平均値(mcAP)EPIC-Kitchens-100 : 動詞、名詞、アクションのカテゴリ平均Top-5再現率PDMB : mAPおよびmcAPTRN、LSTR、GateHub、TeSTra、MAT、AVTなど複数のSOTA方法を含む
メモリシーケンス長:L m = 511 L_m = 511 L m = 511 クラスタ数:K = 4 K = 4 K = 4 損失関数の重み:グリッドサーチで決定 検出と予測に共有分類器を使用 アクション予測タスク :
EPIC-Kitchens-100 (RGB+OF+Obj):動詞44.9%、名詞48.3%、アクション24.9%、UAdTベースラインを超えるTHUMOS'14 :Kinetics事前学習61.9% vs MAT 58.2%(+3.7%)TVSeries :Kinetics事前学習85.1% vs MAT 82.6%(+2.5%)アクション検出タスク :
THUMOS'14 :Kinetics事前学習72.1% vs MAT 71.6%(+0.5%)TVSeries :ActivityNet事前学習89.8% vs MAT 88.6%(+1.2%)EPIC-Kitchens-100 :動詞49.4%、名詞51.9%、アクション30.6%、MAT-MCと比較してそれぞれ4.9%、3.6%、4.3%向上時間横断的相互作用分析 :
相互作用なし:検出46.1%、予測43.9% 過去+現在:検出51.1%、予測43.9% 過去+現在+将来:検出71.8%、予測58.1% 重要なパラメータ分析 :
メモリ長 L m = 511 L_m = 511 L m = 511 で最適な性能を達成 クラスタ数 K = 4 K = 4 K = 4 で最適なバランスを実現 共有分類器は独立した分類器より優れている A100 GPU上での推論速度はSOTAレベルに達し、光流計算、特徴抽出、モデル推論を含むエンドツーエンド処理を実現している。
注意力の可視化 :TWA機構は効果的に重要なアクション領域に注目し、背景干渉を抑制できる定性的比較 :ベースライン方法と比較して、SSMはアクション境界検出と信頼度においてより優れた性能を示す初期の方法は主にRNN/CNNアーキテクチャに基づいており、TRNは時間的コンテキストをモデル化する。Transformerの成功に伴い、OadTR、LSTRなどの注意機構方法が主流となった。GateHubは背景シーケンスを抑制するためにゲート付き履歴ユニットを導入した。
初期のDual-LSTMから最近のAVTなどのTransformerアーキテクチャまで。ほとんどの研究は単一タスク設計に焦点を当て、検出タスクとの相補性を無視している。
検出と予測を同時に処理する統一フレームワーク 状態化設計によるシーケンス冗長性の削減 意図モデリングによるアクション理解の強化 SSMフレームワークは、重要状態抽出と時間横断的相互作用を通じてアクション理解性能を効果的に向上させる 状態遷移グラフは複雑なアクション動力学パターンを捉えることができる 意図モデリングは正確なアクション予測に重要である 検出と予測タスクの共同最適化には顕著な利点がある セマンティック理解の制限 :細粒度の名詞分類にはまだ改善の余地がある突発的アクションの処理 :明確なパターンを欠く自発的なアクション予測は困難である計算複雑性 :状態遷移グラフの構築は一定の計算オーバーヘッドを増加させるパラメータ感度 :クラスタ数などのハイパーパラメータは異なるデータセットに対して調整が必要である細粒度のセマンティック理解能力の強化 より堅牢な突発的アクションモデリング方法の探索 計算効率の最適化とリアルタイム応用への適応 より多くのアクション理解タスクへの拡張 革新性が強い :状態化設計と時間横断的相互作用はアクション理解に新しい視点を提供する技術が完備している :3つのモジュール設計は合理的で、各々の役割を果たしながら相互に協力する実験が充分である :複数のデータセット検証と詳細なアブレーション実験が方法の有効性を証明する性能が優れている :複数のベンチマークでSOTAレベルを達成する記述が明確である :方法の説明が詳細で、可視化分析が豊富である理論分析の不足 :方法の収束性と複雑性に関する理論分析が欠けているデータセットの限界 :主にビジュアルデータセットで検証され、クロスモーダル汎化能力が不明であるリアルタイム性分析の不足 :効率について言及されているが、詳細なリアルタイム性能分析が欠けている失敗ケース分析の限定 :方法が失効するシーンの分析が相対的に限定的である学術的価値 :アクション理解に新しいモデリング思想を提供し、後続研究を啓発する可能性がある実用的価値 :統一フレームワーク設計は良好な応用前景を持つ再現性 :方法の説明が詳細で、再現と改善を支援するインテリジェント監視 :リアルタイムアクション検出と異常予測人間とコンピュータの相互作用 :ロボットのアクション理解と応答自動運転 :歩行者の行動予測と衝突回避スポーツ分析 :選手のアクション分析と戦術予測論文は93篇の関連文献を引用しており、アクション検出、アクション予測、注意機構、グラフニューラルネットワークなど複数の関連分野の重要な研究をカバーしており、本研究に堅実な理論的基礎を提供している。
総合評価 :これはコンピュータビジョン分野における高品質な論文であり、アクション理解領域で革新的なソリューションを提案している。方法設計は合理的で、実験検証は充分であり、複数のベンチマークデータセットで顕著な性能向上を達成している。理論分析と技術的詳細の面でまだ改善の余地があるが、全体的には価値のある研究貢献である。