2025-11-13T18:28:11.410735

Action-Dynamics Modeling and Cross-Temporal Interaction for Online Action Understanding

Yang, Jiang, Zhou et al.
Action understanding, encompassing action detection and anticipation, plays a crucial role in numerous practical applications. However, untrimmed videos are often characterized by substantial redundant information and noise. Moreover, in modeling action understanding, the influence of the agent's intention on the action is often overlooked. Motivated by these issues, we propose a novel framework called the State-Specific Model (SSM), designed to unify and enhance both action detection and anticipation tasks. In the proposed framework, the Critical State-Based Memory Compression module compresses frame sequences into critical states, reducing information redundancy. The Action Pattern Learning module constructs a state-transition graph with multi-dimensional edges to model action dynamics in complex scenarios, on the basis of which potential future cues can be generated to represent intention. Furthermore, our Cross-Temporal Interaction module models the mutual influence between intentions and past as well as current information through cross-temporal interactions, thereby refining present and future features and ultimately realizing simultaneous action detection and anticipation. Extensive experiments on multiple benchmark datasets -- including EPIC-Kitchens-100, THUMOS'14, TVSeries, and the introduced Parkinson's Disease Mouse Behaviour (PDMB) dataset -- demonstrate the superior performance of our proposed framework compared to other state-of-the-art approaches. These results highlight the importance of action dynamics learning and cross-temporal interactions, laying a foundation for future action understanding research.
academic

Action-Dynamics Modeling and Cross-Temporal Interaction for Online Action Understanding

Grundlegende Informationen

  • Papier-ID: 2510.10682
  • Titel: Action-Dynamics Modeling and Cross-Temporal Interaction for Online Action Understanding
  • Autoren: Xinyu Yang, Zheheng Jiang, Feixiang Zhou, Yihang Zhu, Na Lv, Nan Xing, Huiyu Zhou
  • Klassifikation: cs.CV (Computervision)
  • Veröffentlichungsdatum: 12. Oktober 2025 (arXiv-Preprint)
  • Papierlink: https://arxiv.org/abs/2510.10682

Zusammenfassung

Das Aktionsverständnis umfasst Aktionserkennung und Aktionsprognose und spielt eine Schlüsselrolle in zahlreichen praktischen Anwendungen. Ungeschnittene Videos enthalten jedoch typischerweise große Mengen redundanter Informationen und Rauschen. Darüber hinaus wird bei der Modellierung des Aktionsverständnisses der Einfluss der Agenttenabsicht auf Aktionen häufig übersehen. Basierend auf diesen Problemen schlagen wir ein neues Framework namens State-Specific Model (SSM) vor, das darauf abzielt, Aktionserkennung und Prognosaufgaben zu vereinheitlichen und zu verbessern. Das Framework enthält ein Modul zur Komprimierung des Schlüsselzustands-Speichers, ein Modul zum Lernen von Aktionsmustern und ein Modul zur zeitübergreifenden Interaktion. Es modelliert Aktionsdynamiken durch einen Zustandsübergangsgraph, generiert latente zukünftige Hinweise zur Darstellung der Absicht und realisiert gleichzeitig Aktionserkennung und -prognose durch zeitübergreifende Interaktion.

Forschungshintergrund und Motivation

Kernprobleme

  1. Informationsredundanzproblem: Ungeschnittene Videos enthalten viele Hintergrundbilder und Rauschen, die redundanten Informationen beeinträchtigen das Lernen kritischer Aktionsmuster durch das Modell
  2. Fehlende Absichtmodellierung: Bestehende Methoden konzentrieren sich hauptsächlich auf den Einfluss historischer Informationen auf aktuelle/zukünftige Aktionen und übersehen die Leitungsrolle der Agenttenabsicht bei der Aktionsausführung
  3. Aufgabenfragmentierungsproblem: Aktionserkennung und Prognosaufgaben werden typischerweise separat behandelt, ohne die Komplementarität zwischen ihnen vollständig zu nutzen

Forschungsbedeutung

Das Online-Aktionsverständnis ist für intelligente Überwachung, Mensch-Maschine-Interaktion, autonomes Fahren und andere Anwendungen von entscheidender Bedeutung. Genaue Aktionserkennung und -prognose ermöglichen es Systemen, menschliches Verhalten besser zu verstehen und darauf zu reagieren.

Einschränkungen bestehender Methoden

  1. Speicherbasierte Methoden: Methoden wie LSTR und GateHub verlassen sich auf die Verarbeitung vollständiger Sequenzen und sind in langen Videos anfällig für Rauschstörungen
  2. Einzelaufgaben-Design: Die meisten Methoden konzentrieren sich auf einzelne Aufgaben und nutzen nicht die gegenseitige Förderung zwischen Erkennungs- und Prognosaufgaben
  3. Fehlende Absichtmodellierung: Übersieht die wichtige Rolle der Absicht als Antriebskraft für Aktionen

Kernbeiträge

  1. Vorschlag des SSM-Frameworks: Ein neuartiges Framework zur Vereinheitlichung von Aktionserkennung und Prognosaufgaben durch Modellierung von Aktionsdynamiken und zeitübergreifender Interaktion
  2. Modul zur Komprimierung des Schlüsselzustands-Speichers (CSMC): Führt einen zeitlichen gewichteten Aufmerksamkeitsmechanismus ein, um die ursprüngliche Sequenz in Schlüsselzustände zu komprimieren und Informationsredundanz zu reduzieren
  3. Modul zum Lernen von Aktionsmustern (APL): Konstruiert einen mehrdimensionalen Zustandsübergangsgraph zur Modellierung komplexer Aktionsdynamiken in Szenen und generiert latente zukünftige Hinweise zur Darstellung der Absicht
  4. Modul zur zeitübergreifenden Interaktion (CTI): Modelliert die gegenseitige Beeinflussung zwischen Absicht und vergangenen/aktuellen Informationen und optimiert gleichzeitig Erkennungs- und Prognoseleistung
  5. Umfassende experimentelle Validierung: Validiert die Wirksamkeit und Verallgemeinerungsfähigkeit der Methode auf mehreren Benchmark-Datensätzen

Methodische Erklärung

Aufgabendefinition

Gegeben eine Videofeature-Sequenz F={fi}0L1RL×DF = \{f_i\}_{0}^{L-1} \in \mathbb{R}^{L \times D}, die eine Speichersequenz Fm={f}1LmF_m = \{f\}_{-1}^{-L_m} und den aktuellen Frame Fcurrent={f}0F_{current} = \{f\}_0 enthält, besteht das Ziel darin, gleichzeitig zu erreichen:

  • Online-Aktionserkennung: Identifizierung der Aktionsklasse zum aktuellen Zeitpunkt
  • Aktionsprognose: Vorhersage der Aktionsklasse zu zukünftigen Zeitpunkten

Modellarchitektur

1. Modul zur Komprimierung des Schlüsselzustands-Speichers (CSMC)

Schlüsselbildextraktion:

  • Verwendung von ProPos-Darstellungslernen und Gaußscher Mischungsmodell (GMM) für Video-Frame-Clustering
  • Wahrscheinlichkeitsdichte-Modellierung: p(f(xi))=k=1KπkN(f(xi)μk,Σk)p(f(x_i)) = \sum_{k=1}^K \pi_k \mathcal{N}(f(x_i) | \mu_k, \Sigma_k)
  • Posteriori-Wahrscheinlichkeitsberechnung: p(kf(xi))=πkN(f(xi)μk,Σk)j=1KπjN(f(xi)μj,Σj)p(k|f(x_i)) = \frac{\pi_k \mathcal{N}(f(x_i)|\mu_k,\Sigma_k)}{\sum_{j=1}^K \pi_j \mathcal{N}(f(x_i)|\mu_j,\Sigma_j)}
  • Auswahl des Frames mit der geringsten Entfernung zum Clusterzentrum als Schlüsselframe: xkc=argminxif(xi)μk2x_k^c = \arg\min_{x_i} \|f(x_i) - \mu_k\|_2

Zeitlich gewichteter Aufmerksamkeitsmechanismus (TWA):

  • Schlüsselframes als Abfrage (Q), ursprüngliche Sequenz-Frames als Schlüssel (K) und Werte (V)
  • Zeitliche Gewichtungsfunktion: g(Δti,j)=exp(Δti,j22δ2)g(\Delta t_{i,j}) = \exp(-\frac{\Delta t_{i,j}^2}{2\delta^2})
  • Aufmerksamkeitsgewichte: ai,j=σ(QiKjTdkg(Δti,j))a_{i,j} = \sigma(\frac{Q_i \cdot K_j^T}{\sqrt{d_k}} \cdot g(\Delta t_{i,j}))
  • Schlüsselzustandsdarstellung: Si=j=1LaijVjS_i = \sum_{j=1}^L a_{ij}V_j

2. Modul zum Lernen von Aktionsmustern (APL)

Konstruktion des Zustandsübergangsgraphs:

  • Verwendung eines Cross-Attention-Mechanismus zur Quantifizierung von Abhängigkeiten zwischen Schlüsselzuständen
  • Mehrdimensionale Übergangskanten: Ei,j,Ej,i=CA((Si,Sj),(Sj,Si))E_{i,j}, E_{j,i} = \text{CA}((S_i, S_j), (S_j, S_i))
  • Im Gegensatz zur traditionellen einzelnen Beziehungskodierung können mehrdimensionale Kanten mehrere komplexe Abhängigkeitsbeziehungen erfassen

Modellierung von Aktionsdynamiken:

  • Verwendung eines gated Graph Convolutional Network (Gated GCN) zur Verarbeitung des Zustandsübergangsgraphs
  • Generierung latenter zukünftiger Hinweise als Absichtdarstellung
  • Bereitstellung von erwarteten Kontextinformationen für nachgelagerte Aufgaben

3. Modul zur zeitübergreifenden Interaktion (CTI)

Drei Klassen zeitlicher Merkmale:

  • Vergangene Merkmale FpF_p: Historische Schlüsselzustände
  • Aktuelle Merkmale FcF_c: Unmittelbare Aktionsdynamiken
  • Latente zukünftige Merkmale FaF_a: Aus dem Zustandsübergangsgraph abgeleitete Aktionstrends

Interaktionsmechanismus:

  • Einheitliche zeitliche Darstellung: Ft=[Fp,Fc,Fa]F_t = [F_p, F_c, F_a]
  • Aktualisierung aktueller Merkmale: Fc=CA(Fc,Ft,Ft)F_c' = \text{CA}(F_c, F_t, F_t)
  • Aktualisierung zukünftiger Merkmale: Fa=CA(Fa,Ft,Ft)F_a' = \text{CA}(F_a, F_t', F_t'), wobei Ft=[Fp,Fc,Fa]F_t' = [F_p, F_c', F_a]

Technische Innovationspunkte

  1. Zustands- vs. Speicher-Paradigma: Im Gegensatz zu speicherbasierten Methoden, die vollständige Sequenzen verarbeiten, konzentriert sich dieses Verfahren auf die Extraktion von Schlüsselzuständen und reduziert effektiv redundante Störungen
  2. Mehrdimensionale Beziehungsmodellierung: Das mehrdimensionale Kantendesign des Zustandsübergangsgraphs erfasst reichhaltigere Aktionsabhängigkeitsbeziehungen als traditionelle Methoden
  3. Absichtsgesteuertes Design: Verwendet latente zukünftige Hinweise als Absichtsvertreter und modelliert die Leitungsrolle der Absicht für Aktionen
  4. Einheitliches Framework: Realisiert gegenseitige Förderung von Erkennungs- und Prognosaufgaben durch zeitübergreifende Interaktion

Experimentelle Einrichtung

Datensätze

  1. EPIC-Kitchens-100: Großflächiger Datensatz für Küchenaktivitäten aus der Ich-Perspektive
  2. THUMOS'14: Benchmark-Datensatz für Sportaktionserkennung
  3. TVSeries: Aktionsdatensatz für Fernsehserien-Szenen
  4. PDMB: Verhaltens-Datensatz für Parkinson-Mäuse (von den Autoren eingeführt)

Bewertungsmetriken

  • THUMOS'14: Mittlere Durchschnittspräzision (mAP)
  • TVSeries: Kalibrierte mittlere Durchschnittspräzision (mcAP)
  • EPIC-Kitchens-100: Klassendurchschnitt Top-5-Recall für Verben, Nomen und Aktionen
  • PDMB: mAP und mcAP

Vergleichsmethoden

Umfasst mehrere SOTA-Methoden wie TRN, LSTR, GateHub, TeSTra, MAT, AVT usw.

Implementierungsdetails

  • Speichersequenzlänge: Lm=511L_m = 511
  • Anzahl der Cluster: K=4K = 4
  • Gewichte der Verlustfunktion: Durch Gittersuche bestimmt
  • Verwendung eines gemeinsamen Klassifikators für Erkennung und Prognose

Experimentelle Ergebnisse

Hauptergebnisse

Aktionsprognose-Aufgabe:

  • EPIC-Kitchens-100 (RGB+OF+Obj): Verben 44,9%, Nomen 48,3%, Aktionen 24,9%, übertrifft UADT-Baseline
  • THUMOS'14: Kinetics-Vortraining 61,9% vs. MAT 58,2% (+3,7%)
  • TVSeries: Kinetics-Vortraining 85,1% vs. MAT 82,6% (+2,5%)

Aktionserkennung-Aufgabe:

  • THUMOS'14: Kinetics-Vortraining 72,1% vs. MAT 71,6% (+0,5%)
  • TVSeries: ActivityNet-Vortraining 89,8% vs. MAT 88,6% (+1,2%)
  • EPIC-Kitchens-100: Verben 49,4%, Nomen 51,9%, Aktionen 30,6%, Verbesserung gegenüber MAT-MC um 4,9%, 3,6%, 4,3% jeweils

Ablationsstudien

Analyse der zeitübergreifenden Interaktion:

  • Ohne Interaktion: Erkennung 46,1%, Prognose 43,9%
  • Vergangenheit + Gegenwart: Erkennung 51,1%, Prognose 43,9%
  • Vergangenheit + Gegenwart + Zukunft: Erkennung 71,8%, Prognose 58,1%

Analyse kritischer Parameter:

  • Optimale Leistung bei Speicherlänge Lm=511L_m = 511
  • Cluster-Anzahl K=4K = 4 erreicht optimales Gleichgewicht
  • Gemeinsamer Klassifikator übertrifft unabhängige Klassifikatoren

Effizienzanalyse

Die Inferenzgeschwindigkeit auf A100 GPU erreicht SOTA-Niveau, einschließlich optischer Flussberechnung, Merkmalsextraktion und Modell-Inferenz der End-to-End-Verarbeitung.

Visualisierungsanalyse

  • Aufmerksamkeitsvisualisierung: Der TWA-Mechanismus kann effektiv kritische Aktionsbereiche fokussieren und Hintergrundstörungen unterdrücken
  • Qualitative Vergleiche: Im Vergleich zu Baseline-Methoden zeigt SSM bessere Leistung bei Aktionsgrenzerkennung und Konfidenz

Verwandte Arbeiten

Online-Aktionserkennung

Frühe Methoden basierten hauptsächlich auf RNN/CNN-Architekturen wie TRN zur Modellierung zeitlicher Kontexte. Mit dem Erfolg von Transformer sind Aufmerksamkeitsmechanismus-Methoden wie OadTR und LSTR zum Mainstream geworden. GateHub führt gated history units ein, um Hintergrundsequenzen zu unterdrücken.

Online-Aktionsprognose

Von frühem Dual-LSTM zu neueren Transformer-Architekturen wie AVT. Die meisten Arbeiten konzentrieren sich auf Single-Task-Design und übersehen die Komplementarität mit Erkennungsaufgaben.

Vorteile dieses Papiers

  1. Einheitliches Framework zur gleichzeitigen Behandlung von Erkennung und Prognose
  2. Zustandsbasiertes Design reduziert Sequenzredundanz
  3. Absichtmodellierung verbessert das Aktionsverständnis

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

  1. Das SSM-Framework verbessert die Aktionsverständnis-Leistung effektiv durch Schlüsselzustandsextraktion und zeitübergreifende Interaktion
  2. Der Zustandsübergangsgraph kann komplexe Aktionsdynamikmuster erfassen
  3. Die Absichtmodellierung ist für genaue Aktionsprognosen von entscheidender Bedeutung
  4. Die gemeinsame Optimierung von Erkennungs- und Prognosaufgaben bietet erhebliche Vorteile

Einschränkungen

  1. Semantisches Verständnis-Limit: Noch Verbesserungsspielraum bei feiner Nomen-Klassifizierung
  2. Behandlung spontaner Aktionen: Schwierigkeiten bei der Vorhersage spontaner Aktionen ohne offensichtliche Muster
  3. Rechenkomplexität: Die Konstruktion des Zustandsübergangsgraphs erhöht den Rechenaufwand
  4. Parametersensitivität: Hyperparameter wie Cluster-Anzahl erfordern Anpassung an verschiedene Datensätze

Zukünftige Richtungen

  1. Verbesserung der feinen semantischen Verständnisfähigkeit
  2. Erforschung robusterer Modellierungsmethoden für spontane Aktionen
  3. Optimierung der Recheneffizienz für Echtzeitanwendungen
  4. Erweiterung auf weitere Aktionsverständnis-Aufgaben

Tiefgreifende Bewertung

Stärken

  1. Starke Innovativität: Das zustandsbasierte Design und die zeitübergreifende Interaktion bieten neue Perspektiven für das Aktionsverständnis
  2. Technische Vollständigkeit: Drei Module sind sinnvoll konzipiert, erfüllen ihre Funktionen und arbeiten zusammen
  3. Umfassende Experimente: Validierung auf mehreren Datensätzen und detaillierte Ablationsstudien beweisen die Methodenwirksamkeit
  4. Hervorragende Leistung: Erreicht SOTA-Niveau auf mehreren Benchmarks
  5. Klare Darstellung: Detaillierte Methodenbeschreibung und reichhaltige Visualisierungsanalyse

Mängel

  1. Unzureichende theoretische Analyse: Mangel an theoretischer Analyse der Konvergenz und Komplexität der Methode
  2. Datensatz-Einschränkungen: Hauptsächlich auf visuellen Datensätzen validiert, Cross-Modal-Verallgemeinerungsfähigkeit unbekannt
  3. Echtzeitanalyse: Obwohl Effizienz erwähnt wird, fehlt detaillierte Echtzeitleistungsanalyse
  4. Analyse von Fehlerfällen: Relativ begrenzte Analyse von Szenarien, in denen die Methode fehlschlägt

Einflussfähigkeit

  1. Akademischer Wert: Bietet neue Modellierungsideen für das Aktionsverständnis, kann nachfolgende Forschung inspirieren
  2. Praktischer Wert: Das einheitliche Framework-Design hat gute Anwendungsaussichten
  3. Reproduzierbarkeit: Detaillierte Methodenbeschreibung unterstützt Reproduktion und Verbesserung

Anwendungsszenarien

  1. Intelligente Überwachung: Echtzeit-Aktionserkennung und Anomalievorhersage
  2. Mensch-Maschine-Interaktion: Roboter-Aktionsverständnis und -Reaktion
  3. Autonomes Fahren: Vorhersage von Fußgängerverhalten und Kollisionsvermeidung
  4. Sportanalyse: Analyse von Athletenbewegungen und Taktikvorhersage

Literaturverzeichnis

Das Papier zitiert 93 verwandte Literaturquellen, die wichtige Arbeiten in mehreren verwandten Bereichen wie Aktionserkennung, Aktionsprognose, Aufmerksamkeitsmechanismen und Graphenneuronale Netze abdecken und eine solide theoretische Grundlage für diese Forschung bieten.


Gesamtbewertung: Dies ist ein hochqualitatives Computervisions-Papier, das eine innovative Lösung im Bereich des Aktionsverständnisses vorschlägt. Das Methodendesign ist sinnvoll, die experimentelle Validierung ist umfassend, und es wurden signifikante Leistungsverbesserungen auf mehreren Benchmark-Datensätzen erzielt. Obwohl noch Verbesserungsspielraum in theoretischer Analyse und einigen technischen Details besteht, ist dies insgesamt ein wertvoller Forschungsbeitrag.