2025-11-13T18:28:11.410735

Action-Dynamics Modeling and Cross-Temporal Interaction for Online Action Understanding

Yang, Jiang, Zhou et al.
Action understanding, encompassing action detection and anticipation, plays a crucial role in numerous practical applications. However, untrimmed videos are often characterized by substantial redundant information and noise. Moreover, in modeling action understanding, the influence of the agent's intention on the action is often overlooked. Motivated by these issues, we propose a novel framework called the State-Specific Model (SSM), designed to unify and enhance both action detection and anticipation tasks. In the proposed framework, the Critical State-Based Memory Compression module compresses frame sequences into critical states, reducing information redundancy. The Action Pattern Learning module constructs a state-transition graph with multi-dimensional edges to model action dynamics in complex scenarios, on the basis of which potential future cues can be generated to represent intention. Furthermore, our Cross-Temporal Interaction module models the mutual influence between intentions and past as well as current information through cross-temporal interactions, thereby refining present and future features and ultimately realizing simultaneous action detection and anticipation. Extensive experiments on multiple benchmark datasets -- including EPIC-Kitchens-100, THUMOS'14, TVSeries, and the introduced Parkinson's Disease Mouse Behaviour (PDMB) dataset -- demonstrate the superior performance of our proposed framework compared to other state-of-the-art approaches. These results highlight the importance of action dynamics learning and cross-temporal interactions, laying a foundation for future action understanding research.
academic

Modelado de Dinámicas de Acciones e Interacción Temporal Cruzada para la Comprensión de Acciones en Línea

Información Básica

  • ID del Artículo: 2510.10682
  • Título: Action-Dynamics Modeling and Cross-Temporal Interaction for Online Action Understanding
  • Autores: Xinyu Yang, Zheheng Jiang, Feixiang Zhou, Yihang Zhu, Na Lv, Nan Xing, Huiyu Zhou
  • Clasificación: cs.CV (Visión por Computadora)
  • Fecha de Publicación: 12 de octubre de 2025 (preimpresión en arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.10682

Resumen

La comprensión de acciones incluye la detección de acciones y la predicción de acciones, desempeñando un papel crítico en numerosas aplicaciones prácticas. Sin embargo, los videos sin editar generalmente contienen una gran cantidad de información redundante y ruido. Además, al modelar la comprensión de acciones, el impacto de la intención del agente en las acciones a menudo se pasa por alto. Basándose en estos problemas, este artículo propone un nuevo marco denominado Modelo Específico de Estado (State-Specific Model, SSM), cuyo objetivo es unificar y mejorar las tareas de detección y predicción de acciones. El marco contiene un módulo de compresión de memoria de estado clave, un módulo de aprendizaje de patrones de acciones y un módulo de interacción temporal cruzada, modelando dinámicas de acciones a través de un gráfico de transición de estados, generando representaciones de pistas futuras latentes para expresar intención, e implementando simultáneamente detección y predicción de acciones mediante interacción temporal cruzada.

Antecedentes de Investigación y Motivación

Problemas Centrales

  1. Problema de Redundancia de Información: Los videos sin editar contienen una gran cantidad de fotogramas de fondo y ruido, que interfieren con el aprendizaje del modelo sobre patrones de acciones clave
  2. Ausencia de Modelado de Intención: Los métodos existentes se centran principalmente en el impacto de la información histórica en acciones actuales/futuras, ignorando el papel orientador de la intención del agente en la ejecución de acciones
  3. Problema de Fragmentación de Tareas: Las tareas de detección y predicción de acciones generalmente se manejan por separado, sin aprovechar plenamente su complementariedad

Importancia de la Investigación

La comprensión de acciones en línea es crucial para aplicaciones como vigilancia inteligente, interacción humano-máquina y conducción autónoma. La detección y predicción precisas de acciones permiten que los sistemas comprendan y respondan mejor al comportamiento humano.

Limitaciones de Métodos Existentes

  1. Métodos Basados en Memoria: Como LSTR, GateHub, etc., dependen del procesamiento de secuencias completas, siendo fácilmente afectados por ruido en videos largos
  2. Diseño de Tarea Única: La mayoría de los métodos se centran en una única tarea, sin aprovechar la relación de promoción mutua entre tareas de detección y predicción
  3. Falta de Modelado de Intención: Se ignora el papel importante de la intención como fuerza impulsora de las acciones

Contribuciones Principales

  1. Propuesta del Marco SSM: Un marco novedoso que unifica las tareas de detección y predicción de acciones, mejorando la comprensión de acciones mediante el modelado de dinámicas de acciones e interacción temporal cruzada
  2. Módulo de Compresión de Memoria de Estado Clave (CSMC): Introduce un mecanismo de atención ponderada temporal, comprimiendo la secuencia original en estados clave, reduciendo la redundancia de información
  3. Módulo de Aprendizaje de Patrones de Acciones (APL): Construye un gráfico de transición de estados multidimensional para modelar dinámicas de acciones en escenarios complejos, generando pistas futuras latentes que representan intención
  4. Módulo de Interacción Temporal Cruzada (CTI): Modela la influencia mutua entre intención e información pasada/actual, optimizando simultáneamente el rendimiento de detección y predicción
  5. Verificación Experimental Integral: Valida la efectividad y capacidad de generalización del método en múltiples conjuntos de datos de referencia

Explicación Detallada del Método

Definición de Tarea

Dada una secuencia de características de video F={fi}0L1RL×DF = \{f_i\}_{0}^{L-1} \in \mathbb{R}^{L \times D}, que contiene una secuencia de memoria Fm={f}1LmF_m = \{f\}_{-1}^{-L_m} y fotograma actual Fcurrent={f}0F_{current} = \{f\}_0, el objetivo es lograr simultáneamente:

  • Detección de Acciones en Línea: Identificar la clase de acción en el momento actual
  • Predicción de Acciones: Predecir la clase de acción en momentos futuros

Arquitectura del Modelo

1. Módulo de Compresión de Memoria de Estado Clave (CSMC)

Extracción de Fotogramas Clave:

  • Utiliza aprendizaje de representación ProPos y modelo de mezcla gaussiana (GMM) para agrupamiento de fotogramas de video
  • Modelado de densidad de probabilidad: p(f(xi))=k=1KπkN(f(xi)μk,Σk)p(f(x_i)) = \sum_{k=1}^K \pi_k \mathcal{N}(f(x_i) | \mu_k, \Sigma_k)
  • Cálculo de probabilidad posterior: p(kf(xi))=πkN(f(xi)μk,Σk)j=1KπjN(f(xi)μj,Σj)p(k|f(x_i)) = \frac{\pi_k \mathcal{N}(f(x_i)|\mu_k,\Sigma_k)}{\sum_{j=1}^K \pi_j \mathcal{N}(f(x_i)|\mu_j,\Sigma_j)}
  • Selecciona el fotograma más cercano al centro de agrupamiento como fotograma clave: xkc=argminxif(xi)μk2x_k^c = \arg\min_{x_i} \|f(x_i) - \mu_k\|_2

Mecanismo de Atención Ponderada Temporal (TWA):

  • Los fotogramas clave actúan como consulta (Q), los fotogramas de secuencia original como claves (K) y valores (V)
  • Función de peso temporal: g(Δti,j)=exp(Δti,j22δ2)g(\Delta t_{i,j}) = \exp(-\frac{\Delta t_{i,j}^2}{2\delta^2})
  • Pesos de atención: ai,j=σ(QiKjTdkg(Δti,j))a_{i,j} = \sigma(\frac{Q_i \cdot K_j^T}{\sqrt{d_k}} \cdot g(\Delta t_{i,j}))
  • Representación de estado clave: Si=j=1LaijVjS_i = \sum_{j=1}^L a_{ij}V_j

2. Módulo de Aprendizaje de Patrones de Acciones (APL)

Construcción del Gráfico de Transición de Estados:

  • Utiliza mecanismo de atención cruzada para cuantificar dependencias entre estados clave
  • Aristas de transición multidimensionales: Ei,j,Ej,i=CA((Si,Sj),(Sj,Si))E_{i,j}, E_{j,i} = \text{CA}((S_i, S_j), (S_j, S_i))
  • A diferencia de la codificación de relaciones única tradicional, las aristas multidimensionales pueden capturar múltiples relaciones de dependencia complejas

Modelado de Dinámicas de Acciones:

  • Utiliza red de convolución de gráfos con compuerta (Gated GCN) para procesar el gráfico de transición de estados
  • Genera pistas futuras latentes como representación de intención
  • Proporciona contexto esperado para tareas posteriores

3. Módulo de Interacción Temporal Cruzada (CTI)

Tres Clases de Características Temporales:

  • Características pasadas FpF_p: Estados clave históricos
  • Características actuales FcF_c: Dinámicas de acciones inmediatas
  • Características futuras latentes FaF_a: Tendencias de acciones inferidas del gráfico de transición de estados

Mecanismo de Interacción:

  • Representación temporal unificada: Ft=[Fp,Fc,Fa]F_t = [F_p, F_c, F_a]
  • Actualización de características actuales: Fc=CA(Fc,Ft,Ft)F_c' = \text{CA}(F_c, F_t, F_t)
  • Actualización de características futuras: Fa=CA(Fa,Ft,Ft)F_a' = \text{CA}(F_a, F_t', F_t'), donde Ft=[Fp,Fc,Fa]F_t' = [F_p, F_c', F_a]

Puntos de Innovación Técnica

  1. Paradigma de Estado vs Memoria: A diferencia de los métodos basados en memoria que procesan secuencias completas, este artículo se centra en la extracción de estados clave, reduciendo efectivamente la interferencia de redundancia
  2. Modelado de Relaciones Multidimensionales: El diseño de aristas multidimensionales del gráfico de transición de estados puede capturar relaciones de acciones más ricas que los métodos tradicionales
  3. Diseño Impulsado por Intención: Utiliza pistas futuras latentes como agente de intención, modelando el papel orientador de la intención en las acciones
  4. Marco Unificado: Implementa la promoción mutua de tareas de detección y predicción mediante interacción temporal cruzada

Configuración Experimental

Conjuntos de Datos

  1. EPIC-Kitchens-100: Conjunto de datos de actividades de cocina de gran escala desde la perspectiva de primera persona
  2. THUMOS'14: Conjunto de datos de referencia para detección de acciones deportivas
  3. TVSeries: Conjunto de datos de acciones en escenas de series de televisión
  4. PDMB: Conjunto de datos de comportamiento de ratones con enfermedad de Parkinson (introducido por los autores)

Métricas de Evaluación

  • THUMOS'14: Media de Precisión Promedio (mAP)
  • TVSeries: Media de Precisión Promedio Calibrada (mcAP)
  • EPIC-Kitchens-100: Tasa de Recuperación Promedio Top-5 para verbos, nombres y acciones
  • PDMB: mAP y mcAP

Métodos de Comparación

Incluye múltiples métodos SOTA como TRN, LSTR, GateHub, TeSTra, MAT, AVT, etc.

Detalles de Implementación

  • Longitud de secuencia de memoria: Lm=511L_m = 511
  • Número de agrupamientos: K=4K = 4
  • Pesos de función de pérdida: Determinados mediante búsqueda en cuadrícula
  • Utiliza clasificador compartido para detección y predicción

Resultados Experimentales

Resultados Principales

Tarea de Predicción de Acciones:

  • EPIC-Kitchens-100 (RGB+OF+Obj): Verbo 44.9%, Nombre 48.3%, Acción 24.9%, superando la línea base UADT
  • THUMOS'14: Preentrenamiento Kinetics 61.9% vs MAT 58.2% (+3.7%)
  • TVSeries: Preentrenamiento Kinetics 85.1% vs MAT 82.6% (+2.5%)

Tarea de Detección de Acciones:

  • THUMOS'14: Preentrenamiento Kinetics 72.1% vs MAT 71.6% (+0.5%)
  • TVSeries: Preentrenamiento ActivityNet 89.8% vs MAT 88.6% (+1.2%)
  • EPIC-Kitchens-100: Verbo 49.4%, Nombre 51.9%, Acción 30.6%, mejorando MAT-MC en 4.9%, 3.6%, 4.3% respectivamente

Experimentos de Ablación

Análisis de Interacción Temporal Cruzada:

  • Sin interacción: Detección 46.1%, Predicción 43.9%
  • Pasado + Actual: Detección 51.1%, Predicción 43.9%
  • Pasado + Actual + Futuro: Detección 71.8%, Predicción 58.1%

Análisis de Parámetros Clave:

  • Rendimiento óptimo cuando Lm=511L_m = 511
  • Número de agrupamientos K=4K = 4 logra el mejor equilibrio
  • Clasificador compartido supera a clasificadores independientes

Análisis de Eficiencia

La velocidad de inferencia en GPU A100 alcanza nivel SOTA, incluyendo cálculo de flujo óptico, extracción de características e inferencia del modelo en procesamiento de extremo a extremo.

Análisis de Visualización

  • Visualización de Atención: El mecanismo TWA puede enfocarse efectivamente en regiones de acciones clave, suprimiendo interferencias de fondo
  • Comparación Cualitativa: En comparación con métodos de línea base, SSM muestra mejor rendimiento en detección de límites de acciones y confianza

Trabajo Relacionado

Detección de Acciones en Línea

Los métodos tempranos se basaban principalmente en arquitecturas RNN/CNN, como TRN que modela contexto temporal. Con el éxito de Transformer, métodos con mecanismos de atención como OadTR, LSTR se convirtieron en la corriente principal. GateHub introduce unidades de historial con compuerta para suprimir secuencias de fondo.

Predicción de Acciones en Línea

Desde Dual-LSTM temprano hasta arquitecturas Transformer recientes como AVT. La mayoría de los trabajos se centran en diseño de tarea única, ignorando la complementariedad con la tarea de detección.

Ventajas de Este Artículo

  1. Marco unificado que maneja simultáneamente detección y predicción
  2. Diseño estatal que reduce redundancia de secuencia
  3. Modelado de intención que mejora la comprensión de acciones

Conclusiones y Discusión

Conclusiones Principales

  1. El marco SSM mejora efectivamente el rendimiento de comprensión de acciones mediante extracción de estados clave e interacción temporal cruzada
  2. El gráfico de transición de estados puede capturar patrones dinámicos de acciones complejos
  3. El modelado de intención es crucial para predicción de acciones precisa
  4. La optimización conjunta de tareas de detección y predicción tiene ventajas significativas

Limitaciones

  1. Limitaciones de Comprensión Semántica: Aún hay espacio para mejora en clasificación de nombres de grano fino
  2. Manejo de Acciones Repentinas: Dificultad en predicción de acciones espontáneas que carecen de patrones obvios
  3. Complejidad Computacional: La construcción del gráfico de transición de estados añade cierta sobrecarga computacional
  4. Sensibilidad de Parámetros: Hiperparámetros como número de agrupamientos requieren ajuste para diferentes conjuntos de datos

Direcciones Futuras

  1. Mejorar capacidad de comprensión semántica de grano fino
  2. Explorar métodos más robustos para modelado de acciones repentinas
  3. Optimizar eficiencia computacional para aplicaciones en tiempo real
  4. Extender a más tareas de comprensión de acciones

Evaluación Profunda

Fortalezas

  1. Innovación Fuerte: El diseño estatal e interacción temporal cruzada proporcionan una nueva perspectiva para la comprensión de acciones
  2. Técnica Completa: Los tres módulos están bien diseñados, cada uno con su función pero trabajando en coordinación
  3. Experimentación Suficiente: Validación en múltiples conjuntos de datos y experimentos de ablación detallados demuestran la efectividad del método
  4. Rendimiento Excelente: Alcanza nivel SOTA en múltiples puntos de referencia
  5. Escritura Clara: Descripción detallada del método, análisis de visualización abundante

Deficiencias

  1. Análisis Teórico Insuficiente: Falta análisis teórico sobre convergencia y complejidad del método
  2. Limitaciones de Conjunto de Datos: Validación principalmente en conjuntos de datos visuales, capacidad de generalización multimodal desconocida
  3. Análisis de Rendimiento en Tiempo Real: Aunque se menciona eficiencia, falta análisis detallado de rendimiento en tiempo real
  4. Análisis de Casos de Fallo: Análisis relativamente limitado de escenarios donde el método falla

Impacto

  1. Valor Académico: Proporciona nuevas ideas de modelado para comprensión de acciones, potencialmente inspirando investigaciones posteriores
  2. Valor Práctico: El diseño de marco unificado tiene buenas perspectivas de aplicación
  3. Reproducibilidad: Descripción detallada del método facilita reproducción y mejora

Escenarios Aplicables

  1. Vigilancia Inteligente: Detección de acciones en tiempo real y predicción de anomalías
  2. Interacción Humano-Máquina: Comprensión de acciones de robots y respuesta
  3. Conducción Autónoma: Predicción de comportamiento de peatones y evitación de colisiones
  4. Análisis Deportivo: Análisis de acciones de atletas y predicción táctica

Referencias

El artículo cita 93 referencias relacionadas, cubriendo múltiples campos relevantes incluyendo detección de acciones, predicción de acciones, mecanismos de atención y redes neuronales de gráfos, proporcionando una base teórica sólida para esta investigación.


Evaluación General: Este es un artículo de alta calidad en visión por computadora que propone una solución innovadora en el campo de la comprensión de acciones. El diseño del método es razonable, la verificación experimental es suficiente, y se logran mejoras significativas de rendimiento en múltiples conjuntos de datos de referencia. Aunque hay espacio para mejora en análisis teórico y ciertos detalles técnicos, en general es una contribución de investigación valiosa.