2025-11-13T18:28:11.410735

Action-Dynamics Modeling and Cross-Temporal Interaction for Online Action Understanding

Yang, Jiang, Zhou et al.

Action understanding, encompassing action detection and anticipation, plays a crucial role in numerous practical applications. However, untrimmed videos are often characterized by substantial redundant information and noise. Moreover, in modeling action understanding, the influence of the agent's intention on the action is often overlooked. Motivated by these issues, we propose a novel framework called the State-Specific Model (SSM), designed to unify and enhance both action detection and anticipation tasks. In the proposed framework, the Critical State-Based Memory Compression module compresses frame sequences into critical states, reducing information redundancy. The Action Pattern Learning module constructs a state-transition graph with multi-dimensional edges to model action dynamics in complex scenarios, on the basis of which potential future cues can be generated to represent intention. Furthermore, our Cross-Temporal Interaction module models the mutual influence between intentions and past as well as current information through cross-temporal interactions, thereby refining present and future features and ultimately realizing simultaneous action detection and anticipation. Extensive experiments on multiple benchmark datasets -- including EPIC-Kitchens-100, THUMOS'14, TVSeries, and the introduced Parkinson's Disease Mouse Behaviour (PDMB) dataset -- demonstrate the superior performance of our proposed framework compared to other state-of-the-art approaches. These results highlight the importance of action dynamics learning and cross-temporal interactions, laying a foundation for future action understanding research.

academic

Modelado de Dinámicas de Acciones e Interacción Temporal Cruzada para la Comprensión de Acciones en Línea

Información Básica

ID del Artículo: 2510.10682
Título: Action-Dynamics Modeling and Cross-Temporal Interaction for Online Action Understanding
Autores: Xinyu Yang, Zheheng Jiang, Feixiang Zhou, Yihang Zhu, Na Lv, Nan Xing, Huiyu Zhou
Clasificación: cs.CV (Visión por Computadora)
Fecha de Publicación: 12 de octubre de 2025 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.10682

Resumen

La comprensión de acciones incluye la detección de acciones y la predicción de acciones, desempeñando un papel crítico en numerosas aplicaciones prácticas. Sin embargo, los videos sin editar generalmente contienen una gran cantidad de información redundante y ruido. Además, al modelar la comprensión de acciones, el impacto de la intención del agente en las acciones a menudo se pasa por alto. Basándose en estos problemas, este artículo propone un nuevo marco denominado Modelo Específico de Estado (State-Specific Model, SSM), cuyo objetivo es unificar y mejorar las tareas de detección y predicción de acciones. El marco contiene un módulo de compresión de memoria de estado clave, un módulo de aprendizaje de patrones de acciones y un módulo de interacción temporal cruzada, modelando dinámicas de acciones a través de un gráfico de transición de estados, generando representaciones de pistas futuras latentes para expresar intención, e implementando simultáneamente detección y predicción de acciones mediante interacción temporal cruzada.

Antecedentes de Investigación y Motivación

Problemas Centrales

Problema de Redundancia de Información: Los videos sin editar contienen una gran cantidad de fotogramas de fondo y ruido, que interfieren con el aprendizaje del modelo sobre patrones de acciones clave
Ausencia de Modelado de Intención: Los métodos existentes se centran principalmente en el impacto de la información histórica en acciones actuales/futuras, ignorando el papel orientador de la intención del agente en la ejecución de acciones
Problema de Fragmentación de Tareas: Las tareas de detección y predicción de acciones generalmente se manejan por separado, sin aprovechar plenamente su complementariedad

Importancia de la Investigación

La comprensión de acciones en línea es crucial para aplicaciones como vigilancia inteligente, interacción humano-máquina y conducción autónoma. La detección y predicción precisas de acciones permiten que los sistemas comprendan y respondan mejor al comportamiento humano.

Limitaciones de Métodos Existentes

Métodos Basados en Memoria: Como LSTR, GateHub, etc., dependen del procesamiento de secuencias completas, siendo fácilmente afectados por ruido en videos largos
Diseño de Tarea Única: La mayoría de los métodos se centran en una única tarea, sin aprovechar la relación de promoción mutua entre tareas de detección y predicción
Falta de Modelado de Intención: Se ignora el papel importante de la intención como fuerza impulsora de las acciones

Contribuciones Principales

Propuesta del Marco SSM: Un marco novedoso que unifica las tareas de detección y predicción de acciones, mejorando la comprensión de acciones mediante el modelado de dinámicas de acciones e interacción temporal cruzada
Módulo de Compresión de Memoria de Estado Clave (CSMC): Introduce un mecanismo de atención ponderada temporal, comprimiendo la secuencia original en estados clave, reduciendo la redundancia de información
Módulo de Aprendizaje de Patrones de Acciones (APL): Construye un gráfico de transición de estados multidimensional para modelar dinámicas de acciones en escenarios complejos, generando pistas futuras latentes que representan intención
Módulo de Interacción Temporal Cruzada (CTI): Modela la influencia mutua entre intención e información pasada/actual, optimizando simultáneamente el rendimiento de detección y predicción
Verificación Experimental Integral: Valida la efectividad y capacidad de generalización del método en múltiples conjuntos de datos de referencia

Explicación Detallada del Método

Definición de Tarea

Dada una secuencia de características de video $F = \{f_i\}_{0}^{L-1} \in \mathbb{R}^{L \times D}$ , que contiene una secuencia de memoria $F_m = \{f\}_{-1}^{-L_m}$ y fotograma actual $F_{current} = \{f\}_0$ , el objetivo es lograr simultáneamente:

Detección de Acciones en Línea: Identificar la clase de acción en el momento actual
Predicción de Acciones: Predecir la clase de acción en momentos futuros

Arquitectura del Modelo

1. Módulo de Compresión de Memoria de Estado Clave (CSMC)

Extracción de Fotogramas Clave:

Utiliza aprendizaje de representación ProPos y modelo de mezcla gaussiana (GMM) para agrupamiento de fotogramas de video
Modelado de densidad de probabilidad: $p(f(x_i)) = \sum_{k=1}^K \pi_k \mathcal{N}(f(x_i) | \mu_k, \Sigma_k)$
Cálculo de probabilidad posterior: $p(k|f(x_i)) = \frac{\pi_k \mathcal{N}(f(x_i)|\mu_k,\Sigma_k)}{\sum_{j=1}^K \pi_j \mathcal{N}(f(x_i)|\mu_j,\Sigma_j)}$
Selecciona el fotograma más cercano al centro de agrupamiento como fotograma clave: $x_k^c = \arg\min_{x_i} \|f(x_i) - \mu_k\|_2$

Mecanismo de Atención Ponderada Temporal (TWA):

Los fotogramas clave actúan como consulta (Q), los fotogramas de secuencia original como claves (K) y valores (V)
Función de peso temporal: $g(\Delta t_{i,j}) = \exp(-\frac{\Delta t_{i,j}^2}{2\delta^2})$
Pesos de atención: $a_{i,j} = \sigma(\frac{Q_i \cdot K_j^T}{\sqrt{d_k}} \cdot g(\Delta t_{i,j}))$
Representación de estado clave: $S_i = \sum_{j=1}^L a_{ij}V_j$

2. Módulo de Aprendizaje de Patrones de Acciones (APL)

Construcción del Gráfico de Transición de Estados:

Utiliza mecanismo de atención cruzada para cuantificar dependencias entre estados clave
Aristas de transición multidimensionales: $E_{i,j}, E_{j,i} = \text{CA}((S_i, S_j), (S_j, S_i))$
A diferencia de la codificación de relaciones única tradicional, las aristas multidimensionales pueden capturar múltiples relaciones de dependencia complejas

Modelado de Dinámicas de Acciones:

Utiliza red de convolución de gráfos con compuerta (Gated GCN) para procesar el gráfico de transición de estados
Genera pistas futuras latentes como representación de intención
Proporciona contexto esperado para tareas posteriores

3. Módulo de Interacción Temporal Cruzada (CTI)

Tres Clases de Características Temporales:

Características pasadas $F_p$ : Estados clave históricos
Características actuales $F_c$ : Dinámicas de acciones inmediatas
Características futuras latentes $F_a$ : Tendencias de acciones inferidas del gráfico de transición de estados

Mecanismo de Interacción:

Representación temporal unificada: $F_t = [F_p, F_c, F_a]$
Actualización de características actuales: $F_c' = \text{CA}(F_c, F_t, F_t)$
Actualización de características futuras: $F_a' = \text{CA}(F_a, F_t', F_t')$ , donde $F_t' = [F_p, F_c', F_a]$

Puntos de Innovación Técnica

Paradigma de Estado vs Memoria: A diferencia de los métodos basados en memoria que procesan secuencias completas, este artículo se centra en la extracción de estados clave, reduciendo efectivamente la interferencia de redundancia
Modelado de Relaciones Multidimensionales: El diseño de aristas multidimensionales del gráfico de transición de estados puede capturar relaciones de acciones más ricas que los métodos tradicionales
Diseño Impulsado por Intención: Utiliza pistas futuras latentes como agente de intención, modelando el papel orientador de la intención en las acciones
Marco Unificado: Implementa la promoción mutua de tareas de detección y predicción mediante interacción temporal cruzada

Configuración Experimental

Conjuntos de Datos

EPIC-Kitchens-100: Conjunto de datos de actividades de cocina de gran escala desde la perspectiva de primera persona
THUMOS'14: Conjunto de datos de referencia para detección de acciones deportivas
TVSeries: Conjunto de datos de acciones en escenas de series de televisión
PDMB: Conjunto de datos de comportamiento de ratones con enfermedad de Parkinson (introducido por los autores)

Métricas de Evaluación

THUMOS'14: Media de Precisión Promedio (mAP)
TVSeries: Media de Precisión Promedio Calibrada (mcAP)
EPIC-Kitchens-100: Tasa de Recuperación Promedio Top-5 para verbos, nombres y acciones
PDMB: mAP y mcAP

Métodos de Comparación

Incluye múltiples métodos SOTA como TRN, LSTR, GateHub, TeSTra, MAT, AVT, etc.

Detalles de Implementación

Longitud de secuencia de memoria: $L_m = 511$
Número de agrupamientos: $K = 4$
Pesos de función de pérdida: Determinados mediante búsqueda en cuadrícula
Utiliza clasificador compartido para detección y predicción

Resultados Experimentales

Resultados Principales

Tarea de Predicción de Acciones:

EPIC-Kitchens-100 (RGB+OF+Obj): Verbo 44.9%, Nombre 48.3%, Acción 24.9%, superando la línea base UADT
THUMOS'14: Preentrenamiento Kinetics 61.9% vs MAT 58.2% (+3.7%)
TVSeries: Preentrenamiento Kinetics 85.1% vs MAT 82.6% (+2.5%)

Tarea de Detección de Acciones:

THUMOS'14: Preentrenamiento Kinetics 72.1% vs MAT 71.6% (+0.5%)
TVSeries: Preentrenamiento ActivityNet 89.8% vs MAT 88.6% (+1.2%)
EPIC-Kitchens-100: Verbo 49.4%, Nombre 51.9%, Acción 30.6%, mejorando MAT-MC en 4.9%, 3.6%, 4.3% respectivamente

Experimentos de Ablación

Análisis de Interacción Temporal Cruzada:

Sin interacción: Detección 46.1%, Predicción 43.9%
Pasado + Actual: Detección 51.1%, Predicción 43.9%
Pasado + Actual + Futuro: Detección 71.8%, Predicción 58.1%

Análisis de Parámetros Clave:

Rendimiento óptimo cuando $L_m = 511$
Número de agrupamientos $K = 4$ logra el mejor equilibrio
Clasificador compartido supera a clasificadores independientes

Análisis de Eficiencia

La velocidad de inferencia en GPU A100 alcanza nivel SOTA, incluyendo cálculo de flujo óptico, extracción de características e inferencia del modelo en procesamiento de extremo a extremo.

Análisis de Visualización

Visualización de Atención: El mecanismo TWA puede enfocarse efectivamente en regiones de acciones clave, suprimiendo interferencias de fondo
Comparación Cualitativa: En comparación con métodos de línea base, SSM muestra mejor rendimiento en detección de límites de acciones y confianza

Trabajo Relacionado

Detección de Acciones en Línea

Los métodos tempranos se basaban principalmente en arquitecturas RNN/CNN, como TRN que modela contexto temporal. Con el éxito de Transformer, métodos con mecanismos de atención como OadTR, LSTR se convirtieron en la corriente principal. GateHub introduce unidades de historial con compuerta para suprimir secuencias de fondo.

Predicción de Acciones en Línea

Desde Dual-LSTM temprano hasta arquitecturas Transformer recientes como AVT. La mayoría de los trabajos se centran en diseño de tarea única, ignorando la complementariedad con la tarea de detección.

Ventajas de Este Artículo

Marco unificado que maneja simultáneamente detección y predicción
Diseño estatal que reduce redundancia de secuencia
Modelado de intención que mejora la comprensión de acciones

Conclusiones y Discusión

Conclusiones Principales

El marco SSM mejora efectivamente el rendimiento de comprensión de acciones mediante extracción de estados clave e interacción temporal cruzada
El gráfico de transición de estados puede capturar patrones dinámicos de acciones complejos
El modelado de intención es crucial para predicción de acciones precisa
La optimización conjunta de tareas de detección y predicción tiene ventajas significativas

Limitaciones

Limitaciones de Comprensión Semántica: Aún hay espacio para mejora en clasificación de nombres de grano fino
Manejo de Acciones Repentinas: Dificultad en predicción de acciones espontáneas que carecen de patrones obvios
Complejidad Computacional: La construcción del gráfico de transición de estados añade cierta sobrecarga computacional
Sensibilidad de Parámetros: Hiperparámetros como número de agrupamientos requieren ajuste para diferentes conjuntos de datos

Direcciones Futuras

Mejorar capacidad de comprensión semántica de grano fino
Explorar métodos más robustos para modelado de acciones repentinas
Optimizar eficiencia computacional para aplicaciones en tiempo real
Extender a más tareas de comprensión de acciones

Evaluación Profunda

Fortalezas

Innovación Fuerte: El diseño estatal e interacción temporal cruzada proporcionan una nueva perspectiva para la comprensión de acciones
Técnica Completa: Los tres módulos están bien diseñados, cada uno con su función pero trabajando en coordinación
Experimentación Suficiente: Validación en múltiples conjuntos de datos y experimentos de ablación detallados demuestran la efectividad del método
Rendimiento Excelente: Alcanza nivel SOTA en múltiples puntos de referencia
Escritura Clara: Descripción detallada del método, análisis de visualización abundante

Deficiencias

Análisis Teórico Insuficiente: Falta análisis teórico sobre convergencia y complejidad del método
Limitaciones de Conjunto de Datos: Validación principalmente en conjuntos de datos visuales, capacidad de generalización multimodal desconocida
Análisis de Rendimiento en Tiempo Real: Aunque se menciona eficiencia, falta análisis detallado de rendimiento en tiempo real
Análisis de Casos de Fallo: Análisis relativamente limitado de escenarios donde el método falla

Impacto

Valor Académico: Proporciona nuevas ideas de modelado para comprensión de acciones, potencialmente inspirando investigaciones posteriores
Valor Práctico: El diseño de marco unificado tiene buenas perspectivas de aplicación
Reproducibilidad: Descripción detallada del método facilita reproducción y mejora

Escenarios Aplicables

Vigilancia Inteligente: Detección de acciones en tiempo real y predicción de anomalías
Interacción Humano-Máquina: Comprensión de acciones de robots y respuesta
Conducción Autónoma: Predicción de comportamiento de peatones y evitación de colisiones
Análisis Deportivo: Análisis de acciones de atletas y predicción táctica

Referencias

El artículo cita 93 referencias relacionadas, cubriendo múltiples campos relevantes incluyendo detección de acciones, predicción de acciones, mecanismos de atención y redes neuronales de gráfos, proporcionando una base teórica sólida para esta investigación.

Evaluación General: Este es un artículo de alta calidad en visión por computadora que propone una solución innovadora en el campo de la comprensión de acciones. El diseño del método es razonable, la verificación experimental es suficiente, y se logran mejoras significativas de rendimiento en múltiples conjuntos de datos de referencia. Aunque hay espacio para mejora en análisis teórico y ciertos detalles técnicos, en general es una contribución de investigación valiosa.