2025-11-13T07:31:10.185499

Learning to Recognize Correctly Completed Procedure Steps in Egocentric Assembly Videos through Spatio-Temporal Modeling

Schoonbeek, Hung, Lehman et al.
Procedure step recognition (PSR) aims to identify all correctly completed steps and their sequential order in videos of procedural tasks. The existing state-of-the-art models rely solely on detecting assembly object states in individual video frames. By neglecting temporal features, model robustness and accuracy are limited, especially when objects are partially occluded. To overcome these limitations, we propose Spatio-Temporal Occlusion-Resilient Modeling for Procedure Step Recognition (STORM-PSR), a dual-stream framework for PSR that leverages both spatial and temporal features. The assembly state detection stream operates effectively with unobstructed views of the object, while the spatio-temporal stream captures both spatial and temporal features to recognize step completions even under partial occlusion. This stream includes a spatial encoder, pre-trained using a novel weakly supervised approach to capture meaningful spatial representations, and a transformer-based temporal encoder that learns how these spatial features relate over time. STORM-PSR is evaluated on the MECCANO and IndustReal datasets, reducing the average delay between actual and predicted assembly step completions by 11.2% and 26.1%, respectively, compared to prior methods. We demonstrate that this reduction in delay is driven by the spatio-temporal stream, which does not rely on unobstructed views of the object to infer completed steps. The code for STORM-PSR, along with the newly annotated MECCANO labels, is made publicly available at https://timschoonbeek.github.io/stormpsr .
academic

Aprendizaje para Reconocer Pasos de Procedimiento Completados Correctamente en Videos de Ensamblaje Egocéntricos mediante Modelado Espacio-Temporal

Información Básica

  • ID del Artículo: 2510.12385
  • Título: Learning to Recognize Correctly Completed Procedure Steps in Egocentric Assembly Videos through Spatio-Temporal Modeling
  • Autores: Tim J. Schoonbeek, Shao-Hsuan Hung, Dan Lehman, Hans Onvlee, Jacek Kustra, Peter H.N. de With, Fons van der Sommen
  • Clasificación: cs.CV (Visión por Computadora)
  • Fecha de Publicación: 14 de octubre de 2025 (preimpresión arXiv)
  • Revista: Computer Vision and Image Understanding (Aceptado)
  • Enlace del Artículo: https://arxiv.org/abs/2510.12385

Resumen

El reconocimiento de pasos de procedimiento (PSR) tiene como objetivo identificar todos los pasos completados correctamente en videos de tareas de procedimiento y su orden. Los modelos de última generación existentes dependen únicamente de la detección del estado de los objetos de ensamblaje en fotogramas individuales de video, ignorando características temporales, lo que resulta en robustez y precisión limitadas del modelo, especialmente cuando los objetos están parcialmente ocluidos. Para superar estas limitaciones, este artículo propone STORM-PSR (Modelado Espacio-Temporal Resiliente a Oclusiones para Reconocimiento de Pasos de Procedimiento), un marco PSR de dos flujos que aprovecha características espaciales y temporales. El flujo de detección de estado de ensamblaje funciona efectivamente cuando los objetos no están ocluidos, mientras que el flujo espacio-temporal captura características espaciales y temporales, permitiendo el reconocimiento de finalización de pasos incluso bajo oclusión parcial. El método se evalúa en los conjuntos de datos MECCANO e IndustReal, reduciendo el retraso promedio entre la finalización real y predicha de pasos de ensamblaje en 11.2% y 26.1% respectivamente en comparación con métodos existentes.

Antecedentes de Investigación y Motivación

Definición del Problema

El reconocimiento de pasos de procedimiento (PSR) es una tarea importante de visión por computadora en escenarios de asistencia industrial, cuyo objetivo es identificar los pasos de procedimiento completados correctamente en video y sus tiempos de finalización. Esto es significativo para automatización industrial, control de calidad y sistemas de asistencia al operador.

Limitaciones de Métodos Existentes

  1. Dependencia de Vistas Completas: Los métodos existentes se basan principalmente en detección de estado de ensamblaje (ASD), requiriendo que los objetos sean completamente visibles sin oclusión
  2. Ignorancia de Información Temporal: Utilizan únicamente información espacial de fotogramas individuales, sin aprovechar la continuidad temporal del video
  3. Desafíos de Perspectiva Egocéntrica: En videos de perspectiva centrada en el ego, las manos y herramientas ocluyen frecuentemente objetos clave, causando retrasos en el reconocimiento

Motivación de la Investigación

En escenarios industriales, el reconocimiento de pasos oportuno y preciso es crítico para:

  • Monitoreo de calidad en tiempo real
  • Orientación del operador y prevención de errores
  • Verificación automática de ensamblaje y otras aplicaciones. El retraso significativo de métodos existentes en situaciones de oclusión limita su practicidad.

Contribuciones Principales

  1. Marco STORM-PSR: Propone el primer modelo espacio-temporal de dos flujos que optimiza directamente la tarea PSR, en lugar de inferir finalización de pasos a partir de estado de ensamblaje
  2. Estrategias de Entrenamiento Novedosas:
    • Muestreo de Fotogramas Clave (KFS): Preentrenamiento débilmente supervisado del codificador espacial
    • Muestreo Consciente de Segmentos Clave (KCAS): Nueva estrategia de muestreo para el codificador temporal
  3. Contribución de Conjunto de Datos: Proporciona anotaciones PSR y ASD para el conjunto de datos MECCANO, estableciendo puntos de referencia de rendimiento
  4. Mejora Significativa de Rendimiento: Reduce sustancialmente el retraso de reconocimiento en dos conjuntos de datos, manteniendo o mejorando otros indicadores de rendimiento

Explicación Detallada del Método

Definición de Tarea

Dado un video de entrada Xt=(x1,x2,,xt)X_t = (x_1, x_2, \cdots, x_t) y un conjunto de acciones de procedimiento P={p0,,pN}P = \{p_0, \cdots, p_N\}, el objetivo de la tarea PSR es predecir el conjunto de pasos completados hasta el momento t:

Y^t={(a^σ(0),t^σ(0)),(a^σ(m),t^σ(m))}\hat{Y}_t = \{(\hat{a}_{\sigma(0)}, \hat{t}_{\sigma(0)}), \cdots (\hat{a}_{\sigma(m)}, \hat{t}_{\sigma(m)})\}

donde a^σ(i)\hat{a}_{\sigma(i)} representa la finalización de acción predicha y t^σ(i)\hat{t}_{\sigma(i)} representa el tiempo de finalización.

Arquitectura del Modelo

Diseño de Arquitectura de Dos Flujos

STORM-PSR adopta una arquitectura de dos flujos:

  • Flujo de Detección de Estado de Ensamblaje (S): Procesa fotogramas sin oclusión, detectando estado de ensamblaje completo basado en YOLOv8-M
  • Flujo Espacio-Temporal (T): Procesa situaciones de oclusión, prediciendo directamente finalización de pasos

La predicción final se obtiene mediante fusión de peso igual: y^k=0.5y^S,k+0.5y^T,k\hat{y}_k = 0.5 \cdot \hat{y}_{S,k} + 0.5 \cdot \hat{y}_{T,k}

Arquitectura del Flujo Espacio-Temporal

  1. Codificador Espacial: Modelo ViT-S preentrenado, extrayendo características espaciales a nivel de fotograma
  2. Codificador Temporal: Arquitectura Transformer, aprendiendo relaciones temporales
  3. Cabeza de Clasificación: MLP implementando clasificación multiétiqueta

Innovaciones Técnicas Clave

1. Muestreo de Fotogramas Clave (KFS)

Estrategia de preentrenamiento débilmente supervisado, utilizando anotaciones de finalización de pasos dispersas:

  • Muestreo de fotogramas alrededor de marcas de tiempo de finalización de pasos
  • Uso de pérdida de contraste supervisado para aprender representaciones espaciales robustas
  • Integración de aumento de datos sintéticos para entrenamiento

2. Muestreo Consciente de Segmentos Clave (KCAS)

Estrategia de muestreo basada en distribución bimodal: pi(x)=tjT[g(xtjδ,σ)+g(xtj+δ,σ)]p_i(x) = \sum_{t_j \in T} [g(x | t_j - \delta, \sigma) + g(x | t_j + \delta, \sigma)]

  • Sobremuestreo de segmentos antes y después de finalización de pasos
  • Submuestreo de momentos ambiguos y segmentos de fondo
  • Proporciona más muestras positivas y muestras negativas difíciles

Configuración Experimental

Conjuntos de Datos

  1. IndustReal: 26.9K fotogramas anotados, incluyendo soporte de datos sintéticos
  2. MECCANO: 13.6K fotogramas recién anotados, escenarios de oclusión más desafiantes

Métricas de Evaluación

  1. Similitud de Orden de Procedimiento (POS): Precisión de orden basada en distancia de edición
  2. Puntuación F1: Media armónica de precisión y recuperación
  3. Retraso Promedio (τ): Diferencia de tiempo entre finalización real y reconocimiento

Detalles de Implementación

  • Codificador espacial: ViT-S preentrenado en ImageNet-21K
  • Codificador temporal: 6 capas de autoatención, 8 cabezas de atención
  • Optimizador: SGD, tasa de aprendizaje 10^-3, programación de annealing coseno
  • Resolución de entrada: 224×224 píxeles

Resultados Experimentales

Resultados Principales

MétodoIndustRealMECCANO
POS↑F1↑τ↓POS↑F1↑τ↓
Línea Base IndustReal0.7970.89121.00.3540.54599.8
Flujo Espacio-Temporal Solo0.4970.50614.20.2060.247120.3
STORM-PSR0.8120.90115.50.3770.49788.6

Hallazgos Clave

  1. Reducción Significativa de Retraso: 26.1% en IndustReal, 11.2% en MECCANO
  2. Mejora de Rendimiento: Todos los indicadores alcanzan óptimos en IndustReal
  3. Verificación de Complementariedad: La arquitectura de dos flujos combina efectivamente las ventajas de ambos métodos

Experimentos de Ablación

Impacto de Estrategias de Muestreo

  • Sin preentrenamiento KFS: El codificador temporal no puede aprender características efectivas
  • Solo KFS: Mejora de rendimiento limitada
  • KFS+KCAS: Mejora significativa de rendimiento (14%-79%)

Comparación de Modelado Temporal

Transformer > LSTM > TCN, verificando la ventaja del mecanismo de atención en modelado de dependencias a largo plazo.

Tamaño de Ventana Temporal

Ventanas temporales más grandes (256 fotogramas) proporcionan mejor rendimiento, pero con mayor costo computacional.

Trabajo Relacionado

Investigación en Comprensión de Procedimientos

  • Reconocimiento de Acciones: Clasificación de segmentos de video cortos
  • Segmentación de Acciones Temporal: Detección de límites de acciones en video largo
  • Reconocimiento de Pasos Clave: Detección de momentos clave
  • Detección de Estado de Ensamblaje: Reconocimiento de estado basado en fotogramas individuales

Distinción de Este Trabajo con Trabajos Existentes

  1. Primero en optimizar directamente la tarea PSR en lugar de depender de inferencia ASD
  2. Aborda explícitamente el problema de oclusión
  3. Introduce modelado temporal para resolver limitaciones de métodos de fotograma único

Conclusiones y Discusión

Conclusiones Principales

  1. El modelado espacio-temporal reduce significativamente el retraso de reconocimiento en PSR
  2. La arquitectura de dos flujos combina efectivamente las ventajas de detección espacial y razonamiento temporal
  3. El preentrenamiento débilmente supervisado y estrategias de muestreo inteligente son críticos para mejora de rendimiento

Limitaciones

  1. Requisitos de Datos: Los modelos espacio-temporales requieren más datos de entrenamiento
  2. Sobrecarga Computacional: Mayor complejidad computacional comparado con métodos de un flujo (75.1 vs 284.8 FPS)
  3. Limitaciones de Ventana Temporal: El tamaño de ventana fijo limita la comprensión de procedimiento global
  4. Escala de Conjunto de Datos: La dispersión de datos en MECCANO afecta el aprendizaje espacio-temporal

Direcciones Futuras

  1. Extensión de Ventana Temporal: Explorar relaciones temporales más largas
  2. Fusión Adaptativa: Aprender estrategias de fusión de dos flujos basadas en datos
  3. Aumento de Datos Sintéticos: Usar tecnologías como NeRF para generar más datos de entrenamiento
  4. Modelado de Video Completo: Considerar métodos que procesen la secuencia de video completa

Evaluación Profunda

Fortalezas

  1. Especificidad del Problema: Aborda directamente puntos débiles prácticos en escenarios industriales
  2. Innovación Técnica Evidente: Primera aplicación de modelado espacio-temporal a PSR, diseño ingenioso
  3. Experimentación Completa: Experimentos de ablación suficientes verifican contribución de cada componente
  4. Alto Valor Práctico: La reducción significativa de retraso tiene importancia considerable para aplicaciones reales
  5. Contribución de Código Abierto: Proporciona código y anotaciones de nuevo conjunto de datos

Insuficiencias

  1. Generalidad Limitada: Enfocado principalmente en tareas de ensamblaje, aplicabilidad a otros tipos de procedimientos por verificar
  2. Compensación de Eficiencia: La mejora de rendimiento se logra a costa de mayor sobrecarga computacional
  3. Análisis Teórico Insuficiente: Falta explicación teórica del aprendizaje de características espacio-temporales
  4. Análisis de Errores: Análisis relativamente limitado de casos de fallo

Impacto

  1. Contribución Académica: Introduce nuevo paradigma de modelado para el campo PSR
  2. Valor Industrial: Aplicación directa a control de calidad en manufactura y asistencia al operador
  3. Reproducibilidad: Proporciona código completo y datos, facilitando investigación posterior
  4. Inspiración: Proporciona ideas de modelado espacio-temporal para otras tareas de comprensión de procedimientos

Escenarios Aplicables

  1. Ensamblaje Industrial: Monitoreo de ensamblaje de productos electrónicos y componentes mecánicos
  2. Inspección de Calidad: Verificación de pasos de ensamblaje en tiempo real
  3. Sistemas de Capacitación: Evaluación de habilidades de operador y orientación
  4. Integración de Automatización: Escenarios de interacción humano-máquina con colaboración de sistemas robóticos

Referencias

El artículo cita 59 referencias relacionadas, cubriendo principalmente:

  • Trabajos clásicos en comprensión de procedimientos y reconocimiento de acciones
  • Investigación relacionada con detección de estado de ensamblaje
  • Métodos de aprendizaje de representación y aprendizaje contrastivo
  • Mecanismos de atención y arquitectura Transformer
  • Trabajos de construcción de conjuntos de datos relacionados

Este artículo realiza contribuciones importantes al campo del reconocimiento de pasos de procedimiento. Mediante un diseño ingenioso de dos flujos y estrategias de entrenamiento innovadoras, resuelve efectivamente las limitaciones de métodos existentes en escenarios de oclusión. Aunque presenta desafíos en sobrecarga computacional y generalidad, su valor práctico en aplicaciones industriales e innovación académica lo convierten en un progreso importante en el campo.