2025-11-13T07:31:10.185499

Learning to Recognize Correctly Completed Procedure Steps in Egocentric Assembly Videos through Spatio-Temporal Modeling

Schoonbeek, Hung, Lehman et al.

Procedure step recognition (PSR) aims to identify all correctly completed steps and their sequential order in videos of procedural tasks. The existing state-of-the-art models rely solely on detecting assembly object states in individual video frames. By neglecting temporal features, model robustness and accuracy are limited, especially when objects are partially occluded. To overcome these limitations, we propose Spatio-Temporal Occlusion-Resilient Modeling for Procedure Step Recognition (STORM-PSR), a dual-stream framework for PSR that leverages both spatial and temporal features. The assembly state detection stream operates effectively with unobstructed views of the object, while the spatio-temporal stream captures both spatial and temporal features to recognize step completions even under partial occlusion. This stream includes a spatial encoder, pre-trained using a novel weakly supervised approach to capture meaningful spatial representations, and a transformer-based temporal encoder that learns how these spatial features relate over time. STORM-PSR is evaluated on the MECCANO and IndustReal datasets, reducing the average delay between actual and predicted assembly step completions by 11.2% and 26.1%, respectively, compared to prior methods. We demonstrate that this reduction in delay is driven by the spatio-temporal stream, which does not rely on unobstructed views of the object to infer completed steps. The code for STORM-PSR, along with the newly annotated MECCANO labels, is made publicly available at https://timschoonbeek.github.io/stormpsr .

academic

Aprendizaje para Reconocer Pasos de Procedimiento Completados Correctamente en Videos de Ensamblaje Egocéntricos mediante Modelado Espacio-Temporal

Información Básica

ID del Artículo: 2510.12385
Título: Learning to Recognize Correctly Completed Procedure Steps in Egocentric Assembly Videos through Spatio-Temporal Modeling
Autores: Tim J. Schoonbeek, Shao-Hsuan Hung, Dan Lehman, Hans Onvlee, Jacek Kustra, Peter H.N. de With, Fons van der Sommen
Clasificación: cs.CV (Visión por Computadora)
Fecha de Publicación: 14 de octubre de 2025 (preimpresión arXiv)
Revista: Computer Vision and Image Understanding (Aceptado)
Enlace del Artículo: https://arxiv.org/abs/2510.12385

Resumen

El reconocimiento de pasos de procedimiento (PSR) tiene como objetivo identificar todos los pasos completados correctamente en videos de tareas de procedimiento y su orden. Los modelos de última generación existentes dependen únicamente de la detección del estado de los objetos de ensamblaje en fotogramas individuales de video, ignorando características temporales, lo que resulta en robustez y precisión limitadas del modelo, especialmente cuando los objetos están parcialmente ocluidos. Para superar estas limitaciones, este artículo propone STORM-PSR (Modelado Espacio-Temporal Resiliente a Oclusiones para Reconocimiento de Pasos de Procedimiento), un marco PSR de dos flujos que aprovecha características espaciales y temporales. El flujo de detección de estado de ensamblaje funciona efectivamente cuando los objetos no están ocluidos, mientras que el flujo espacio-temporal captura características espaciales y temporales, permitiendo el reconocimiento de finalización de pasos incluso bajo oclusión parcial. El método se evalúa en los conjuntos de datos MECCANO e IndustReal, reduciendo el retraso promedio entre la finalización real y predicha de pasos de ensamblaje en 11.2% y 26.1% respectivamente en comparación con métodos existentes.

Antecedentes de Investigación y Motivación

Definición del Problema

El reconocimiento de pasos de procedimiento (PSR) es una tarea importante de visión por computadora en escenarios de asistencia industrial, cuyo objetivo es identificar los pasos de procedimiento completados correctamente en video y sus tiempos de finalización. Esto es significativo para automatización industrial, control de calidad y sistemas de asistencia al operador.

Limitaciones de Métodos Existentes

Dependencia de Vistas Completas: Los métodos existentes se basan principalmente en detección de estado de ensamblaje (ASD), requiriendo que los objetos sean completamente visibles sin oclusión
Ignorancia de Información Temporal: Utilizan únicamente información espacial de fotogramas individuales, sin aprovechar la continuidad temporal del video
Desafíos de Perspectiva Egocéntrica: En videos de perspectiva centrada en el ego, las manos y herramientas ocluyen frecuentemente objetos clave, causando retrasos en el reconocimiento

Motivación de la Investigación

En escenarios industriales, el reconocimiento de pasos oportuno y preciso es crítico para:

Monitoreo de calidad en tiempo real
Orientación del operador y prevención de errores
Verificación automática de ensamblaje y otras aplicaciones. El retraso significativo de métodos existentes en situaciones de oclusión limita su practicidad.

Contribuciones Principales

Marco STORM-PSR: Propone el primer modelo espacio-temporal de dos flujos que optimiza directamente la tarea PSR, en lugar de inferir finalización de pasos a partir de estado de ensamblaje
Estrategias de Entrenamiento Novedosas:
- Muestreo de Fotogramas Clave (KFS): Preentrenamiento débilmente supervisado del codificador espacial
- Muestreo Consciente de Segmentos Clave (KCAS): Nueva estrategia de muestreo para el codificador temporal
Contribución de Conjunto de Datos: Proporciona anotaciones PSR y ASD para el conjunto de datos MECCANO, estableciendo puntos de referencia de rendimiento
Mejora Significativa de Rendimiento: Reduce sustancialmente el retraso de reconocimiento en dos conjuntos de datos, manteniendo o mejorando otros indicadores de rendimiento

Explicación Detallada del Método

Definición de Tarea

Dado un video de entrada $X_t = (x_1, x_2, \cdots, x_t)$ y un conjunto de acciones de procedimiento $P = \{p_0, \cdots, p_N\}$ , el objetivo de la tarea PSR es predecir el conjunto de pasos completados hasta el momento t:

$\hat{Y}_t = \{(\hat{a}_{\sigma(0)}, \hat{t}_{\sigma(0)}), \cdots (\hat{a}_{\sigma(m)}, \hat{t}_{\sigma(m)})\}$

donde $\hat{a}_{\sigma(i)}$ representa la finalización de acción predicha y $\hat{t}_{\sigma(i)}$ representa el tiempo de finalización.

Arquitectura del Modelo

Diseño de Arquitectura de Dos Flujos

STORM-PSR adopta una arquitectura de dos flujos:

Flujo de Detección de Estado de Ensamblaje (S): Procesa fotogramas sin oclusión, detectando estado de ensamblaje completo basado en YOLOv8-M
Flujo Espacio-Temporal (T): Procesa situaciones de oclusión, prediciendo directamente finalización de pasos

La predicción final se obtiene mediante fusión de peso igual: $\hat{y}_k = 0.5 \cdot \hat{y}_{S,k} + 0.5 \cdot \hat{y}_{T,k}$

Arquitectura del Flujo Espacio-Temporal

Codificador Espacial: Modelo ViT-S preentrenado, extrayendo características espaciales a nivel de fotograma
Codificador Temporal: Arquitectura Transformer, aprendiendo relaciones temporales
Cabeza de Clasificación: MLP implementando clasificación multiétiqueta

Innovaciones Técnicas Clave

1. Muestreo de Fotogramas Clave (KFS)

Estrategia de preentrenamiento débilmente supervisado, utilizando anotaciones de finalización de pasos dispersas:

Muestreo de fotogramas alrededor de marcas de tiempo de finalización de pasos
Uso de pérdida de contraste supervisado para aprender representaciones espaciales robustas
Integración de aumento de datos sintéticos para entrenamiento

2. Muestreo Consciente de Segmentos Clave (KCAS)

Estrategia de muestreo basada en distribución bimodal: $p_i(x) = \sum_{t_j \in T} [g(x | t_j - \delta, \sigma) + g(x | t_j + \delta, \sigma)]$

Sobremuestreo de segmentos antes y después de finalización de pasos
Submuestreo de momentos ambiguos y segmentos de fondo
Proporciona más muestras positivas y muestras negativas difíciles

Configuración Experimental

Conjuntos de Datos

IndustReal: 26.9K fotogramas anotados, incluyendo soporte de datos sintéticos
MECCANO: 13.6K fotogramas recién anotados, escenarios de oclusión más desafiantes

Métricas de Evaluación

Similitud de Orden de Procedimiento (POS): Precisión de orden basada en distancia de edición
Puntuación F1: Media armónica de precisión y recuperación
Retraso Promedio (τ): Diferencia de tiempo entre finalización real y reconocimiento

Detalles de Implementación

Codificador espacial: ViT-S preentrenado en ImageNet-21K
Codificador temporal: 6 capas de autoatención, 8 cabezas de atención
Optimizador: SGD, tasa de aprendizaje 10^-3, programación de annealing coseno
Resolución de entrada: 224×224 píxeles

Resultados Experimentales

Resultados Principales

Método	IndustReal			MECCANO
	POS↑	F1↑	τ↓	POS↑	F1↑	τ↓
Línea Base IndustReal	0.797	0.891	21.0	0.354	0.545	99.8
Flujo Espacio-Temporal Solo	0.497	0.506	14.2	0.206	0.247	120.3
STORM-PSR	0.812	0.901	15.5	0.377	0.497	88.6

Hallazgos Clave

Reducción Significativa de Retraso: 26.1% en IndustReal, 11.2% en MECCANO
Mejora de Rendimiento: Todos los indicadores alcanzan óptimos en IndustReal
Verificación de Complementariedad: La arquitectura de dos flujos combina efectivamente las ventajas de ambos métodos

Experimentos de Ablación

Impacto de Estrategias de Muestreo

Sin preentrenamiento KFS: El codificador temporal no puede aprender características efectivas
Solo KFS: Mejora de rendimiento limitada
KFS+KCAS: Mejora significativa de rendimiento (14%-79%)

Comparación de Modelado Temporal

Transformer > LSTM > TCN, verificando la ventaja del mecanismo de atención en modelado de dependencias a largo plazo.

Tamaño de Ventana Temporal

Ventanas temporales más grandes (256 fotogramas) proporcionan mejor rendimiento, pero con mayor costo computacional.

Trabajo Relacionado

Investigación en Comprensión de Procedimientos

Reconocimiento de Acciones: Clasificación de segmentos de video cortos
Segmentación de Acciones Temporal: Detección de límites de acciones en video largo
Reconocimiento de Pasos Clave: Detección de momentos clave
Detección de Estado de Ensamblaje: Reconocimiento de estado basado en fotogramas individuales

Distinción de Este Trabajo con Trabajos Existentes

Primero en optimizar directamente la tarea PSR en lugar de depender de inferencia ASD
Aborda explícitamente el problema de oclusión
Introduce modelado temporal para resolver limitaciones de métodos de fotograma único

Conclusiones y Discusión

Conclusiones Principales

El modelado espacio-temporal reduce significativamente el retraso de reconocimiento en PSR
La arquitectura de dos flujos combina efectivamente las ventajas de detección espacial y razonamiento temporal
El preentrenamiento débilmente supervisado y estrategias de muestreo inteligente son críticos para mejora de rendimiento

Limitaciones

Requisitos de Datos: Los modelos espacio-temporales requieren más datos de entrenamiento
Sobrecarga Computacional: Mayor complejidad computacional comparado con métodos de un flujo (75.1 vs 284.8 FPS)
Limitaciones de Ventana Temporal: El tamaño de ventana fijo limita la comprensión de procedimiento global
Escala de Conjunto de Datos: La dispersión de datos en MECCANO afecta el aprendizaje espacio-temporal

Direcciones Futuras

Extensión de Ventana Temporal: Explorar relaciones temporales más largas
Fusión Adaptativa: Aprender estrategias de fusión de dos flujos basadas en datos
Aumento de Datos Sintéticos: Usar tecnologías como NeRF para generar más datos de entrenamiento
Modelado de Video Completo: Considerar métodos que procesen la secuencia de video completa

Evaluación Profunda

Fortalezas

Especificidad del Problema: Aborda directamente puntos débiles prácticos en escenarios industriales
Innovación Técnica Evidente: Primera aplicación de modelado espacio-temporal a PSR, diseño ingenioso
Experimentación Completa: Experimentos de ablación suficientes verifican contribución de cada componente
Alto Valor Práctico: La reducción significativa de retraso tiene importancia considerable para aplicaciones reales
Contribución de Código Abierto: Proporciona código y anotaciones de nuevo conjunto de datos

Insuficiencias

Generalidad Limitada: Enfocado principalmente en tareas de ensamblaje, aplicabilidad a otros tipos de procedimientos por verificar
Compensación de Eficiencia: La mejora de rendimiento se logra a costa de mayor sobrecarga computacional
Análisis Teórico Insuficiente: Falta explicación teórica del aprendizaje de características espacio-temporales
Análisis de Errores: Análisis relativamente limitado de casos de fallo

Impacto

Contribución Académica: Introduce nuevo paradigma de modelado para el campo PSR
Valor Industrial: Aplicación directa a control de calidad en manufactura y asistencia al operador
Reproducibilidad: Proporciona código completo y datos, facilitando investigación posterior
Inspiración: Proporciona ideas de modelado espacio-temporal para otras tareas de comprensión de procedimientos

Escenarios Aplicables

Ensamblaje Industrial: Monitoreo de ensamblaje de productos electrónicos y componentes mecánicos
Inspección de Calidad: Verificación de pasos de ensamblaje en tiempo real
Sistemas de Capacitación: Evaluación de habilidades de operador y orientación
Integración de Automatización: Escenarios de interacción humano-máquina con colaboración de sistemas robóticos

Referencias

El artículo cita 59 referencias relacionadas, cubriendo principalmente:

Trabajos clásicos en comprensión de procedimientos y reconocimiento de acciones
Investigación relacionada con detección de estado de ensamblaje
Métodos de aprendizaje de representación y aprendizaje contrastivo
Mecanismos de atención y arquitectura Transformer
Trabajos de construcción de conjuntos de datos relacionados

Este artículo realiza contribuciones importantes al campo del reconocimiento de pasos de procedimiento. Mediante un diseño ingenioso de dos flujos y estrategias de entrenamiento innovadoras, resuelve efectivamente las limitaciones de métodos existentes en escenarios de oclusión. Aunque presenta desafíos en sobrecarga computacional y generalidad, su valor práctico en aplicaciones industriales e innovación académica lo convierten en un progreso importante en el campo.