Procedure step recognition (PSR) aims to identify all correctly completed steps and their sequential order in videos of procedural tasks. The existing state-of-the-art models rely solely on detecting assembly object states in individual video frames. By neglecting temporal features, model robustness and accuracy are limited, especially when objects are partially occluded. To overcome these limitations, we propose Spatio-Temporal Occlusion-Resilient Modeling for Procedure Step Recognition (STORM-PSR), a dual-stream framework for PSR that leverages both spatial and temporal features. The assembly state detection stream operates effectively with unobstructed views of the object, while the spatio-temporal stream captures both spatial and temporal features to recognize step completions even under partial occlusion. This stream includes a spatial encoder, pre-trained using a novel weakly supervised approach to capture meaningful spatial representations, and a transformer-based temporal encoder that learns how these spatial features relate over time. STORM-PSR is evaluated on the MECCANO and IndustReal datasets, reducing the average delay between actual and predicted assembly step completions by 11.2% and 26.1%, respectively, compared to prior methods. We demonstrate that this reduction in delay is driven by the spatio-temporal stream, which does not rely on unobstructed views of the object to infer completed steps. The code for STORM-PSR, along with the newly annotated MECCANO labels, is made publicly available at https://timschoonbeek.github.io/stormpsr .
- ID de l'article: 2510.12385
- Titre: Learning to Recognize Correctly Completed Procedure Steps in Egocentric Assembly Videos through Spatio-Temporal Modeling
- Auteurs: Tim J. Schoonbeek, Shao-Hsuan Hung, Dan Lehman, Hans Onvlee, Jacek Kustra, Peter H.N. de With, Fons van der Sommen
- Classification: cs.CV (Vision par Ordinateur)
- Date de Publication: 14 octobre 2025 (prépublication arXiv)
- Journal: Computer Vision and Image Understanding (accepté)
- Lien de l'article: https://arxiv.org/abs/2510.12385
La reconnaissance des étapes de procédure (REP) vise à identifier toutes les étapes correctement complétées d'une tâche procédurale dans une vidéo ainsi que leur ordre. Les modèles de pointe existants ne s'appuient que sur la détection de l'état des objets d'assemblage dans des images vidéo individuelles, en ignorant les caractéristiques temporelles, ce qui limite la robustesse et la précision du modèle, particulièrement lorsque les objets sont partiellement occultés. Pour surmonter ces limitations, cet article propose STORM-PSR (Modélisation Spatio-Temporelle Résiliente à l'Occlusion pour la Reconnaissance des Étapes de Procédure), un cadre REP à deux flux qui exploite les caractéristiques spatiales et temporelles. Le flux de détection d'état d'assemblage fonctionne efficacement lorsque les objets ne sont pas occultés, tandis que le flux spatio-temporel capture les caractéristiques spatiales et temporelles, permettant l'identification de l'achèvement des étapes même en cas d'occlusion partielle. La méthode est évaluée sur les ensembles de données MECCANO et IndustReal, réduisant respectivement le délai moyen entre l'achèvement réel et prédit des étapes d'assemblage de 11,2% et 26,1% par rapport aux méthodes existantes.
La reconnaissance des étapes de procédure (REP) est une tâche importante de la vision par ordinateur dans les scénarios d'assistance industrielle, visant à identifier les étapes de procédure correctement complétées dans une vidéo et le moment de leur achèvement. Ceci est crucial pour l'automatisation industrielle, le contrôle de qualité et les systèmes d'assistance aux opérateurs.
- Dépendance à une vue complète: Les méthodes existantes reposent principalement sur la détection d'état d'assemblage (DEA), nécessitant que les objets soient complètement visibles et sans occlusion
- Ignorance de l'information temporelle: Utilisation uniquement d'informations spatiales monoframe, sans exploiter la continuité temporelle de la vidéo
- Défis de la perspective égocentrée: Dans les vidéos à perspective égocentrée, les mains et les outils occultent fréquemment les objets clés, causant des délais de reconnaissance
Dans les scénarios industriels, la reconnaissance rapide et précise des étapes est cruciale pour:
- La surveillance de qualité en temps réel
- L'orientation des opérateurs et la prévention des erreurs
- La vérification automatisée de l'assemblage
et autres applications. Les délais significatifs des méthodes existantes en cas d'occlusion limitent leur utilité pratique.
- Cadre STORM-PSR: Proposition du premier modèle spatio-temporel à deux flux optimisant directement la tâche REP, plutôt que d'inférer l'achèvement des étapes à partir de l'état d'assemblage
- Stratégies d'entraînement novatrices:
- Échantillonnage des images clés (EIC): Préentraînement faiblement supervisé de l'encodeur spatial
- Échantillonnage conscient des segments clés (ECSC): Nouvelle stratégie d'échantillonnage pour l'encodeur temporel
- Contribution aux ensembles de données: Fourniture d'annotations REP et DEA pour l'ensemble de données MECCANO, établissant des références de performance
- Amélioration significative des performances: Réduction substantielle du délai de reconnaissance sur deux ensembles de données, tout en maintenant ou améliorant les autres indicateurs de performance
Étant donné une entrée vidéo Xt=(x1,x2,⋯,xt) et un ensemble d'actions procédurales P={p0,⋯,pN}, l'objectif de la tâche REP est de prédire l'ensemble des étapes complétées jusqu'au moment t:
Y^t={(a^σ(0),t^σ(0)),⋯(a^σ(m),t^σ(m))}
où a^σ(i) représente l'achèvement de l'action prédite et t^σ(i) représente le moment d'achèvement.
STORM-PSR adopte une architecture à deux flux:
- Flux de détection d'état d'assemblage (S): Traite les images sans occlusion, détectant l'état d'assemblage complet basé sur YOLOv8-M
- Flux spatio-temporel (T): Traite les cas d'occlusion, prédisant directement l'achèvement des étapes
La prédiction finale est obtenue par fusion à poids égaux:
y^k=0.5⋅y^S,k+0.5⋅y^T,k
- Encodeur spatial: Modèle ViT-S préentraîné, extrayant les caractéristiques spatiales au niveau des images
- Encodeur temporel: Architecture Transformer, apprenant les dépendances temporelles
- Tête de classification: MLP implémentant la classification multi-étiquettes
Stratégie de préentraînement faiblement supervisée, exploitant les annotations d'achèvement d'étapes éparses:
- Échantillonnage d'images autour des horodatages d'achèvement d'étapes
- Utilisation d'une perte de contraste supervisée pour apprendre des représentations spatiales robustes
- Intégration possible d'augmentation de données synthétiques pour l'entraînement
Stratégie d'échantillonnage basée sur une distribution bimodale:
pi(x)=∑tj∈T[g(x∣tj−δ,σ)+g(x∣tj+δ,σ)]
- Suréchanillonnage des segments avant et après l'achèvement des étapes
- Sous-échantillonnage des moments ambigus et des segments d'arrière-plan
- Fourniture de plus d'exemples positifs et d'exemples négatifs difficiles
- IndustReal: 26,9K images annotées, incluant un support de données synthétiques
- MECCANO: 13,6K images nouvellement annotées, scénarios d'occlusion plus difficiles
- Similarité d'Ordre Procédural (SOP): Précision de l'ordre basée sur la distance d'édition
- Score F1: Moyenne harmonique de la précision et du rappel
- Délai moyen (τ): Différence de temps entre l'achèvement réel et la reconnaissance
- Encodeur spatial: ViT-S préentraîné sur ImageNet-21K
- Encodeur temporel: 6 couches d'auto-attention, 8 têtes d'attention
- Optimiseur: SGD, taux d'apprentissage 10^-3, planification du recuit cosinus
- Résolution d'entrée: 224×224 pixels
| Méthode | IndustReal | | | MECCANO | | |
|---|
| SOP↑ | F1↑ | τ↓ | SOP↑ | F1↑ | τ↓ |
| Ligne de base IndustReal | 0,797 | 0,891 | 21,0 | 0,354 | 0,545 | 99,8 |
| Flux spatio-temporel seul | 0,497 | 0,506 | 14,2 | 0,206 | 0,247 | 120,3 |
| STORM-PSR | 0,812 | 0,901 | 15,5 | 0,377 | 0,497 | 88,6 |
- Réduction significative du délai: Réduction de 26,1% sur IndustReal, 11,2% sur MECCANO
- Amélioration des performances: Tous les indicateurs optimaux atteints sur IndustReal
- Vérification de la complémentarité: L'architecture à deux flux combine efficacement les avantages des deux approches
- Sans préentraînement EIC: L'encodeur temporel ne peut pas apprendre des caractéristiques efficaces
- EIC seul: Amélioration de performance limitée
- EIC+ECSC: Amélioration significative des performances (14%-79%)
Transformer > LSTM > TCN, validant l'avantage du mécanisme d'attention dans la modélisation des dépendances à long terme.
Une fenêtre temporelle plus grande (256 images) offre de meilleures performances, mais avec un coût de calcul accru.
- Reconnaissance d'actions: Classification de segments vidéo courts
- Segmentation d'actions temporelles: Détection des limites d'actions dans les vidéos longues
- Identification d'étapes clés: Détection de moments clés
- Détection d'état d'assemblage: Reconnaissance d'état basée sur monoframe
- Première optimisation directe de la tâche REP plutôt que dépendance à l'inférence DEA
- Traitement explicite du problème d'occlusion
- Introduction de la modélisation temporelle pour surmonter les limitations des méthodes monoframe
- La modélisation spatio-temporelle réduit significativement le délai de reconnaissance REP
- L'architecture à deux flux combine efficacement les avantages de la détection spatiale et du raisonnement temporel
- Le préentraînement faiblement supervisé et les stratégies d'échantillonnage intelligentes sont essentiels pour l'amélioration des performances
- Besoins en données: Les modèles spatio-temporels nécessitent plus de données d'entraînement
- Surcharge de calcul: Complexité de calcul plus élevée par rapport aux méthodes monoflux (75,1 vs 284,8 FPS)
- Limitation de la fenêtre temporelle: La taille de fenêtre fixe limite la compréhension procédurale globale
- Taille de l'ensemble de données: La rareté des données MECCANO affecte l'efficacité de l'apprentissage spatio-temporel
- Extension de la fenêtre temporelle: Exploration de dépendances temporelles plus longues
- Fusion adaptative: Apprentissage de stratégies de fusion à deux flux basées sur les données
- Augmentation de données synthétiques: Utilisation de technologies comme NeRF pour générer plus de données d'entraînement
- Modélisation vidéo complète: Approches considérant l'ensemble de la séquence vidéo
- Forte pertinence du problème: Résolution directe des points douloureux pratiques dans les scénarios industriels
- Innovation technique évidente: Première application de la modélisation spatio-temporelle à REP, conception ingénieuse
- Expérimentation complète: Études d'ablation suffisantes validant la contribution de chaque composant
- Valeur pratique élevée: La réduction significative du délai a une importance majeure pour les applications pratiques
- Contribution open-source: Fourniture de code et d'annotations de nouvel ensemble de données
- Généralité limitée: Principalement ciblée sur les tâches d'assemblage, applicabilité à d'autres types de procédures à vérifier
- Compromis d'efficacité: L'amélioration des performances au prix d'une augmentation de la surcharge de calcul
- Analyse théorique insuffisante: Manque d'explication théorique de l'apprentissage des caractéristiques spatio-temporelles
- Analyse d'erreurs: Analyse relativement limitée des cas d'échec
- Contribution académique: Introduction d'un nouveau paradigme de modélisation pour le domaine REP
- Valeur industrielle: Application directe au contrôle de qualité manufacturier et à l'assistance aux opérateurs
- Reproductibilité: Fourniture de code complet et de données, facilitant les recherches ultérieures
- Caractère inspirant: Fourniture d'idées de modélisation spatio-temporelle pour d'autres tâches de compréhension procédurale
- Assemblage industriel: Surveillance d'assemblage de produits électroniques et de pièces mécaniques
- Inspection de qualité: Vérification d'étapes d'assemblage en temps réel
- Systèmes de formation: Évaluation et orientation des compétences des opérateurs
- Intégration d'automatisation: Scénarios d'interaction homme-machine collaborant avec des systèmes robotiques
L'article cite 59 références connexes, couvrant principalement:
- Travaux classiques en compréhension procédurale et reconnaissance d'actions
- Recherches connexes en détection d'état d'assemblage
- Méthodes d'apprentissage de représentations et d'apprentissage par contraste
- Mécanismes d'attention et architectures Transformer
- Travaux de construction d'ensembles de données connexes
Cet article apporte une contribution importante au domaine de la reconnaissance des étapes de procédure. Grâce à une conception à deux flux ingénieuse et à des stratégies d'entraînement innovantes, il résout efficacement les limitations des méthodes existantes dans les scénarios d'occlusion. Bien qu'il présente des défis en termes de surcharge de calcul et de généralité, sa valeur pratique dans les applications industrielles et son innovation académique en font un progrès important dans ce domaine.