Procedure step recognition (PSR) aims to identify all correctly completed steps and their sequential order in videos of procedural tasks. The existing state-of-the-art models rely solely on detecting assembly object states in individual video frames. By neglecting temporal features, model robustness and accuracy are limited, especially when objects are partially occluded. To overcome these limitations, we propose Spatio-Temporal Occlusion-Resilient Modeling for Procedure Step Recognition (STORM-PSR), a dual-stream framework for PSR that leverages both spatial and temporal features. The assembly state detection stream operates effectively with unobstructed views of the object, while the spatio-temporal stream captures both spatial and temporal features to recognize step completions even under partial occlusion. This stream includes a spatial encoder, pre-trained using a novel weakly supervised approach to capture meaningful spatial representations, and a transformer-based temporal encoder that learns how these spatial features relate over time. STORM-PSR is evaluated on the MECCANO and IndustReal datasets, reducing the average delay between actual and predicted assembly step completions by 11.2% and 26.1%, respectively, compared to prior methods. We demonstrate that this reduction in delay is driven by the spatio-temporal stream, which does not rely on unobstructed views of the object to infer completed steps. The code for STORM-PSR, along with the newly annotated MECCANO labels, is made publicly available at https://timschoonbeek.github.io/stormpsr .
- ID Articolo: 2510.12385
- Titolo: Learning to Recognize Correctly Completed Procedure Steps in Egocentric Assembly Videos through Spatio-Temporal Modeling
- Autori: Tim J. Schoonbeek, Shao-Hsuan Hung, Dan Lehman, Hans Onvlee, Jacek Kustra, Peter H.N. de With, Fons van der Sommen
- Classificazione: cs.CV (Visione Artificiale)
- Data di Pubblicazione: 14 ottobre 2025 (preprint arXiv)
- Rivista: Computer Vision and Image Understanding (Accettato)
- Link Articolo: https://arxiv.org/abs/2510.12385
Il riconoscimento dei passaggi di procedura (PSR) mira a identificare tutti i passaggi correttamente completati in video di compiti procedurali e il loro ordine. I modelli più avanzati esistenti si basano esclusivamente sul rilevamento dello stato degli oggetti di assemblaggio in singoli fotogrammi video, trascurando le caratteristiche temporali, il che limita la robustezza e l'accuratezza del modello, in particolare quando gli oggetti sono parzialmente occlusi. Per superare questi limiti, questo articolo propone STORM-PSR (Spatio-Temporal Occlusion-Resilient Modeling for Procedure Step Recognition), un framework PSR a doppio flusso che sfrutta le caratteristiche spaziali e temporali. Il flusso di rilevamento dello stato di assemblaggio funziona efficacemente quando gli oggetti non sono occlusi, mentre il flusso spazio-temporale cattura le caratteristiche spaziali e temporali, riconoscendo il completamento dei passaggi anche in caso di occlusione parziale. Il metodo è valutato sui dataset MECCANO e IndustReal, riducendo rispettivamente il ritardo medio tra il completamento effettivo e previsto dei passaggi di assemblaggio dell'11,2% e del 26,1% rispetto ai metodi esistenti.
Il riconoscimento dei passaggi di procedura (PSR) è un compito importante della visione artificiale negli scenari di assistenza industriale, mirato a identificare i passaggi di procedura correttamente completati in video e i loro tempi di completamento. Questo è significativo per l'automazione industriale, il controllo di qualità e i sistemi di assistenza agli operatori.
- Dipendenza da Viste Complete: I metodi esistenti si basano principalmente sul rilevamento dello stato di assemblaggio (ASD), che richiede che gli oggetti siano completamente visibili e senza occlusioni
- Trascuramento dell'Informazione Temporale: Utilizza solo informazioni spaziali da singoli fotogrammi, senza sfruttare la continuità temporale del video
- Sfide della Prospettiva Egocentrica: Nei video da prospettiva egocentrica, le mani e gli strumenti occludono frequentemente gli oggetti chiave, causando ritardi nel riconoscimento
Negli scenari industriali, il riconoscimento tempestivo e accurato dei passaggi è cruciale per:
- Monitoraggio della qualità in tempo reale
- Guida dell'operatore e prevenzione degli errori
- Verifica automatica dell'assemblaggio
e altre applicazioni. I ritardi significativi dei metodi esistenti in caso di occlusione limitano la loro praticità.
- Framework STORM-PSR: Propone il primo modello spazio-temporale a doppio flusso che ottimizza direttamente il compito PSR, piuttosto che dedurre il completamento dei passaggi dallo stato di assemblaggio
- Strategie di Addestramento Innovative:
- Campionamento di Fotogrammi Chiave (KFS): preaddestramento debolmente supervisionato dell'encoder spaziale
- Campionamento Consapevole di Segmenti Chiave (KCAS): nuova strategia di campionamento per l'encoder temporale
- Contributo di Dataset: Fornisce annotazioni PSR e ASD per il dataset MECCANO, stabilendo benchmark di prestazione
- Miglioramento Significativo delle Prestazioni: Riduce sostanzialmente il ritardo di riconoscimento su due dataset, mantenendo o migliorando altri indicatori di prestazione
Dato l'input video Xt=(x1,x2,⋯,xt) e l'insieme di azioni procedurali P={p0,⋯,pN}, l'obiettivo del compito PSR è prevedere l'insieme dei passaggi completati fino al momento t:
Y^t={(a^σ(0),t^σ(0)),⋯(a^σ(m),t^σ(m))}
dove a^σ(i) rappresenta il completamento dell'azione prevista e t^σ(i) rappresenta il tempo di completamento.
STORM-PSR adotta un'architettura a doppio flusso:
- Flusso di Rilevamento dello Stato di Assemblaggio (S): Elabora fotogrammi senza occlusioni, basato su YOLOv8-M per rilevare lo stato di assemblaggio completo
- Flusso Spazio-Temporale (T): Elabora situazioni di occlusione, prevedendo direttamente il completamento dei passaggi
La previsione finale è ottenuta mediante fusione con pesi uguali:
y^k=0.5⋅y^S,k+0.5⋅y^T,k
- Encoder Spaziale: Modello ViT-S preaddestrato, estrae caratteristiche spaziali a livello di fotogramma
- Encoder Temporale: Architettura Transformer, apprende le relazioni temporali
- Testa di Classificazione: MLP per la classificazione multi-etichetta
Strategia di preaddestramento debolmente supervisionato che sfrutta annotazioni sparse di completamento dei passaggi:
- Campiona fotogrammi intorno ai timestamp di completamento dei passaggi
- Utilizza perdita di contrasto supervisionato per apprendere rappresentazioni spaziali robuste
- Può integrare l'addestramento con aumento di dati sintetici
Strategia di campionamento basata su distribuzione bimodale:
pi(x)=∑tj∈T[g(x∣tj−δ,σ)+g(x∣tj+δ,σ)]
- Sovracampiona segmenti prima e dopo il completamento dei passaggi
- Sottocampiona momenti ambigui e segmenti di sfondo
- Fornisce più campioni positivi e campioni negativi difficili
- IndustReal: 26.9K fotogrammi annotati, con supporto di dati sintetici
- MECCANO: 13.6K fotogrammi appena annotati, scenario di occlusione più impegnativo
- Somiglianza dell'Ordine Procedurale (POS): Accuratezza dell'ordine basata su distanza di modifica
- Punteggio F1: Media armonica di precisione e richiamo
- Ritardo Medio (τ): Differenza temporale tra completamento effettivo e riconoscimento
- Encoder spaziale: ViT-S preaddestrato su ImageNet-21K
- Encoder temporale: 6 strati di auto-attenzione, 8 teste di attenzione
- Ottimizzatore: SGD, tasso di apprendimento 10^-3, pianificazione di annealing cosinusoidale
- Risoluzione di input: 224×224 pixel
| Metodo | IndustReal | | | MECCANO | | |
|---|
| POS↑ | F1↑ | τ↓ | POS↑ | F1↑ | τ↓ |
| Baseline IndustReal | 0.797 | 0.891 | 21.0 | 0.354 | 0.545 | 99.8 |
| Flusso Spazio-Temporale Solo | 0.497 | 0.506 | 14.2 | 0.206 | 0.247 | 120.3 |
| STORM-PSR | 0.812 | 0.901 | 15.5 | 0.377 | 0.497 | 88.6 |
- Riduzione Significativa del Ritardo: Riduzione del 26.1% su IndustReal, 11.2% su MECCANO
- Miglioramento delle Prestazioni: Raggiunge prestazioni ottimali su tutti gli indicatori su IndustReal
- Verifica della Complementarità: L'architettura a doppio flusso combina efficacemente i vantaggi di entrambi i metodi
- Senza preaddestramento KFS: L'encoder temporale non riesce ad apprendere caratteristiche efficaci
- Solo KFS: Miglioramento limitato delle prestazioni
- KFS+KCAS: Miglioramento significativo delle prestazioni (14%-79%)
Transformer > LSTM > TCN, verificando il vantaggio del meccanismo di attenzione nella modellazione delle dipendenze a lungo termine.
Finestre temporali più grandi (256 fotogrammi) forniscono prestazioni migliori, ma con aumento dei costi computazionali.
- Riconoscimento di Azioni: Classificazione di clip video brevi
- Segmentazione Temporale di Azioni: Rilevamento dei confini delle azioni in video lunghi
- Riconoscimento di Passaggi Chiave: Rilevamento di momenti critici
- Rilevamento dello Stato di Assemblaggio: Riconoscimento dello stato basato su singoli fotogrammi
- Primo a ottimizzare direttamente il compito PSR piuttosto che dipendere dall'inferenza ASD
- Affronta esplicitamente il problema dell'occlusione
- Introduce la modellazione temporale per superare i limiti dei metodi a singolo fotogramma
- La modellazione spazio-temporale riduce significativamente il ritardo di riconoscimento in PSR
- L'architettura a doppio flusso combina efficacemente i vantaggi del rilevamento spaziale e del ragionamento temporale
- Il preaddestramento debolmente supervisionato e le strategie di campionamento intelligente sono cruciali per il miglioramento delle prestazioni
- Requisiti di Dati: I modelli spazio-temporali richiedono più dati di addestramento
- Sovraccarico Computazionale: Complessità computazionale più elevata rispetto ai metodi a flusso singolo (75.1 vs 284.8 FPS)
- Limitazione della Finestra Temporale: La dimensione della finestra fissa limita la comprensione procedurale globale
- Scala del Dataset: La scarsità di dati in MECCANO influisce sull'apprendimento spazio-temporale
- Estensione della Finestra Temporale: Esplorare relazioni temporali più lunghe
- Fusione Adattiva: Apprendere strategie di fusione a doppio flusso basate su dati
- Aumento di Dati Sintetici: Utilizzare tecniche come NeRF per generare più dati di addestramento
- Modellazione di Video Completo: Considerare metodi che elaborano l'intera sequenza video
- Forte Specificità del Problema: Affronta direttamente i punti critici pratici negli scenari industriali
- Innovazione Tecnica Evidente: Primo a applicare la modellazione spazio-temporale a PSR, con design ingegnoso
- Esperimenti Completi: Esperimenti di ablazione sufficienti verificano il contributo di ogni componente
- Alto Valore Pratico: La riduzione significativa del ritardo ha grande importanza per le applicazioni pratiche
- Contributo Open Source: Fornisce codice e annotazioni di nuovi dataset
- Applicabilità Limitata: Principalmente focalizzato su compiti di assemblaggio, l'applicabilità ad altri tipi di procedure rimane da verificare
- Compromesso di Efficienza: Il miglioramento delle prestazioni avviene a scapito dell'aumento dei costi computazionali
- Analisi Teorica Insufficiente: Manca l'analisi teorica dell'apprendimento delle caratteristiche spazio-temporali
- Analisi degli Errori: L'analisi dei casi di fallimento è relativamente limitata
- Contributo Accademico: Introduce un nuovo paradigma di modellazione nel campo PSR
- Valore Industriale: Applicazione diretta al controllo di qualità nella produzione e all'assistenza agli operatori
- Riproducibilità: Fornisce codice completo e dati, facilitando la ricerca successiva
- Ispirazione: Fornisce idee di modellazione spazio-temporale per altri compiti di comprensione procedurale
- Assemblaggio Industriale: Monitoraggio dell'assemblaggio di prodotti elettronici e componenti meccanici
- Ispezione di Qualità: Verifica in tempo reale dei passaggi di assemblaggio
- Sistemi di Formazione: Valutazione delle competenze degli operatori e guida
- Integrazione dell'Automazione: Scenari di interazione uomo-macchina con sistemi robotici collaborativi
L'articolo cita 59 riferimenti correlati, che coprono principalmente:
- Lavori classici sulla comprensione procedurale e il riconoscimento di azioni
- Ricerca correlata al rilevamento dello stato di assemblaggio
- Metodi di apprendimento delle rappresentazioni e apprendimento contrastivo
- Meccanismi di attenzione e architetture Transformer
- Lavori di costruzione di dataset correlati
Questo articolo fornisce un contributo importante nel campo del riconoscimento dei passaggi di procedura, risolvendo efficacemente le limitazioni dei metodi esistenti in scenari di occlusione attraverso un design a doppio flusso intelligente e strategie di addestramento innovative. Sebbene presenti sfide in termini di sovraccarico computazionale e applicabilità generale, il suo valore pratico nelle applicazioni industriali e l'innovazione accademica lo rendono un progresso importante in questo campo.