2025-11-13T07:31:10.185499

Learning to Recognize Correctly Completed Procedure Steps in Egocentric Assembly Videos through Spatio-Temporal Modeling

Schoonbeek, Hung, Lehman et al.

Procedure step recognition (PSR) aims to identify all correctly completed steps and their sequential order in videos of procedural tasks. The existing state-of-the-art models rely solely on detecting assembly object states in individual video frames. By neglecting temporal features, model robustness and accuracy are limited, especially when objects are partially occluded. To overcome these limitations, we propose Spatio-Temporal Occlusion-Resilient Modeling for Procedure Step Recognition (STORM-PSR), a dual-stream framework for PSR that leverages both spatial and temporal features. The assembly state detection stream operates effectively with unobstructed views of the object, while the spatio-temporal stream captures both spatial and temporal features to recognize step completions even under partial occlusion. This stream includes a spatial encoder, pre-trained using a novel weakly supervised approach to capture meaningful spatial representations, and a transformer-based temporal encoder that learns how these spatial features relate over time. STORM-PSR is evaluated on the MECCANO and IndustReal datasets, reducing the average delay between actual and predicted assembly step completions by 11.2% and 26.1%, respectively, compared to prior methods. We demonstrate that this reduction in delay is driven by the spatio-temporal stream, which does not rely on unobstructed views of the object to infer completed steps. The code for STORM-PSR, along with the newly annotated MECCANO labels, is made publicly available at https://timschoonbeek.github.io/stormpsr .

academic

Lernen zur Erkennung korrekt abgeschlossener Verfahrensschritte in egozentrischem Montagevideo durch räumlich-zeitliche Modellierung

Grundinformationen

Paper-ID: 2510.12385
Titel: Learning to Recognize Correctly Completed Procedure Steps in Egocentric Assembly Videos through Spatio-Temporal Modeling
Autoren: Tim J. Schoonbeek, Shao-Hsuan Hung, Dan Lehman, Hans Onvlee, Jacek Kustra, Peter H.N. de With, Fons van der Sommen
Klassifizierung: cs.CV (Computervision)
Veröffentlichungsdatum: 14. Oktober 2025 (arXiv-Preprint)
Journal: Computer Vision and Image Understanding (angenommen)
Paper-Link: https://arxiv.org/abs/2510.12385

Zusammenfassung

Die Erkennung von Verfahrensschritten (PSR) zielt darauf ab, alle korrekt abgeschlossenen Schritte und deren Reihenfolge in Verfahrensvideo-Aufgaben zu identifizieren. Bestehende hochmoderne Modelle verlassen sich ausschließlich auf die Erkennung des Montageobjektzustands in einzelnen Videoframes und ignorieren zeitliche Merkmale, was zu begrenzter Robustheit und Genauigkeit des Modells führt, besonders bei teilweiser Verdeckung von Objekten. Um diese Einschränkungen zu überwinden, wird STORM-PSR (Spatio-Temporal Occlusion-Resilient Modeling for Procedure Step Recognition) vorgeschlagen – ein Dual-Stream-PSR-Framework, das räumliche und zeitliche Merkmale nutzt. Der Montagezustandserkennungsstrom funktioniert effektiv, wenn Objekte nicht verdeckt sind, während der räumlich-zeitliche Strom räumliche und zeitliche Merkmale erfasst und Schrittabschlüsse auch bei teilweiser Verdeckung erkennt. Das Verfahren wird auf den MECCANO- und IndustReal-Datensätzen evaluiert und reduziert die durchschnittliche Verzögerung zwischen tatsächlichem und vorhergesagtem Montageschrittabschluss um 11,2% bzw. 26,1% im Vergleich zu bestehenden Methoden.

Forschungshintergrund und Motivation

Problembeschreibung

Die Erkennung von Verfahrensschritten (PSR) ist eine wichtige Aufgabe der Computervision in industriellen Assistenzszenarios, die darauf abzielt, korrekt abgeschlossene Verfahrensschritte in Videos und deren Abschlusszeiten zu identifizieren. Dies ist von großer Bedeutung für:

Industrielle Automatisierung
Qualitätskontrolle
Operatorassistenzsysteme

Einschränkungen bestehender Methoden

Abhängigkeit von vollständiger Sicht: Bestehende Methoden basieren hauptsächlich auf Montagezustandserkennung (ASD) und erfordern vollständig sichtbare und unverdeckte Objekte
Ignorieren zeitlicher Informationen: Verwendung nur von räumlichen Informationen einzelner Frames ohne Nutzung der zeitlichen Kontinuität des Videos
Herausforderungen bei egozentrischem Blickwinkel: In egozentrischem Videomaterial verdecken Hände und Werkzeuge häufig kritische Objekte, was zu Erkennungsverzögerungen führt

Forschungsmotivation

In industriellen Szenarien ist eine zeitnahe und genaue Schritterkennung für folgende Anwendungen entscheidend:

Echtzeitqualitätsüberwachung
Operatoranleitung und Fehlerprävention
Automatisierte Montageverifikation

Die erheblichen Verzögerungen bestehender Methoden bei Verdeckung begrenzen deren praktische Anwendbarkeit.

Kernbeiträge

STORM-PSR-Framework: Vorschlag des ersten Dual-Stream-Zeitraummodells, das direkt die PSR-Aufgabe optimiert, anstatt Schrittabschlüsse aus Montagezuständen abzuleiten
Neuartige Trainingsstrategien:
- Keyframe-Sampling (KFS): Schwach überwachtes Vortraining des räumlichen Encoders
- Keyframe-Segment-bewusstes Sampling (KCAS): Neuartige Sampling-Strategie für den zeitlichen Encoder
Datensatzbeitrag: Bereitstellung von PSR- und ASD-Annotationen für den MECCANO-Datensatz mit Leistungsbenchmarks
Signifikante Leistungsverbesserung: Erhebliche Reduzierung der Erkennungsverzögerung auf zwei Datensätzen bei gleichzeitiger Beibehaltung oder Verbesserung anderer Leistungsindikatoren

Methodische Details

Aufgabendefinition

Gegeben ein Videoeingabe $X_t = (x_1, x_2, \cdots, x_t)$ und eine Menge von Verfahrensaktionen $P = \{p_0, \cdots, p_N\}$ , besteht das Ziel der PSR-Aufgabe darin, die Menge der bis zum Zeitpunkt t abgeschlossenen Schritte vorherzusagen:

$\hat{Y}_t = \{(\hat{a}_{\sigma(0)}, \hat{t}_{\sigma(0)}), \cdots (\hat{a}_{\sigma(m)}, \hat{t}_{\sigma(m)})\}$

wobei $\hat{a}_{\sigma(i)}$ die vorhergesagte Aktionsvollendung und $\hat{t}_{\sigma(i)}$ die Abschlusszeit darstellt.

Modellarchitektur

Dual-Stream-Framework-Design

STORM-PSR verwendet eine Dual-Stream-Architektur:

Montagezustandserkennungsstrom (S): Verarbeitet unverdeckte Frames, basierend auf YOLOv8-M zur Erkennung des vollständigen Montagezustands
Räumlich-zeitlicher Strom (T): Verarbeitet verdeckte Szenen, sagt Schrittabschlüsse direkt vorher

Die endgültige Vorhersage erfolgt durch gleichgewichtete Fusion: $\hat{y}_k = 0.5 \cdot \hat{y}_{S,k} + 0.5 \cdot \hat{y}_{T,k}$

Räumlich-zeitliche Stream-Architektur

Räumlicher Encoder: Vortrainiertes ViT-S-Modell zur Extraktion von Frame-Level-Raummerkmalen
Zeitlicher Encoder: Transformer-Architektur zum Lernen zeitlicher Abhängigkeiten
Klassifizierungskopf: MLP zur Mehrklassen-Klassifizierung

Wichtige technische Innovationen

1. Keyframe-Sampling (KFS)

Schwach überwachte Vortrainingsstrategie, die spärliche Schrittabschluss-Annotationen nutzt:

Sampling von Frames um Schrittabschluss-Zeitstempel
Verwendung von überwachtem Kontrastloss zum Lernen robuster räumlicher Darstellungen
Integration synthetischer Datenerweiterung zum Training

2. Keyframe-Segment-bewusstes Sampling (KCAS)

Sampling-Strategie basierend auf bimodaler Verteilung: $p_i(x) = \sum_{t_j \in T} [g(x | t_j - \delta, \sigma) + g(x | t_j + \delta, \sigma)]$

Übersampling von Segmenten vor und nach Schrittabschluss
Untersampling von mehrdeutigen Zeitpunkten und Hintergrund-Segmenten
Bereitstellung von mehr positiven Samples und schwierigen negativen Samples

Experimentelle Einrichtung

Datensätze

IndustReal: 26.9K annotierte Frames mit synthetischer Datenunterstützung
MECCANO: Neu annotierte 13.6K Frames mit anspruchsvolleren Verdeckungsszenarien

Bewertungsmetriken

Verfahrensreihenfolge-Ähnlichkeit (POS): Reihenfolgengenauigkeit basierend auf Bearbeitungsdistanz
F1-Score: Harmonisches Mittel von Präzision und Recall
Durchschnittliche Verzögerung (τ): Zeitdifferenz zwischen tatsächlichem und erkanntem Abschluss

Implementierungsdetails

Räumlicher Encoder: ImageNet-21K vortrainiertes ViT-S
Zeitlicher Encoder: 6-schichtige Selbstaufmerksamkeit, 8 Aufmerksamkeitsköpfe
Optimierer: SGD, Lernrate 10^-3, Kosinus-Annealing-Planung
Eingabeauflösung: 224×224 Pixel

Experimentelle Ergebnisse

Hauptergebnisse

Methode	IndustReal			MECCANO
	POS↑	F1↑	τ↓	POS↑	F1↑	τ↓
IndustReal-Baseline	0.797	0.891	21.0	0.354	0.545	99.8
Räumlich-zeitlicher Stream allein	0.497	0.506	14.2	0.206	0.247	120.3
STORM-PSR	0.812	0.901	15.5	0.377	0.497	88.6

Wichtigste Erkenntnisse

Signifikante Verzögerungsreduzierung: 26.1% Reduktion auf IndustReal, 11.2% auf MECCANO
Leistungsverbesserung: Alle Metriken erreichen optimale Werte auf IndustReal
Komplementarität-Validierung: Dual-Stream-Architektur kombiniert effektiv die Vorteile beider Methoden

Ablationsstudien

Einfluss von Sampling-Strategien

Ohne KFS-Vortraining: Zeitlicher Encoder kann keine effektiven Merkmale lernen
Nur KFS: Begrenzte Leistungsverbesserung
KFS+KCAS: Signifikante Leistungsverbesserung (14%-79%)

Zeitliche Modellierungsvergleich

Transformer > LSTM > TCN, was die Überlegenheit des Aufmerksamkeitsmechanismus bei der Modellierung langfristiger Abhängigkeiten validiert.

Größe des Zeitfensters

Größere Zeitfenster (256 Frames) bieten bessere Leistung, erhöhen aber die Rechenkosten.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Räumlich-zeitliche Modellierung reduziert die PSR-Erkennungsverzögerung erheblich
Dual-Stream-Architektur kombiniert effektiv die Vorteile räumlicher Erkennung und zeitlicher Inferenz
Schwach überwachtes Vortraining und intelligente Sampling-Strategien sind für Leistungsverbesserungen entscheidend

Einschränkungen

Datenbedarf: Räumlich-zeitliche Modelle erfordern mehr Trainingsdaten
Rechenaufwand: Höhere Rechenkomplexität im Vergleich zu Single-Stream-Methoden (75.1 vs 284.8 FPS)
Zeitfenster-Einschränkung: Feste Fenstergröße begrenzt globales Verfahrensverständnis
Datensatzgröße: Spärliche MECCANO-Daten beeinflussen räumlich-zeitliches Lernen

Zukünftige Richtungen

Erweiterung des Zeitfensters: Erkundung längerfristiger Abhängigkeiten
Adaptive Fusion: Lernen von Dual-Stream-Fusionsstrategien
Synthetische Datenerweiterung: Verwendung von NeRF-Techniken zur Generierung von Trainingsdaten
Vollständige Videomodellierung: Methoden zur Berücksichtigung gesamter Videosequenzen

Tiefgreifende Bewertung

Stärken

Starke Problembezogenheit: Direkte Lösung praktischer Probleme in industriellen Szenarien
Offensichtliche technische Innovation: Erstmalige Anwendung räumlich-zeitlicher Modellierung auf PSR mit durchdachtem Design
Umfassende Experimente: Ausreichende Ablationsstudien validieren Beiträge einzelner Komponenten
Hoher praktischer Wert: Signifikante Verzögerungsreduzierung hat große praktische Bedeutung
Open-Source-Beitrag: Bereitstellung von Code und neuen Datensatz-Annotationen

Mängel

Begrenzte Allgemeingültigkeit: Hauptsächlich auf Montageaufgaben ausgerichtet, Anwendbarkeit auf andere Verfahrenstypen unklar
Effizienz-Kompromiss: Leistungsverbesserung auf Kosten erhöhter Rechenaufwendungen
Unzureichende theoretische Analyse: Mangel an theoretischer Erklärung für räumlich-zeitliches Merkmalslernen
Begrenzte Fehleranalyse: Relativ begrenzte Analyse von Fehlerfällen

Auswirkungen

Akademischer Beitrag: Einführung neuer Modellierungsparadigmen für PSR-Forschung
Industrieller Wert: Direkte Anwendung in Qualitätskontrolle und Operatorassistenz der Fertigung
Reproduzierbarkeit: Vollständiger Code und Daten ermöglichen Nachfolgeforschung
Inspirationswert: Bietet räumlich-zeitliche Modellierungsideen für andere Verfahrensverständnis-Aufgaben

Anwendungsszenarien

Industrielle Montage: Überwachung von Elektronik- und Maschinenteilmontage
Qualitätsprüfung: Echtzeitverifikation von Montageschritten
Trainingssysteme: Bewertung und Anleitung von Operatorfähigkeiten
Automatisierungsintegration: Mensch-Maschine-Interaktionsszenarien mit Robotersystemen

Literaturverzeichnis

Das Paper zitiert 59 verwandte Arbeiten, die hauptsächlich folgende Bereiche abdecken:

Klassische Arbeiten zum Verfahrensverständnis und zur Aktionserkennung
Forschung zur Montagezustandserkennung
Methoden zum Darstellungslernen und kontrastiven Lernen
Aufmerksamkeitsmechanismen und Transformer-Architektur
Arbeiten zum Datensatzaufbau

Dieses Paper leistet einen wichtigen Beitrag im Bereich der Verfahrensschritterkennung. Durch durchdachtes Dual-Stream-Design und innovative Trainingsstrategien werden effektiv die Einschränkungen bestehender Methoden in Verdeckungsszenarien überwunden. Obwohl Herausforderungen bezüglich Rechenaufwand und Allgemeingültigkeit bestehen, machen der praktische Wert in industriellen Anwendungen und die akademische Innovativität dieses Paper zu einem wichtigen Fortschritt in diesem Forschungsbereich.