2025-11-13T07:31:10.185499

Learning to Recognize Correctly Completed Procedure Steps in Egocentric Assembly Videos through Spatio-Temporal Modeling

Schoonbeek, Hung, Lehman et al.
Procedure step recognition (PSR) aims to identify all correctly completed steps and their sequential order in videos of procedural tasks. The existing state-of-the-art models rely solely on detecting assembly object states in individual video frames. By neglecting temporal features, model robustness and accuracy are limited, especially when objects are partially occluded. To overcome these limitations, we propose Spatio-Temporal Occlusion-Resilient Modeling for Procedure Step Recognition (STORM-PSR), a dual-stream framework for PSR that leverages both spatial and temporal features. The assembly state detection stream operates effectively with unobstructed views of the object, while the spatio-temporal stream captures both spatial and temporal features to recognize step completions even under partial occlusion. This stream includes a spatial encoder, pre-trained using a novel weakly supervised approach to capture meaningful spatial representations, and a transformer-based temporal encoder that learns how these spatial features relate over time. STORM-PSR is evaluated on the MECCANO and IndustReal datasets, reducing the average delay between actual and predicted assembly step completions by 11.2% and 26.1%, respectively, compared to prior methods. We demonstrate that this reduction in delay is driven by the spatio-temporal stream, which does not rely on unobstructed views of the object to infer completed steps. The code for STORM-PSR, along with the newly annotated MECCANO labels, is made publicly available at https://timschoonbeek.github.io/stormpsr .
academic

Lernen zur Erkennung korrekt abgeschlossener Verfahrensschritte in egozentrischem Montagevideo durch räumlich-zeitliche Modellierung

Grundinformationen

  • Paper-ID: 2510.12385
  • Titel: Learning to Recognize Correctly Completed Procedure Steps in Egocentric Assembly Videos through Spatio-Temporal Modeling
  • Autoren: Tim J. Schoonbeek, Shao-Hsuan Hung, Dan Lehman, Hans Onvlee, Jacek Kustra, Peter H.N. de With, Fons van der Sommen
  • Klassifizierung: cs.CV (Computervision)
  • Veröffentlichungsdatum: 14. Oktober 2025 (arXiv-Preprint)
  • Journal: Computer Vision and Image Understanding (angenommen)
  • Paper-Link: https://arxiv.org/abs/2510.12385

Zusammenfassung

Die Erkennung von Verfahrensschritten (PSR) zielt darauf ab, alle korrekt abgeschlossenen Schritte und deren Reihenfolge in Verfahrensvideo-Aufgaben zu identifizieren. Bestehende hochmoderne Modelle verlassen sich ausschließlich auf die Erkennung des Montageobjektzustands in einzelnen Videoframes und ignorieren zeitliche Merkmale, was zu begrenzter Robustheit und Genauigkeit des Modells führt, besonders bei teilweiser Verdeckung von Objekten. Um diese Einschränkungen zu überwinden, wird STORM-PSR (Spatio-Temporal Occlusion-Resilient Modeling for Procedure Step Recognition) vorgeschlagen – ein Dual-Stream-PSR-Framework, das räumliche und zeitliche Merkmale nutzt. Der Montagezustandserkennungsstrom funktioniert effektiv, wenn Objekte nicht verdeckt sind, während der räumlich-zeitliche Strom räumliche und zeitliche Merkmale erfasst und Schrittabschlüsse auch bei teilweiser Verdeckung erkennt. Das Verfahren wird auf den MECCANO- und IndustReal-Datensätzen evaluiert und reduziert die durchschnittliche Verzögerung zwischen tatsächlichem und vorhergesagtem Montageschrittabschluss um 11,2% bzw. 26,1% im Vergleich zu bestehenden Methoden.

Forschungshintergrund und Motivation

Problembeschreibung

Die Erkennung von Verfahrensschritten (PSR) ist eine wichtige Aufgabe der Computervision in industriellen Assistenzszenarios, die darauf abzielt, korrekt abgeschlossene Verfahrensschritte in Videos und deren Abschlusszeiten zu identifizieren. Dies ist von großer Bedeutung für:

  • Industrielle Automatisierung
  • Qualitätskontrolle
  • Operatorassistenzsysteme

Einschränkungen bestehender Methoden

  1. Abhängigkeit von vollständiger Sicht: Bestehende Methoden basieren hauptsächlich auf Montagezustandserkennung (ASD) und erfordern vollständig sichtbare und unverdeckte Objekte
  2. Ignorieren zeitlicher Informationen: Verwendung nur von räumlichen Informationen einzelner Frames ohne Nutzung der zeitlichen Kontinuität des Videos
  3. Herausforderungen bei egozentrischem Blickwinkel: In egozentrischem Videomaterial verdecken Hände und Werkzeuge häufig kritische Objekte, was zu Erkennungsverzögerungen führt

Forschungsmotivation

In industriellen Szenarien ist eine zeitnahe und genaue Schritterkennung für folgende Anwendungen entscheidend:

  • Echtzeitqualitätsüberwachung
  • Operatoranleitung und Fehlerprävention
  • Automatisierte Montageverifikation

Die erheblichen Verzögerungen bestehender Methoden bei Verdeckung begrenzen deren praktische Anwendbarkeit.

Kernbeiträge

  1. STORM-PSR-Framework: Vorschlag des ersten Dual-Stream-Zeitraummodells, das direkt die PSR-Aufgabe optimiert, anstatt Schrittabschlüsse aus Montagezuständen abzuleiten
  2. Neuartige Trainingsstrategien:
    • Keyframe-Sampling (KFS): Schwach überwachtes Vortraining des räumlichen Encoders
    • Keyframe-Segment-bewusstes Sampling (KCAS): Neuartige Sampling-Strategie für den zeitlichen Encoder
  3. Datensatzbeitrag: Bereitstellung von PSR- und ASD-Annotationen für den MECCANO-Datensatz mit Leistungsbenchmarks
  4. Signifikante Leistungsverbesserung: Erhebliche Reduzierung der Erkennungsverzögerung auf zwei Datensätzen bei gleichzeitiger Beibehaltung oder Verbesserung anderer Leistungsindikatoren

Methodische Details

Aufgabendefinition

Gegeben ein Videoeingabe Xt=(x1,x2,,xt)X_t = (x_1, x_2, \cdots, x_t) und eine Menge von Verfahrensaktionen P={p0,,pN}P = \{p_0, \cdots, p_N\}, besteht das Ziel der PSR-Aufgabe darin, die Menge der bis zum Zeitpunkt t abgeschlossenen Schritte vorherzusagen:

Y^t={(a^σ(0),t^σ(0)),(a^σ(m),t^σ(m))}\hat{Y}_t = \{(\hat{a}_{\sigma(0)}, \hat{t}_{\sigma(0)}), \cdots (\hat{a}_{\sigma(m)}, \hat{t}_{\sigma(m)})\}

wobei a^σ(i)\hat{a}_{\sigma(i)} die vorhergesagte Aktionsvollendung und t^σ(i)\hat{t}_{\sigma(i)} die Abschlusszeit darstellt.

Modellarchitektur

Dual-Stream-Framework-Design

STORM-PSR verwendet eine Dual-Stream-Architektur:

  • Montagezustandserkennungsstrom (S): Verarbeitet unverdeckte Frames, basierend auf YOLOv8-M zur Erkennung des vollständigen Montagezustands
  • Räumlich-zeitlicher Strom (T): Verarbeitet verdeckte Szenen, sagt Schrittabschlüsse direkt vorher

Die endgültige Vorhersage erfolgt durch gleichgewichtete Fusion: y^k=0.5y^S,k+0.5y^T,k\hat{y}_k = 0.5 \cdot \hat{y}_{S,k} + 0.5 \cdot \hat{y}_{T,k}

Räumlich-zeitliche Stream-Architektur

  1. Räumlicher Encoder: Vortrainiertes ViT-S-Modell zur Extraktion von Frame-Level-Raummerkmalen
  2. Zeitlicher Encoder: Transformer-Architektur zum Lernen zeitlicher Abhängigkeiten
  3. Klassifizierungskopf: MLP zur Mehrklassen-Klassifizierung

Wichtige technische Innovationen

1. Keyframe-Sampling (KFS)

Schwach überwachte Vortrainingsstrategie, die spärliche Schrittabschluss-Annotationen nutzt:

  • Sampling von Frames um Schrittabschluss-Zeitstempel
  • Verwendung von überwachtem Kontrastloss zum Lernen robuster räumlicher Darstellungen
  • Integration synthetischer Datenerweiterung zum Training

2. Keyframe-Segment-bewusstes Sampling (KCAS)

Sampling-Strategie basierend auf bimodaler Verteilung: pi(x)=tjT[g(xtjδ,σ)+g(xtj+δ,σ)]p_i(x) = \sum_{t_j \in T} [g(x | t_j - \delta, \sigma) + g(x | t_j + \delta, \sigma)]

  • Übersampling von Segmenten vor und nach Schrittabschluss
  • Untersampling von mehrdeutigen Zeitpunkten und Hintergrund-Segmenten
  • Bereitstellung von mehr positiven Samples und schwierigen negativen Samples

Experimentelle Einrichtung

Datensätze

  1. IndustReal: 26.9K annotierte Frames mit synthetischer Datenunterstützung
  2. MECCANO: Neu annotierte 13.6K Frames mit anspruchsvolleren Verdeckungsszenarien

Bewertungsmetriken

  1. Verfahrensreihenfolge-Ähnlichkeit (POS): Reihenfolgengenauigkeit basierend auf Bearbeitungsdistanz
  2. F1-Score: Harmonisches Mittel von Präzision und Recall
  3. Durchschnittliche Verzögerung (τ): Zeitdifferenz zwischen tatsächlichem und erkanntem Abschluss

Implementierungsdetails

  • Räumlicher Encoder: ImageNet-21K vortrainiertes ViT-S
  • Zeitlicher Encoder: 6-schichtige Selbstaufmerksamkeit, 8 Aufmerksamkeitsköpfe
  • Optimierer: SGD, Lernrate 10^-3, Kosinus-Annealing-Planung
  • Eingabeauflösung: 224×224 Pixel

Experimentelle Ergebnisse

Hauptergebnisse

MethodeIndustRealMECCANO
POS↑F1↑τ↓POS↑F1↑τ↓
IndustReal-Baseline0.7970.89121.00.3540.54599.8
Räumlich-zeitlicher Stream allein0.4970.50614.20.2060.247120.3
STORM-PSR0.8120.90115.50.3770.49788.6

Wichtigste Erkenntnisse

  1. Signifikante Verzögerungsreduzierung: 26.1% Reduktion auf IndustReal, 11.2% auf MECCANO
  2. Leistungsverbesserung: Alle Metriken erreichen optimale Werte auf IndustReal
  3. Komplementarität-Validierung: Dual-Stream-Architektur kombiniert effektiv die Vorteile beider Methoden

Ablationsstudien

Einfluss von Sampling-Strategien

  • Ohne KFS-Vortraining: Zeitlicher Encoder kann keine effektiven Merkmale lernen
  • Nur KFS: Begrenzte Leistungsverbesserung
  • KFS+KCAS: Signifikante Leistungsverbesserung (14%-79%)

Zeitliche Modellierungsvergleich

Transformer > LSTM > TCN, was die Überlegenheit des Aufmerksamkeitsmechanismus bei der Modellierung langfristiger Abhängigkeiten validiert.

Größe des Zeitfensters

Größere Zeitfenster (256 Frames) bieten bessere Leistung, erhöhen aber die Rechenkosten.

Verwandte Arbeiten

Forschung zum Verfahrensverständnis

  • Aktionserkennung: Klassifizierung kurzer Videosegmente
  • Zeitliche Aktionssegmentierung: Erkennung von Aktionsgrenzen in langen Videos
  • Erkennung kritischer Schritte: Erkennung kritischer Zeitpunkte
  • Montagezustandserkennung: Frame-basierte Zustandserkennung

Unterschiede dieser Arbeit zu bestehenden Arbeiten

  1. Erste direkte Optimierung der PSR-Aufgabe anstatt Abhängigkeit von ASD-Inferenz
  2. Explizite Behandlung des Verdeckungsproblems
  3. Einführung zeitlicher Modellierung zur Überwindung von Einschränkungen von Single-Frame-Methoden

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Räumlich-zeitliche Modellierung reduziert die PSR-Erkennungsverzögerung erheblich
  2. Dual-Stream-Architektur kombiniert effektiv die Vorteile räumlicher Erkennung und zeitlicher Inferenz
  3. Schwach überwachtes Vortraining und intelligente Sampling-Strategien sind für Leistungsverbesserungen entscheidend

Einschränkungen

  1. Datenbedarf: Räumlich-zeitliche Modelle erfordern mehr Trainingsdaten
  2. Rechenaufwand: Höhere Rechenkomplexität im Vergleich zu Single-Stream-Methoden (75.1 vs 284.8 FPS)
  3. Zeitfenster-Einschränkung: Feste Fenstergröße begrenzt globales Verfahrensverständnis
  4. Datensatzgröße: Spärliche MECCANO-Daten beeinflussen räumlich-zeitliches Lernen

Zukünftige Richtungen

  1. Erweiterung des Zeitfensters: Erkundung längerfristiger Abhängigkeiten
  2. Adaptive Fusion: Lernen von Dual-Stream-Fusionsstrategien
  3. Synthetische Datenerweiterung: Verwendung von NeRF-Techniken zur Generierung von Trainingsdaten
  4. Vollständige Videomodellierung: Methoden zur Berücksichtigung gesamter Videosequenzen

Tiefgreifende Bewertung

Stärken

  1. Starke Problembezogenheit: Direkte Lösung praktischer Probleme in industriellen Szenarien
  2. Offensichtliche technische Innovation: Erstmalige Anwendung räumlich-zeitlicher Modellierung auf PSR mit durchdachtem Design
  3. Umfassende Experimente: Ausreichende Ablationsstudien validieren Beiträge einzelner Komponenten
  4. Hoher praktischer Wert: Signifikante Verzögerungsreduzierung hat große praktische Bedeutung
  5. Open-Source-Beitrag: Bereitstellung von Code und neuen Datensatz-Annotationen

Mängel

  1. Begrenzte Allgemeingültigkeit: Hauptsächlich auf Montageaufgaben ausgerichtet, Anwendbarkeit auf andere Verfahrenstypen unklar
  2. Effizienz-Kompromiss: Leistungsverbesserung auf Kosten erhöhter Rechenaufwendungen
  3. Unzureichende theoretische Analyse: Mangel an theoretischer Erklärung für räumlich-zeitliches Merkmalslernen
  4. Begrenzte Fehleranalyse: Relativ begrenzte Analyse von Fehlerfällen

Auswirkungen

  1. Akademischer Beitrag: Einführung neuer Modellierungsparadigmen für PSR-Forschung
  2. Industrieller Wert: Direkte Anwendung in Qualitätskontrolle und Operatorassistenz der Fertigung
  3. Reproduzierbarkeit: Vollständiger Code und Daten ermöglichen Nachfolgeforschung
  4. Inspirationswert: Bietet räumlich-zeitliche Modellierungsideen für andere Verfahrensverständnis-Aufgaben

Anwendungsszenarien

  1. Industrielle Montage: Überwachung von Elektronik- und Maschinenteilmontage
  2. Qualitätsprüfung: Echtzeitverifikation von Montageschritten
  3. Trainingssysteme: Bewertung und Anleitung von Operatorfähigkeiten
  4. Automatisierungsintegration: Mensch-Maschine-Interaktionsszenarien mit Robotersystemen

Literaturverzeichnis

Das Paper zitiert 59 verwandte Arbeiten, die hauptsächlich folgende Bereiche abdecken:

  • Klassische Arbeiten zum Verfahrensverständnis und zur Aktionserkennung
  • Forschung zur Montagezustandserkennung
  • Methoden zum Darstellungslernen und kontrastiven Lernen
  • Aufmerksamkeitsmechanismen und Transformer-Architektur
  • Arbeiten zum Datensatzaufbau

Dieses Paper leistet einen wichtigen Beitrag im Bereich der Verfahrensschritterkennung. Durch durchdachtes Dual-Stream-Design und innovative Trainingsstrategien werden effektiv die Einschränkungen bestehender Methoden in Verdeckungsszenarien überwunden. Obwohl Herausforderungen bezüglich Rechenaufwand und Allgemeingültigkeit bestehen, machen der praktische Wert in industriellen Anwendungen und die akademische Innovativität dieses Paper zu einem wichtigen Fortschritt in diesem Forschungsbereich.