2025-11-13T07:31:10.185499

Learning to Recognize Correctly Completed Procedure Steps in Egocentric Assembly Videos through Spatio-Temporal Modeling

Schoonbeek, Hung, Lehman et al.

Procedure step recognition (PSR) aims to identify all correctly completed steps and their sequential order in videos of procedural tasks. The existing state-of-the-art models rely solely on detecting assembly object states in individual video frames. By neglecting temporal features, model robustness and accuracy are limited, especially when objects are partially occluded. To overcome these limitations, we propose Spatio-Temporal Occlusion-Resilient Modeling for Procedure Step Recognition (STORM-PSR), a dual-stream framework for PSR that leverages both spatial and temporal features. The assembly state detection stream operates effectively with unobstructed views of the object, while the spatio-temporal stream captures both spatial and temporal features to recognize step completions even under partial occlusion. This stream includes a spatial encoder, pre-trained using a novel weakly supervised approach to capture meaningful spatial representations, and a transformer-based temporal encoder that learns how these spatial features relate over time. STORM-PSR is evaluated on the MECCANO and IndustReal datasets, reducing the average delay between actual and predicted assembly step completions by 11.2% and 26.1%, respectively, compared to prior methods. We demonstrate that this reduction in delay is driven by the spatio-temporal stream, which does not rely on unobstructed views of the object to infer completed steps. The code for STORM-PSR, along with the newly annotated MECCANO labels, is made publicly available at https://timschoonbeek.github.io/stormpsr .

academic

自中心視点の組立ビデオにおける時空間モデリングを通じた正しく完了した手順ステップの認識学習

基本情報

論文ID: 2510.12385
タイトル: Learning to Recognize Correctly Completed Procedure Steps in Egocentric Assembly Videos through Spatio-Temporal Modeling
著者: Tim J. Schoonbeek, Shao-Hsuan Hung, Dan Lehman, Hans Onvlee, Jacek Kustra, Peter H.N. de With, Fons van der Sommen
分類: cs.CV (コンピュータビジョン)
発表日: 2025年10月14日 (arXivプレプリント)
ジャーナル: Computer Vision and Image Understanding (採択済み)
論文リンク: https://arxiv.org/abs/2510.12385

要約

手順ステップ認識(PSR)は、手順タスクビデオにおいて正しく完了したすべてのステップとその順序を認識することを目的としている。既存の最先端モデルは、単一のビデオフレーム内の組立オブジェクト状態の検出のみに依存し、時間的特徴を無視しているため、特にオブジェクトの部分的遮蔽時にモデルの堅牢性と精度が制限される。これらの制限を克服するため、本論文ではSTORM-PSR(Spatio-Temporal Occlusion-Resilient Modeling for Procedure Step Recognition)を提案する。これは空間的および時間的特徴を活用する双流PSRフレームワークである。組立状態検出ストリームはオブジェクトが遮蔽されていない場合に有効に機能し、時空間ストリームは空間的および時間的特徴を捉え、部分的遮蔽下でもステップ完了を認識できる。本手法はMECCANOおよびIndustRealデータセットで評価され、既存手法と比較して、実際の組立ステップ完了と予測の間の平均遅延をそれぞれ11.2%および26.1%削減した。

研究背景と動機

問題定義

手順ステップ認識(PSR)は、産業支援シナリオにおけるコンピュータビジョンの重要なタスクであり、ビデオ内で正しく完了した手順ステップとその完了時刻を認識することを目的としている。これは産業自動化、品質管理、およびオペレータ支援システムにとって重要な意義を持つ。

既存手法の制限事項

完全な視界への依存: 既存手法は主に組立状態検出(ASD)に基づいており、オブジェクトが完全に可視で遮蔽されていない必要がある
時間情報の無視: 単一フレームの空間情報のみを使用し、ビデオの時間的連続性を活用していない
一人称視点の課題: 自中心視点ビデオでは、手と工具が重要なオブジェクトを頻繁に遮蔽し、認識遅延を引き起こす

研究動機

産業シナリオでは、タイムリーで正確なステップ認識が以下に対して重要である:

リアルタイム品質監視
オペレータガイダンスとエラー防止
自動組立検証など。既存手法の遮蔽状況下での顕著な遅延は、その実用性を制限している。

核心的貢献

STORM-PSRフレームワーク: 組立状態から推論するのではなく、PSRタスクを直接最適化する最初の双流時空間モデルを提案
新規な訓練戦略:
- キーフレームサンプリング(KFS): 弱教師あり事前訓練による空間エンコーダの学習
- キーセグメント認識サンプリング(KCAS): 時間エンコーダ向けの新規サンプリング戦略
データセット貢献: MECCANOデータセットにPSRおよびASD注釈を提供し、性能ベンチマークを確立
顕著な性能向上: 2つのデータセットにおいて認識遅延を大幅に削減しながら、他の性能指標を維持または向上

手法の詳細

タスク定義

ビデオ入力 $X_t = (x_1, x_2, \cdots, x_t)$ と手順動作集合 $P = \{p_0, \cdots, p_N\}$ が与えられたとき、PSRタスクの目標は時刻tまでに完了したステップの集合を予測することである:

$\hat{Y}_t = \{(\hat{a}_{\sigma(0)}, \hat{t}_{\sigma(0)}), \cdots (\hat{a}_{\sigma(m)}, \hat{t}_{\sigma(m)})\}$

ここで $\hat{a}_{\sigma(i)}$ は予測された動作完了を表し、 $\hat{t}_{\sigma(i)}$ は完了時刻を表す。

モデルアーキテクチャ

双流フレームワーク設計

STORM-PSRは双流アーキテクチャを採用する:

組立状態検出ストリーム(S): 遮蔽されていないフレームを処理し、YOLOv8-Mに基づいて完全な組立状態を検出
時空間ストリーム(T): 遮蔽状況を処理し、ステップ完了を直接予測

最終予測は等重融合により得られる: $\hat{y}_k = 0.5 \cdot \hat{y}_{S,k} + 0.5 \cdot \hat{y}_{T,k}$

時空間ストリームアーキテクチャ

空間エンコーダ: 事前訓練されたViT-Sモデル、フレームレベルの空間特徴を抽出
時間エンコーダ: Transformerアーキテクチャ、時間的依存関係を学習
分類ヘッド: MLPにより多ラベル分類を実装

主要な技術革新

1. キーフレームサンプリング(KFS)

弱教師あり事前訓練戦略で、疎なステップ完了注釈を活用:

ステップ完了タイムスタンプ周辺のフレームをサンプリング
教師あり対比損失を使用して堅牢な空間表現を学習
合成データ拡張訓練を統合可能

2. キーセグメント認識サンプリング(KCAS)

双峰分布に基づくサンプリング戦略: $p_i(x) = \sum_{t_j \in T} [g(x | t_j - \delta, \sigma) + g(x | t_j + \delta, \sigma)]$

ステップ完了前後のセグメントをオーバーサンプリング
曖昧な時刻と背景セグメントをアンダーサンプリング
より多くの正サンプルと困難な負サンプルを提供

実験設定

データセット

IndustReal: 26.9K注釈フレーム、合成データサポート付き
MECCANO: 新たに注釈された13.6Kフレーム、より困難な遮蔽シナリオ

評価指標

手順順序類似度(POS): 編集距離に基づく順序精度
F1スコア: 適合率と再現率の調和平均
平均遅延(τ): 実際の完了と認識の間の時間差

実装詳細

空間エンコーダ: ImageNet-21K事前訓練ViT-S
時間エンコーダ: 6層自己注意、8注意ヘッド
オプティマイザ: SGD、学習率10^-3、コサイン退火スケジュール
入力解像度: 224×224ピクセル

実験結果

主要結果

手法	IndustReal			MECCANO
	POS↑	F1↑	τ↓	POS↑	F1↑	τ↓
IndustRealベースライン	0.797	0.891	21.0	0.354	0.545	99.8
時空間ストリーム単独	0.497	0.506	14.2	0.206	0.247	120.3
STORM-PSR	0.812	0.901	15.5	0.377	0.497	88.6