Procedure step recognition (PSR) aims to identify all correctly completed steps and their sequential order in videos of procedural tasks. The existing state-of-the-art models rely solely on detecting assembly object states in individual video frames. By neglecting temporal features, model robustness and accuracy are limited, especially when objects are partially occluded. To overcome these limitations, we propose Spatio-Temporal Occlusion-Resilient Modeling for Procedure Step Recognition (STORM-PSR), a dual-stream framework for PSR that leverages both spatial and temporal features. The assembly state detection stream operates effectively with unobstructed views of the object, while the spatio-temporal stream captures both spatial and temporal features to recognize step completions even under partial occlusion. This stream includes a spatial encoder, pre-trained using a novel weakly supervised approach to capture meaningful spatial representations, and a transformer-based temporal encoder that learns how these spatial features relate over time. STORM-PSR is evaluated on the MECCANO and IndustReal datasets, reducing the average delay between actual and predicted assembly step completions by 11.2% and 26.1%, respectively, compared to prior methods. We demonstrate that this reduction in delay is driven by the spatio-temporal stream, which does not rely on unobstructed views of the object to infer completed steps. The code for STORM-PSR, along with the newly annotated MECCANO labels, is made publicly available at https://timschoonbeek.github.io/stormpsr .
- 論文ID: 2510.12385
- タイトル: Learning to Recognize Correctly Completed Procedure Steps in Egocentric Assembly Videos through Spatio-Temporal Modeling
- 著者: Tim J. Schoonbeek, Shao-Hsuan Hung, Dan Lehman, Hans Onvlee, Jacek Kustra, Peter H.N. de With, Fons van der Sommen
- 分類: cs.CV (コンピュータビジョン)
- 発表日: 2025年10月14日 (arXivプレプリント)
- ジャーナル: Computer Vision and Image Understanding (採択済み)
- 論文リンク: https://arxiv.org/abs/2510.12385
手順ステップ認識(PSR)は、手順タスクビデオにおいて正しく完了したすべてのステップとその順序を認識することを目的としている。既存の最先端モデルは、単一のビデオフレーム内の組立オブジェクト状態の検出のみに依存し、時間的特徴を無視しているため、特にオブジェクトの部分的遮蔽時にモデルの堅牢性と精度が制限される。これらの制限を克服するため、本論文ではSTORM-PSR(Spatio-Temporal Occlusion-Resilient Modeling for Procedure Step Recognition)を提案する。これは空間的および時間的特徴を活用する双流PSRフレームワークである。組立状態検出ストリームはオブジェクトが遮蔽されていない場合に有効に機能し、時空間ストリームは空間的および時間的特徴を捉え、部分的遮蔽下でもステップ完了を認識できる。本手法はMECCANOおよびIndustRealデータセットで評価され、既存手法と比較して、実際の組立ステップ完了と予測の間の平均遅延をそれぞれ11.2%および26.1%削減した。
手順ステップ認識(PSR)は、産業支援シナリオにおけるコンピュータビジョンの重要なタスクであり、ビデオ内で正しく完了した手順ステップとその完了時刻を認識することを目的としている。これは産業自動化、品質管理、およびオペレータ支援システムにとって重要な意義を持つ。
- 完全な視界への依存: 既存手法は主に組立状態検出(ASD)に基づいており、オブジェクトが完全に可視で遮蔽されていない必要がある
- 時間情報の無視: 単一フレームの空間情報のみを使用し、ビデオの時間的連続性を活用していない
- 一人称視点の課題: 自中心視点ビデオでは、手と工具が重要なオブジェクトを頻繁に遮蔽し、認識遅延を引き起こす
産業シナリオでは、タイムリーで正確なステップ認識が以下に対して重要である:
- リアルタイム品質監視
- オペレータガイダンスとエラー防止
- 自動組立検証
など。既存手法の遮蔽状況下での顕著な遅延は、その実用性を制限している。
- STORM-PSRフレームワーク: 組立状態から推論するのではなく、PSRタスクを直接最適化する最初の双流時空間モデルを提案
- 新規な訓練戦略:
- キーフレームサンプリング(KFS): 弱教師あり事前訓練による空間エンコーダの学習
- キーセグメント認識サンプリング(KCAS): 時間エンコーダ向けの新規サンプリング戦略
- データセット貢献: MECCANOデータセットにPSRおよびASD注釈を提供し、性能ベンチマークを確立
- 顕著な性能向上: 2つのデータセットにおいて認識遅延を大幅に削減しながら、他の性能指標を維持または向上
ビデオ入力 Xt=(x1,x2,⋯,xt) と手順動作集合 P={p0,⋯,pN} が与えられたとき、PSRタスクの目標は時刻tまでに完了したステップの集合を予測することである:
Y^t={(a^σ(0),t^σ(0)),⋯(a^σ(m),t^σ(m))}
ここで a^σ(i) は予測された動作完了を表し、t^σ(i) は完了時刻を表す。
STORM-PSRは双流アーキテクチャを採用する:
- 組立状態検出ストリーム(S): 遮蔽されていないフレームを処理し、YOLOv8-Mに基づいて完全な組立状態を検出
- 時空間ストリーム(T): 遮蔽状況を処理し、ステップ完了を直接予測
最終予測は等重融合により得られる:
y^k=0.5⋅y^S,k+0.5⋅y^T,k
- 空間エンコーダ: 事前訓練されたViT-Sモデル、フレームレベルの空間特徴を抽出
- 時間エンコーダ: Transformerアーキテクチャ、時間的依存関係を学習
- 分類ヘッド: MLPにより多ラベル分類を実装
弱教師あり事前訓練戦略で、疎なステップ完了注釈を活用:
- ステップ完了タイムスタンプ周辺のフレームをサンプリング
- 教師あり対比損失を使用して堅牢な空間表現を学習
- 合成データ拡張訓練を統合可能
双峰分布に基づくサンプリング戦略:
pi(x)=∑tj∈T[g(x∣tj−δ,σ)+g(x∣tj+δ,σ)]
- ステップ完了前後のセグメントをオーバーサンプリング
- 曖昧な時刻と背景セグメントをアンダーサンプリング
- より多くの正サンプルと困難な負サンプルを提供
- IndustReal: 26.9K注釈フレーム、合成データサポート付き
- MECCANO: 新たに注釈された13.6Kフレーム、より困難な遮蔽シナリオ
- 手順順序類似度(POS): 編集距離に基づく順序精度
- F1スコア: 適合率と再現率の調和平均
- 平均遅延(τ): 実際の完了と認識の間の時間差
- 空間エンコーダ: ImageNet-21K事前訓練ViT-S
- 時間エンコーダ: 6層自己注意、8注意ヘッド
- オプティマイザ: SGD、学習率10^-3、コサイン退火スケジュール
- 入力解像度: 224×224ピクセル
| 手法 | IndustReal | | | MECCANO | | |
|---|
| POS↑ | F1↑ | τ↓ | POS↑ | F1↑ | τ↓ |
| IndustRealベースライン | 0.797 | 0.891 | 21.0 | 0.354 | 0.545 | 99.8 |
| 時空間ストリーム単独 | 0.497 | 0.506 | 14.2 | 0.206 | 0.247 | 120.3 |
| STORM-PSR | 0.812 | 0.901 | 15.5 | 0.377 | 0.497 | 88.6 |
- 遅延の顕著な削減: IndustRealで26.1%削減、MECCANOで11.2%削減
- 性能向上: IndustRealではすべての指標で最適性能を達成
- 相補性の検証: 双流アーキテクチャが両手法の利点を効果的に結合
- KFS事前訓練なし: 時間エンコーダが有効な特徴を学習できない
- KFSのみ: 限定的な性能向上
- KFS+KCAS: 顕著な性能向上(14%-79%)
Transformer > LSTM > TCN、注意機構が長期依存関係のモデリングにおいて優れていることを検証
より大きな時間ウィンドウ(256フレーム)がより良い性能を提供するが、計算コストが増加する
- 動作認識: 短ビデオセグメントの分類
- 時間的動作セグメンテーション: 長ビデオ内の動作境界検出
- キーステップ認識: 重要な時刻の検出
- 組立状態検出: 単一フレームベースの状態認識
- PSRタスクを直接最適化する最初の研究であり、ASD推論に依存しない
- 遮蔽問題を明示的に対処
- 単一フレーム手法の制限を解決するため時間モデリングを導入
- 時空間モデリングはPSRの認識遅延を顕著に削減する
- 双流アーキテクチャは空間検出と時間推論の利点を効果的に結合
- 弱教師あり事前訓練とインテリジェントなサンプリング戦略が性能向上に不可欠
- データ要件: 時空間モデルはより多くの訓練データを必要とする
- 計算オーバーヘッド: 単一ストリーム手法と比較して計算複雑度が高い(75.1 vs 284.8 FPS)
- 時間ウィンドウの制限: 固定ウィンドウサイズが全体的な手順理解を制限
- データセットスケール: MECCANOデータの疎性が時空間学習に影響
- 時間ウィンドウの拡張: より長い時間的依存関係の探索
- 適応的融合: 学習ベースの双流融合戦略
- 合成データ拡張: NeRFなどの技術を使用したより多くの訓練データ生成
- 全ビデオモデリング: ビデオシーケンス全体を考慮するアプローチ
- 問題への針対性が強い: 産業シナリオの実際の課題を直接解決
- 技術革新が明確: PSRに時空間モデリングを初めて適用、設計が巧妙
- 実験が包括的: 各成分の貢献を検証する十分なアブレーション実験
- 実用価値が高い: 認識遅延の顕著な削減は実際の応用に重要な意義
- オープンソース貢献: コードと新しいデータセット注釈を提供
- 汎用性が限定的: 主に組立タスクに焦点、他の手順タイプへの適用性は未検証
- 効率とのトレードオフ: 性能向上は計算オーバーヘッド増加の代償
- 理論分析が不足: 時空間特徴学習の理論的説明が不足
- エラー分析が限定的: 失敗ケースの分析が相対的に限定的
- 学術的貢献: PSR分野に新しいモデリングパラダイムをもたらす
- 産業価値: 製造業の品質管理とオペレータ支援に直接応用可能
- 再現性: 完全なコードとデータを提供し、後続研究を容易に
- 啓発性: 他の手順理解タスクに時空間モデリングの思想を提供
- 産業組立: 電子製品、機械部品の組立監視
- 品質検査: リアルタイム組立ステップ検証
- 訓練システム: オペレータスキル評価とガイダンス
- 自動化統合: ロボットシステムとの協働の人機相互作用シナリオ
論文は59篇の関連文献を引用しており、主に以下を含む:
- 手順理解と動作認識の古典的研究
- 組立状態検出関連研究
- 表現学習と対比学習手法
- 注意機構とTransformerアーキテクチャ
- 関連データセット構築研究
本論文は手順ステップ認識分野に重要な貢献をしており、巧妙な双流設計と革新的な訓練戦略を通じて、既存手法の遮蔽シナリオにおける制限を効果的に解決している。計算オーバーヘッドと汎用性の課題は存在するが、産業応用における実用価値と学術的革新性により、本論文は当該分野の重要な進展となっている。