Procedure step recognition (PSR) aims to identify all correctly completed steps and their sequential order in videos of procedural tasks. The existing state-of-the-art models rely solely on detecting assembly object states in individual video frames. By neglecting temporal features, model robustness and accuracy are limited, especially when objects are partially occluded. To overcome these limitations, we propose Spatio-Temporal Occlusion-Resilient Modeling for Procedure Step Recognition (STORM-PSR), a dual-stream framework for PSR that leverages both spatial and temporal features. The assembly state detection stream operates effectively with unobstructed views of the object, while the spatio-temporal stream captures both spatial and temporal features to recognize step completions even under partial occlusion. This stream includes a spatial encoder, pre-trained using a novel weakly supervised approach to capture meaningful spatial representations, and a transformer-based temporal encoder that learns how these spatial features relate over time. STORM-PSR is evaluated on the MECCANO and IndustReal datasets, reducing the average delay between actual and predicted assembly step completions by 11.2% and 26.1%, respectively, compared to prior methods. We demonstrate that this reduction in delay is driven by the spatio-temporal stream, which does not rely on unobstructed views of the object to infer completed steps. The code for STORM-PSR, along with the newly annotated MECCANO labels, is made publicly available at https://timschoonbeek.github.io/stormpsr .
- 论文ID: 2510.12385
- 标题: Learning to Recognize Correctly Completed Procedure Steps in Egocentric Assembly Videos through Spatio-Temporal Modeling
- 作者: Tim J. Schoonbeek, Shao-Hsuan Hung, Dan Lehman, Hans Onvlee, Jacek Kustra, Peter H.N. de With, Fons van der Sommen
- 分类: cs.CV (Computer Vision)
- 发表时间: 2025年10月14日 (arXiv预印本)
- 期刊: Computer Vision and Image Understanding (已接收)
- 论文链接: https://arxiv.org/abs/2510.12385
程序步骤识别(PSR)旨在识别程序任务视频中所有正确完成的步骤及其顺序。现有最先进的模型仅依赖于检测单个视频帧中的装配对象状态,忽略了时间特征,导致模型鲁棒性和准确性受限,特别是在对象部分遮挡时。为克服这些限制,本文提出了STORM-PSR(Spatio-Temporal Occlusion-Resilient Modeling for Procedure Step Recognition),这是一个利用空间和时间特征的双流PSR框架。装配状态检测流在对象无遮挡时有效工作,而时空流捕获空间和时间特征,即使在部分遮挡下也能识别步骤完成。该方法在MECCANO和IndustReal数据集上评估,相比现有方法,分别将实际和预测装配步骤完成之间的平均延迟减少了11.2%和26.1%。
程序步骤识别(PSR)是计算机视觉在工业辅助场景中的一个重要任务,旨在识别视频中正确完成的程序步骤及其完成时间。这对于工业自动化、质量控制和操作员辅助系统具有重要意义。
- 依赖完整视图: 现有方法主要基于装配状态检测(ASD),需要对象完全可见且无遮挡
- 忽略时间信息: 仅使用单帧空间信息,未利用视频的时间连续性
- 第一人称视角挑战: 在自中心视角视频中,手部和工具频繁遮挡关键对象,导致识别延迟
工业场景中,及时准确的步骤识别对于:
- 实时质量监控
- 操作员指导和错误预防
- 自动化装配验证
等应用至关重要。现有方法在遮挡情况下的显著延迟限制了其实用性。
- STORM-PSR框架: 提出首个直接优化PSR任务的双流时空模型,而非从装配状态推断步骤完成
- 新颖训练策略:
- 关键帧采样(KFS): 弱监督预训练空间编码器
- 关键片段感知采样(KCAS): 针对时间编码器的新颖采样策略
- 数据集贡献: 为MECCANO数据集提供PSR和ASD标注,建立性能基准
- 显著性能提升: 在两个数据集上大幅减少识别延迟,同时保持或提升其他性能指标
给定视频输入 Xt=(x1,x2,⋯,xt) 和程序动作集合 P={p0,⋯,pN},PSR任务目标是预测到时刻t已完成的步骤集合:
Y^t={(a^σ(0),t^σ(0)),⋯(a^σ(m),t^σ(m))}
其中 a^σ(i) 表示预测的动作完成,t^σ(i) 表示完成时间。
STORM-PSR采用双流架构:
- 装配状态检测流(S): 处理无遮挡帧,基于YOLOv8-M检测完整装配状态
- 时空流(T): 处理遮挡情况,直接预测步骤完成
最终预测通过等权重融合:
y^k=0.5⋅y^S,k+0.5⋅y^T,k
- 空间编码器: 预训练的ViT-S模型,提取帧级空间特征
- 时间编码器: Transformer架构,学习时间依赖关系
- 分类头: MLP实现多标签分类
弱监督预训练策略,利用稀疏的步骤完成标注:
- 在步骤完成时间戳周围采样帧
- 使用监督对比损失学习鲁棒的空间表示
- 可整合合成数据增强训练
基于双峰分布的采样策略:
pi(x)=∑tj∈T[g(x∣tj−δ,σ)+g(x∣tj+δ,σ)]
- 过采样步骤完成前后的片段
- 欠采样模糊时刻和背景片段
- 提供更多正样本和困难负样本
- IndustReal: 26.9K标注帧,包含合成数据支持
- MECCANO: 新标注的13.6K帧,更具挑战性的遮挡场景
- 程序顺序相似度(POS): 基于编辑距离的顺序准确性
- F1分数: 精确率和召回率的调和平均
- 平均延迟(τ): 实际完成与识别之间的时间差
- 空间编码器:ImageNet-21K预训练ViT-S
- 时间编码器:6层自注意力,8个注意力头
- 优化器:SGD,学习率10^-3,余弦退火调度
- 输入分辨率:224×224像素
| 方法 | IndustReal | | | MECCANO | | |
|---|
| POS↑ | F1↑ | τ↓ | POS↑ | F1↑ | τ↓ |
| IndustReal基线 | 0.797 | 0.891 | 21.0 | 0.354 | 0.545 | 99.8 |
| 时空流单独 | 0.497 | 0.506 | 14.2 | 0.206 | 0.247 | 120.3 |
| STORM-PSR | 0.812 | 0.901 | 15.5 | 0.377 | 0.497 | 88.6 |
- 延迟显著减少: IndustReal上减少26.1%,MECCANO上减少11.2%
- 性能提升: 在IndustReal上所有指标均达到最优
- 互补性验证: 双流架构有效结合了两种方法的优势
- 无KFS预训练:时间编码器无法学习有效特征
- 仅KFS:性能有限提升
- KFS+KCAS:显著性能提升(14%-79%)
Transformer > LSTM > TCN,验证了注意力机制在长期依赖建模中的优势。
更大的时间窗口(256帧)提供更好的性能,但计算成本增加。
- 动作识别: 短视频片段分类
- 时间动作分割: 长视频中的动作边界检测
- 关键步骤识别: 关键时刻检测
- 装配状态检测: 基于单帧的状态识别
- 首次直接优化PSR任务而非依赖ASD推断
- 明确处理遮挡问题
- 引入时间建模解决单帧方法局限性
- 时空建模显著减少了PSR的识别延迟
- 双流架构有效结合了空间检测和时间推理的优势
- 弱监督预训练和智能采样策略对性能提升至关重要
- 数据需求: 时空模型需要更多训练数据
- 计算开销: 相比单流方法计算复杂度更高(75.1 vs 284.8 FPS)
- 时间窗口限制: 固定窗口大小限制了全局程序理解
- 数据集规模: MECCANO数据稀疏影响时空学习效果
- 扩展时间窗口: 探索更长的时间依赖关系
- 自适应融合: 学习基于的双流融合策略
- 合成数据增强: 使用NeRF等技术生成更多训练数据
- 全视频建模: 考虑整个视频序列的方法
- 问题针对性强: 直接解决工业场景中的实际痛点
- 技术创新明显: 首次将时空建模应用于PSR,设计巧妙
- 实验全面: 充分的消融实验验证各组件贡献
- 实用价值高: 显著的延迟减少对实际应用意义重大
- 开源贡献: 提供代码和新数据集标注
- 通用性有限: 主要针对装配任务,其他程序类型适用性待验证
- 效率权衡: 性能提升以计算开销增加为代价
- 理论分析不足: 缺乏对时空特征学习的理论解释
- 错误分析: 对失败案例的分析相对有限
- 学术贡献: 为PSR领域引入新的建模范式
- 工业价值: 直接应用于制造业质量控制和操作员辅助
- 可复现性: 提供完整的代码和数据,便于后续研究
- 启发性: 为其他程序理解任务提供了时空建模思路
- 工业装配: 电子产品、机械部件装配监控
- 质量检测: 实时装配步骤验证
- 培训系统: 操作员技能评估和指导
- 自动化集成: 与机器人系统协作的人机交互场景
论文引用了59篇相关文献,主要涵盖:
- 程序理解和动作识别经典工作
- 装配状态检测相关研究
- 表示学习和对比学习方法
- 注意力机制和Transformer架构
- 相关数据集构建工作
该论文在程序步骤识别领域做出了重要贡献,通过巧妙的双流设计和创新的训练策略,有效解决了现有方法在遮挡场景下的局限性。虽然存在计算开销和通用性方面的挑战,但其在工业应用中的实用价值和学术创新性使其成为该领域的重要进展。