2025-11-13T07:31:10.185499

Learning to Recognize Correctly Completed Procedure Steps in Egocentric Assembly Videos through Spatio-Temporal Modeling

Schoonbeek, Hung, Lehman et al.
Procedure step recognition (PSR) aims to identify all correctly completed steps and their sequential order in videos of procedural tasks. The existing state-of-the-art models rely solely on detecting assembly object states in individual video frames. By neglecting temporal features, model robustness and accuracy are limited, especially when objects are partially occluded. To overcome these limitations, we propose Spatio-Temporal Occlusion-Resilient Modeling for Procedure Step Recognition (STORM-PSR), a dual-stream framework for PSR that leverages both spatial and temporal features. The assembly state detection stream operates effectively with unobstructed views of the object, while the spatio-temporal stream captures both spatial and temporal features to recognize step completions even under partial occlusion. This stream includes a spatial encoder, pre-trained using a novel weakly supervised approach to capture meaningful spatial representations, and a transformer-based temporal encoder that learns how these spatial features relate over time. STORM-PSR is evaluated on the MECCANO and IndustReal datasets, reducing the average delay between actual and predicted assembly step completions by 11.2% and 26.1%, respectively, compared to prior methods. We demonstrate that this reduction in delay is driven by the spatio-temporal stream, which does not rely on unobstructed views of the object to infer completed steps. The code for STORM-PSR, along with the newly annotated MECCANO labels, is made publicly available at https://timschoonbeek.github.io/stormpsr .
academic

자중심 조립 비디오에서 올바르게 완료된 절차 단계 인식 학습: 시공간 모델링을 통한 접근

기본 정보

  • 논문 ID: 2510.12385
  • 제목: Learning to Recognize Correctly Completed Procedure Steps in Egocentric Assembly Videos through Spatio-Temporal Modeling
  • 저자: Tim J. Schoonbeek, Shao-Hsuan Hung, Dan Lehman, Hans Onvlee, Jacek Kustra, Peter H.N. de With, Fons van der Sommen
  • 분류: cs.CV (컴퓨터 비전)
  • 발표 시간: 2025년 10월 14일 (arXiv 사전인쇄본)
  • 저널: Computer Vision and Image Understanding (수락됨)
  • 논문 링크: https://arxiv.org/abs/2510.12385

초록

절차 단계 인식(PSR)은 절차 작업 비디오에서 올바르게 완료된 모든 단계와 그 순서를 인식하는 것을 목표로 합니다. 기존의 최첨단 모델은 단일 비디오 프레임에서 조립 객체 상태 감지에만 의존하며 시간적 특징을 무시하여, 특히 객체가 부분적으로 가려진 경우 모델의 견고성과 정확성이 제한됩니다. 이러한 한계를 극복하기 위해 본 논문은 공간 및 시간적 특징을 활용하는 이중 스트림 PSR 프레임워크인 STORM-PSR(Spatio-Temporal Occlusion-Resilient Modeling for Procedure Step Recognition)을 제안합니다. 조립 상태 감지 스트림은 객체가 가려지지 않을 때 효과적으로 작동하며, 시공간 스트림은 부분적 가림 상황에서도 단계 완료를 인식할 수 있도록 공간 및 시간적 특징을 포착합니다. 본 방법은 MECCANO 및 IndustReal 데이터셋에서 평가되었으며, 기존 방법과 비교하여 실제 및 예측 조립 단계 완료 간의 평균 지연을 각각 11.2% 및 26.1% 감소시켰습니다.

연구 배경 및 동기

문제 정의

절차 단계 인식(PSR)은 산업 지원 시나리오에서 컴퓨터 비전의 중요한 작업으로, 비디오에서 올바르게 완료된 절차 단계와 그 완료 시간을 인식하는 것을 목표로 합니다. 이는 산업 자동화, 품질 관리 및 작업자 지원 시스템에 중요한 의미를 갖습니다.

기존 방법의 한계

  1. 완전한 시야에 대한 의존성: 기존 방법은 주로 조립 상태 감지(ASD)를 기반으로 하며, 객체가 완전히 보이고 가려지지 않아야 함
  2. 시간 정보 무시: 단일 프레임 공간 정보만 사용하며 비디오의 시간적 연속성을 활용하지 않음
  3. 자중심 관점의 도전: 자중심 관점 비디오에서 손과 도구가 주요 객체를 자주 가려 인식 지연 발생

연구 동기

산업 현장에서 적시에 정확한 단계 인식은 다음을 위해 필수적입니다:

  • 실시간 품질 모니터링
  • 작업자 지도 및 오류 예방
  • 자동화된 조립 검증

기존 방법의 가림 상황에서의 현저한 지연은 실용성을 제한합니다.

핵심 기여

  1. STORM-PSR 프레임워크: 조립 상태로부터 단계 완료를 추론하는 대신 PSR 작업을 직접 최적화하는 첫 번째 이중 스트림 시공간 모델 제안
  2. 새로운 훈련 전략:
    • 핵심 프레임 샘플링(KFS): 공간 인코더의 약한 감독 사전 훈련
    • 핵심 클립 인식 샘플링(KCAS): 시간 인코더를 위한 새로운 샘플링 전략
  3. 데이터셋 기여: MECCANO 데이터셋에 PSR 및 ASD 주석 제공, 성능 기준 수립
  4. 현저한 성능 향상: 두 데이터셋에서 인식 지연을 크게 감소시키면서 다른 성능 지표 유지 또는 개선

방법 상세 설명

작업 정의

비디오 입력 Xt=(x1,x2,,xt)X_t = (x_1, x_2, \cdots, x_t)와 절차 동작 집합 P={p0,,pN}P = \{p_0, \cdots, p_N\}이 주어졌을 때, PSR 작업의 목표는 시간 t까지 완료된 단계 집합을 예측하는 것입니다:

Y^t={(a^σ(0),t^σ(0)),(a^σ(m),t^σ(m))}\hat{Y}_t = \{(\hat{a}_{\sigma(0)}, \hat{t}_{\sigma(0)}), \cdots (\hat{a}_{\sigma(m)}, \hat{t}_{\sigma(m)})\}

여기서 a^σ(i)\hat{a}_{\sigma(i)}는 예측된 동작 완료를, t^σ(i)\hat{t}_{\sigma(i)}는 완료 시간을 나타냅니다.

모델 아키텍처

이중 스트림 프레임워크 설계

STORM-PSR은 이중 스트림 아키텍처를 채택합니다:

  • 조립 상태 감지 스트림(S): 가려지지 않은 프레임을 처리하며, YOLOv8-M을 기반으로 완전한 조립 상태 감지
  • 시공간 스트림(T): 가려진 상황을 처리하며, 단계 완료를 직접 예측

최종 예측은 동일 가중치 융합을 통해 수행됩니다: y^k=0.5y^S,k+0.5y^T,k\hat{y}_k = 0.5 \cdot \hat{y}_{S,k} + 0.5 \cdot \hat{y}_{T,k}

시공간 스트림 아키텍처

  1. 공간 인코더: 사전 훈련된 ViT-S 모델, 프레임 수준의 공간 특징 추출
  2. 시간 인코더: Transformer 아키텍처, 시간적 의존성 학습
  3. 분류 헤드: 다중 레이블 분류를 위한 MLP

핵심 기술 혁신

1. 핵심 프레임 샘플링(KFS)

약한 감독 사전 훈련 전략으로 희소한 단계 완료 주석 활용:

  • 단계 완료 타임스탬프 주변에서 프레임 샘플링
  • 감독 대조 손실을 사용하여 견고한 공간 표현 학습
  • 합성 데이터 증강 훈련 통합 가능

2. 핵심 클립 인식 샘플링(KCAS)

이중 봉우리 분포 기반 샘플링 전략: pi(x)=tjT[g(xtjδ,σ)+g(xtj+δ,σ)]p_i(x) = \sum_{t_j \in T} [g(x | t_j - \delta, \sigma) + g(x | t_j + \delta, \sigma)]

  • 단계 완료 전후 클립 과다 샘플링
  • 모호한 시점 및 배경 클립 저샘플링
  • 더 많은 양성 샘플 및 어려운 음성 샘플 제공

실험 설정

데이터셋

  1. IndustReal: 26.9K 주석 프레임, 합성 데이터 지원 포함
  2. MECCANO: 새로 주석된 13.6K 프레임, 더 도전적인 가림 시나리오

평가 지표

  1. 절차 순서 유사도(POS): 편집 거리 기반 순서 정확성
  2. F1 점수: 정밀도와 재현율의 조화 평균
  3. 평균 지연(τ): 실제 완료와 인식 간의 시간 차이

구현 세부사항

  • 공간 인코더: ImageNet-21K 사전 훈련 ViT-S
  • 시간 인코더: 6층 자기 주의, 8개 주의 헤드
  • 최적화기: SGD, 학습률 10^-3, 코사인 어닐링 스케줄
  • 입력 해상도: 224×224 픽셀

실험 결과

주요 결과

방법IndustRealMECCANO
POS↑F1↑τ↓POS↑F1↑τ↓
IndustReal 기준선0.7970.89121.00.3540.54599.8
시공간 스트림 단독0.4970.50614.20.2060.247120.3
STORM-PSR0.8120.90115.50.3770.49788.6

주요 발견

  1. 지연 현저히 감소: IndustReal에서 26.1% 감소, MECCANO에서 11.2% 감소
  2. 성능 향상: IndustReal에서 모든 지표가 최적 달성
  3. 상호 보완성 검증: 이중 스트림 아키텍처가 두 방법의 장점을 효과적으로 결합

소거 실험

샘플링 전략의 영향

  • KFS 사전 훈련 없음: 시간 인코더가 효과적인 특징을 학습할 수 없음
  • KFS만 사용: 제한된 성능 향상
  • KFS+KCAS: 현저한 성능 향상(14%-79%)

시간 모델링 비교

Transformer > LSTM > TCN, 장기 의존성 모델링에서 주의 메커니즘의 우월성 검증

시간 윈도우 크기

더 큰 시간 윈도우(256 프레임)가 더 나은 성능을 제공하지만 계산 비용 증가

관련 연구

절차 이해 연구

  • 동작 인식: 짧은 비디오 클립 분류
  • 시간적 동작 분할: 장시간 비디오의 동작 경계 감지
  • 핵심 단계 인식: 핵심 시점 감지
  • 조립 상태 감지: 단일 프레임 기반 상태 인식

본 논문과 기존 연구의 차이점

  1. PSR 작업을 직접 최적화하며 ASD 추론에 의존하지 않는 첫 번째 연구
  2. 가림 문제를 명시적으로 처리
  3. 단일 프레임 방법의 한계를 해결하기 위해 시간 모델링 도입

결론 및 논의

주요 결론

  1. 시공간 모델링은 PSR의 인식 지연을 현저히 감소시킴
  2. 이중 스트림 아키텍처가 공간 감지와 시간 추론의 장점을 효과적으로 결합
  3. 약한 감독 사전 훈련과 지능형 샘플링 전략이 성능 향상에 필수적

한계

  1. 데이터 요구: 시공간 모델은 더 많은 훈련 데이터 필요
  2. 계산 오버헤드: 단일 스트림 방법 대비 계산 복잡도 증가(75.1 vs 284.8 FPS)
  3. 시간 윈도우 제한: 고정 윈도우 크기가 전역 절차 이해 제한
  4. 데이터셋 규모: MECCANO 데이터 희소성이 시공간 학습 효과에 영향

향후 방향

  1. 시간 윈도우 확장: 더 긴 시간적 의존성 관계 탐색
  2. 적응형 융합: 학습 기반 이중 스트림 융합 전략
  3. 합성 데이터 증강: NeRF 등 기술을 사용한 더 많은 훈련 데이터 생성
  4. 전체 비디오 모델링: 전체 비디오 시퀀스를 고려하는 방법

심층 평가

장점

  1. 문제 지향성 강함: 산업 현장의 실제 문제점을 직접 해결
  2. 기술 혁신 명확: PSR에 시공간 모델링을 처음 적용, 설계 정교함
  3. 실험 포괄적: 각 구성 요소의 기여도를 검증하는 충분한 소거 실험
  4. 실용적 가치 높음: 현저한 지연 감소가 실제 응용에 중요한 의미
  5. 오픈소스 기여: 코드 및 새로운 데이터셋 주석 제공

부족한 점

  1. 일반성 제한: 주로 조립 작업에 초점, 다른 절차 유형의 적용성 미검증
  2. 효율성 트레이드오프: 성능 향상이 계산 오버헤드 증가로 인한 대가
  3. 이론적 분석 부족: 시공간 특징 학습에 대한 이론적 설명 부재
  4. 오류 분석 제한: 실패 사례에 대한 분석 상대적으로 제한적

영향력

  1. 학술 기여: PSR 분야에 새로운 모델링 패러다임 도입
  2. 산업적 가치: 제조업 품질 관리 및 작업자 지원에 직접 응용
  3. 재현성: 완전한 코드 및 데이터 제공으로 후속 연구 용이
  4. 영감 제공: 다른 절차 이해 작업에 시공간 모델링 아이디어 제시

적용 시나리오

  1. 산업 조립: 전자 제품, 기계 부품 조립 모니터링
  2. 품질 검사: 실시간 조립 단계 검증
  3. 훈련 시스템: 작업자 기술 평가 및 지도
  4. 자동화 통합: 로봇 시스템과 협력하는 인간-기계 상호작용 시나리오

참고 문헌

논문은 59개의 관련 문헌을 인용하며, 주로 다음을 포함합니다:

  • 절차 이해 및 동작 인식 고전 연구
  • 조립 상태 감지 관련 연구
  • 표현 학습 및 대조 학습 방법
  • 주의 메커니즘 및 Transformer 아키텍처
  • 관련 데이터셋 구축 연구

본 논문은 절차 단계 인식 분야에서 중요한 기여를 하였으며, 정교한 이중 스트림 설계와 혁신적인 훈련 전략을 통해 기존 방법의 가림 시나리오에서의 한계를 효과적으로 해결합니다. 계산 오버헤드 및 일반성 측면의 도전이 있지만, 산업 응용에서의 실용적 가치와 학술적 혁신성으로 인해 이 분야의 중요한 진전이 됩니다.