2025-11-13T07:31:10.185499

Learning to Recognize Correctly Completed Procedure Steps in Egocentric Assembly Videos through Spatio-Temporal Modeling

Schoonbeek, Hung, Lehman et al.

Procedure step recognition (PSR) aims to identify all correctly completed steps and their sequential order in videos of procedural tasks. The existing state-of-the-art models rely solely on detecting assembly object states in individual video frames. By neglecting temporal features, model robustness and accuracy are limited, especially when objects are partially occluded. To overcome these limitations, we propose Spatio-Temporal Occlusion-Resilient Modeling for Procedure Step Recognition (STORM-PSR), a dual-stream framework for PSR that leverages both spatial and temporal features. The assembly state detection stream operates effectively with unobstructed views of the object, while the spatio-temporal stream captures both spatial and temporal features to recognize step completions even under partial occlusion. This stream includes a spatial encoder, pre-trained using a novel weakly supervised approach to capture meaningful spatial representations, and a transformer-based temporal encoder that learns how these spatial features relate over time. STORM-PSR is evaluated on the MECCANO and IndustReal datasets, reducing the average delay between actual and predicted assembly step completions by 11.2% and 26.1%, respectively, compared to prior methods. We demonstrate that this reduction in delay is driven by the spatio-temporal stream, which does not rely on unobstructed views of the object to infer completed steps. The code for STORM-PSR, along with the newly annotated MECCANO labels, is made publicly available at https://timschoonbeek.github.io/stormpsr .

academic

Обучение распознаванию правильно завершённых этапов процедуры в эгоцентрических видео сборки посредством пространственно-временного моделирования

Основная информация

ID статьи: 2510.12385
Название: Learning to Recognize Correctly Completed Procedure Steps in Egocentric Assembly Videos through Spatio-Temporal Modeling
Авторы: Tim J. Schoonbeek, Shao-Hsuan Hung, Dan Lehman, Hans Onvlee, Jacek Kustra, Peter H.N. de With, Fons van der Sommen
Категория: cs.CV (Компьютерное зрение)
Дата публикации: 14 октября 2025 г. (препринт arXiv)
Журнал: Computer Vision and Image Understanding (принята)
Ссылка на статью: https://arxiv.org/abs/2510.12385

Аннотация

Распознавание этапов процедуры (PSR) направлено на идентификацию всех правильно завершённых этапов процедурной задачи в видео и их последовательность. Существующие передовые модели полагаются только на обнаружение состояния объектов сборки в отдельных кадрах видео, игнорируя временные характеристики, что приводит к ограниченной надёжности и точности модели, особенно при частичной окклюзии объектов. Для преодоления этих ограничений в данной работе предлагается STORM-PSR (Spatio-Temporal Occlusion-Resilient Modeling for Procedure Step Recognition) — двухпоточная архитектура PSR, использующая пространственные и временные характеристики. Поток обнаружения состояния сборки эффективно работает при отсутствии окклюзии объектов, тогда как пространственно-временной поток захватывает пространственные и временные характеристики, позволяя распознавать завершение этапов даже при частичной окклюзии. Метод оценивается на наборах данных MECCANO и IndustReal, достигая сокращения среднего времени задержки между фактическим и предсказанным завершением этапов сборки на 11,2% и 26,1% соответственно по сравнению с существующими методами.

Исследовательский контекст и мотивация

Определение проблемы

Распознавание этапов процедуры (PSR) является важной задачей компьютерного зрения в сценариях промышленной поддержки, направленной на идентификацию правильно завершённых этапов процедуры в видео и времени их завершения. Это имеет критическое значение для промышленной автоматизации, контроля качества и систем поддержки операторов.

Ограничения существующих методов

Зависимость от полного обзора: Существующие методы в основном основаны на обнаружении состояния сборки (ASD), требующем полной видимости объектов без окклюзии
Игнорирование временной информации: Использование только пространственной информации из одного кадра без учёта временной непрерывности видео
Вызовы эгоцентрического видео: В видео от первого лица руки и инструменты часто закрывают ключевые объекты, вызывая значительные задержки в распознавании

Исследовательская мотивация

В промышленных сценариях своевременное и точное распознавание этапов критично для:

Мониторинга качества в реальном времени
Руководства оператором и предотвращения ошибок
Автоматической верификации сборки и других приложений. Значительные задержки существующих методов при окклюзии ограничивают их практическую применимость.

Основные вклады

Архитектура STORM-PSR: Предложена первая двухпоточная пространственно-временная модель, прямо оптимизирующая задачу PSR, а не выводящая завершение этапов из состояния сборки
Новые стратегии обучения:
- Выборка ключевых кадров (KFS): слабо контролируемое предварительное обучение пространственного кодировщика
- Выборка с учётом ключевых сегментов (KCAS): новая стратегия выборки для временного кодировщика
Вклад в наборы данных: Предоставлены аннотации PSR и ASD для набора данных MECCANO, установлены базовые показатели производительности
Значительное улучшение производительности: Значительное сокращение времени задержки распознавания на двух наборах данных при сохранении или улучшении других показателей производительности

Подробное описание метода

Определение задачи

Для входного видео $X_t = (x_1, x_2, \cdots, x_t)$ и набора действий процедуры $P = \{p_0, \cdots, p_N\}$ , цель задачи PSR — предсказать набор завершённых этапов к моменту времени t:

$\hat{Y}_t = \{(\hat{a}_{\sigma(0)}, \hat{t}_{\sigma(0)}), \cdots (\hat{a}_{\sigma(m)}, \hat{t}_{\sigma(m)})\}$

где $\hat{a}_{\sigma(i)}$ обозначает предсказанное завершение действия, а $\hat{t}_{\sigma(i)}$ — время завершения.

Архитектура модели

Проектирование двухпоточной архитектуры

STORM-PSR использует двухпоточную архитектуру:

Поток обнаружения состояния сборки (S): Обрабатывает кадры без окклюзии, основан на YOLOv8-M для обнаружения полного состояния сборки
Пространственно-временной поток (T): Обрабатывает окклюдированные кадры, прямо предсказывает завершение этапов

Финальное предсказание получается путём равновзвешенного слияния: $\hat{y}_k = 0.5 \cdot \hat{y}_{S,k} + 0.5 \cdot \hat{y}_{T,k}$

Архитектура пространственно-временного потока

Пространственный кодировщик: Предварительно обученная модель ViT-S для извлечения пространственных признаков уровня кадра
Временной кодировщик: Архитектура Transformer для изучения временных зависимостей
Классификационная головка: MLP для многоклассовой классификации

Ключевые технические инновации

1. Выборка ключевых кадров (KFS)

Стратегия слабо контролируемого предварительного обучения, использующая разреженные аннотации завершения этапов:

Выборка кадров вокруг временных меток завершения этапов
Использование контрастивной потери под контролем для изучения надёжных пространственных представлений
Возможность интеграции синтетического увеличения данных при обучении

2. Выборка с учётом ключевых сегментов (KCAS)

Стратегия выборки на основе бимодального распределения: $p_i(x) = \sum_{t_j \in T} [g(x | t_j - \delta, \sigma) + g(x | t_j + \delta, \sigma)]$

Избыточная выборка сегментов до и после завершения этапа
Недостаточная выборка неоднозначных моментов и фоновых сегментов
Обеспечение большего количества положительных образцов и сложных отрицательных образцов

Экспериментальная установка

Наборы данных

IndustReal: 26,9K аннотированных кадров с поддержкой синтетических данных
MECCANO: Вновь аннотированные 13,6K кадров с более сложными сценариями окклюзии

Метрики оценки

Сходство порядка процедуры (POS): Точность порядка на основе расстояния редактирования
F1-оценка: Гармоническое среднее точности и полноты
Средняя задержка (τ): Временная разница между фактическим и предсказанным завершением

Детали реализации

Пространственный кодировщик: ViT-S предварительно обученный на ImageNet-21K
Временной кодировщик: 6 слоёв самовнимания, 8 голов внимания
Оптимизатор: SGD, скорость обучения 10⁻³, косинусное отжигание расписания
Разрешение входа: 224×224 пиксели

Результаты экспериментов

Основные результаты

Метод	IndustReal			MECCANO
	POS↑	F1↑	τ↓	POS↑	F1↑	τ↓
Базовая модель IndustReal	0.797	0.891	21.0	0.354	0.545	99.8
Пространственно-временной поток отдельно	0.497	0.506	14.2	0.206	0.247	120.3
STORM-PSR	0.812	0.901	15.5	0.377	0.497	88.6

Ключевые находки

Значительное сокращение задержки: Сокращение на 26,1% на IndustReal, на 11,2% на MECCANO
Улучшение производительности: Достижение оптимальных показателей по всем метрикам на IndustReal
Проверка дополнительности: Двухпоточная архитектура эффективно объединяет преимущества обоих методов

Абляционные исследования

Влияние стратегий выборки

Без предварительного обучения KFS: Временной кодировщик не может изучить эффективные признаки
Только KFS: Ограниченное улучшение производительности
KFS+KCAS: Значительное улучшение производительности (14%-79%)

Сравнение временного моделирования

Transformer > LSTM > TCN, подтверждая преимущества механизма внимания в моделировании долгосрочных зависимостей.

Размер временного окна

Большие временные окна (256 кадров) обеспечивают лучшую производительность, но с увеличением вычислительных затрат.

Связанные работы

Исследования понимания процедур

Распознавание действий: Классификация коротких видеофрагментов
Временная сегментация действий: Обнаружение границ действий в длинных видео
Распознавание ключевых этапов: Обнаружение ключевых моментов
Обнаружение состояния сборки: Распознавание состояния на основе одного кадра

Отличие данной работы от существующих

Первый прямой оптимизм задачи PSR вместо вывода из ASD
Явное решение проблемы окклюзии
Введение временного моделирования для преодоления ограничений методов на основе одного кадра

Заключение и обсуждение

Основные выводы

Пространственно-временное моделирование значительно сокращает время задержки распознавания PSR
Двухпоточная архитектура эффективно объединяет преимущества пространственного обнаружения и временного рассуждения
Слабо контролируемое предварительное обучение и интеллектуальные стратегии выборки критичны для улучшения производительности

Ограничения

Требования к данным: Пространственно-временная модель требует больше данных для обучения
Вычислительные затраты: Более высокая вычислительная сложность по сравнению с однопоточным методом (75.1 vs 284.8 FPS)
Ограничения временного окна: Фиксированный размер окна ограничивает глобальное понимание процедуры
Масштаб набора данных: Разреженность данных MECCANO влияет на эффективность пространственно-временного обучения

Будущие направления

Расширение временного окна: Исследование более длительных временных зависимостей
Адаптивное слияние: Изучение стратегий слияния двухпоточной архитектуры на основе данных
Увеличение синтетических данных: Использование технологий NeRF для генерации большего количества данных обучения
Моделирование полного видео: Методы, рассматривающие всю последовательность видео

Глубокая оценка

Преимущества

Сильная целевая ориентация на проблему: Прямое решение практических проблем в промышленных сценариях
Явные технические инновации: Первое применение пространственно-временного моделирования к PSR с тщательным проектированием
Комплексные эксперименты: Достаточные абляционные исследования для проверки вклада каждого компонента
Высокая практическая ценность: Значительное сокращение задержки имеет большое значение для практического применения
Вклад в открытый исходный код: Предоставление кода и новых аннотаций набора данных

Недостатки

Ограниченная универсальность: Главным образом ориентирована на задачи сборки, применимость к другим типам процедур требует проверки
Компромисс эффективности: Улучшение производительности достигается за счёт увеличения вычислительных затрат
Недостаточный теоретический анализ: Отсутствие теоретического объяснения изучения пространственно-временных признаков
Ограниченный анализ ошибок: Относительно ограниченный анализ случаев отказа

Влияние

Академический вклад: Введение новой парадигмы моделирования в область PSR
Промышленная ценность: Прямое применение к контролю качества производства и поддержке операторов
Воспроизводимость: Предоставление полного кода и данных для облегчения последующих исследований
Вдохновляющее значение: Предоставление идей пространственно-временного моделирования для других задач понимания процедур

Применимые сценарии

Промышленная сборка: Мониторинг сборки электронных продуктов и механических компонентов
Контроль качества: Верификация этапов сборки в реальном времени
Системы обучения: Оценка навыков операторов и руководство
Интеграция автоматизации: Сценарии взаимодействия человека и робота в сотрудничестве с робототехническими системами

Библиография

Статья цитирует 59 связанных работ, охватывающих в основном:

Классические работы по пониманию процедур и распознаванию действий
Исследования, связанные с обнаружением состояния сборки
Методы представления и контрастивного обучения
Архитектуры механизма внимания и Transformer
Работы по построению соответствующих наборов данных

Данная статья вносит важный вклад в область распознавания этапов процедуры, эффективно решая ограничения существующих методов в сценариях окклюзии благодаря тщательному проектированию двухпоточной архитектуры и инновационным стратегиям обучения. Хотя существуют вызовы, связанные с вычислительными затратами и универсальностью, её практическая ценность в промышленных приложениях и академическая инновативность делают её важным прогрессом в данной области.