2025-11-13T07:31:10.185499

Learning to Recognize Correctly Completed Procedure Steps in Egocentric Assembly Videos through Spatio-Temporal Modeling

Schoonbeek, Hung, Lehman et al.

Procedure step recognition (PSR) aims to identify all correctly completed steps and their sequential order in videos of procedural tasks. The existing state-of-the-art models rely solely on detecting assembly object states in individual video frames. By neglecting temporal features, model robustness and accuracy are limited, especially when objects are partially occluded. To overcome these limitations, we propose Spatio-Temporal Occlusion-Resilient Modeling for Procedure Step Recognition (STORM-PSR), a dual-stream framework for PSR that leverages both spatial and temporal features. The assembly state detection stream operates effectively with unobstructed views of the object, while the spatio-temporal stream captures both spatial and temporal features to recognize step completions even under partial occlusion. This stream includes a spatial encoder, pre-trained using a novel weakly supervised approach to capture meaningful spatial representations, and a transformer-based temporal encoder that learns how these spatial features relate over time. STORM-PSR is evaluated on the MECCANO and IndustReal datasets, reducing the average delay between actual and predicted assembly step completions by 11.2% and 26.1%, respectively, compared to prior methods. We demonstrate that this reduction in delay is driven by the spatio-temporal stream, which does not rely on unobstructed views of the object to infer completed steps. The code for STORM-PSR, along with the newly annotated MECCANO labels, is made publicly available at https://timschoonbeek.github.io/stormpsr .

academic

التعلم لتمييز خطوات الإجراء المكتملة بشكل صحيح في مقاطع فيديو التجميع من منظور الشخص الأول من خلال النمذجة الزمانية المكانية

المعلومات الأساسية

معرّف الورقة: 2510.12385
العنوان: Learning to Recognize Correctly Completed Procedure Steps in Egocentric Assembly Videos through Spatio-Temporal Modeling
المؤلفون: Tim J. Schoonbeek, Shao-Hsuan Hung, Dan Lehman, Hans Onvlee, Jacek Kustra, Peter H.N. de With, Fons van der Sommen
التصنيف: cs.CV (رؤية الحاسوب)
تاريخ النشر: 14 أكتوبر 2025 (نسخة أولية على arXiv)
المجلة: Computer Vision and Image Understanding (مقبولة)
رابط الورقة: https://arxiv.org/abs/2510.12385

الملخص

يهدف تمييز خطوات الإجراء (PSR) إلى تحديد جميع خطوات الإجراء المكتملة بشكل صحيح وترتيبها في مقاطع فيديو المهام الإجرائية. تعتمد النماذج الحديثة الموجودة فقط على كشف حالة كائنات التجميع في إطارات الفيديو الفردية، مما يتجاهل الميزات الزمانية، مما يؤدي إلى محدودية قوة النموذج ودقته، خاصة عند الإغلاق الجزئي للكائنات. للتغلب على هذه القيود، تقترح هذه الورقة STORM-PSR (نمذجة مرنة للإغلاق الزمانية المكانية لتمييز خطوات الإجراء)، وهي إطار عمل ثنائي التدفق لـ PSR يستفيد من الميزات المكانية والزمانية. يعمل تدفق كشف حالة التجميع بشكل فعال عندما تكون الكائنات خالية من الإغلاق، بينما يلتقط التدفق الزمانية المكانية الميزات المكانية والزمانية، مما يسمح بتمييز اكتمال الخطوات حتى في ظل الإغلاق الجزئي. تم تقييم الطريقة على مجموعات بيانات MECCANO و IndustReal، مما أدى إلى تقليل متوسط التأخير بين اكتمال خطوات التجميع الفعلية والمتنبأ بها بنسبة 11.2% و 26.1% على التوالي مقارنة بالطرق الموجودة.

الخلفية البحثية والدافع

تعريف المشكلة

تمييز خطوات الإجراء (PSR) هو مهمة مهمة في رؤية الحاسوب في سيناريوهات المساعدة الصناعية، والتي تهدف إلى تحديد خطوات الإجراء المكتملة بشكل صحيح في الفيديو ووقت اكتمالها. هذا ذو أهمية كبيرة للأتمتة الصناعية والتحكم في الجودة وأنظمة مساعدة المشغلين.

قيود الطرق الموجودة

الاعتماد على العرض الكامل: تعتمد الطرق الموجودة بشكل أساسي على كشف حالة التجميع (ASD)، مما يتطلب أن تكون الكائنات مرئية بالكامل وخالية من الإغلاق
تجاهل المعلومات الزمانية: استخدام معلومات المساحة من إطار واحد فقط، دون الاستفادة من الاستمرارية الزمانية للفيديو
تحديات منظور الشخص الأول: في مقاطع الفيديو من منظور الشخص الأول، تحجب الأيدي والأدوات بشكل متكرر الكائنات الرئيسية، مما يؤدي إلى تأخير التمييز

الدافع البحثي

في السيناريوهات الصناعية، يعتبر التمييز الدقيق والفوري للخطوات حاسماً لـ:

المراقبة الفورية للجودة
إرشادات المشغل ومنع الأخطاء
التحقق الآلي من التجميع وغيرها من التطبيقات. يحد التأخير الملحوظ للطرق الموجودة في حالات الإغلاق من فائدتها العملية.

المساهمات الأساسية

إطار عمل STORM-PSR: اقتراح أول نموذج زمانية مكانية ثنائي التدفق يحسّن مباشرة مهمة PSR، بدلاً من الاستدلال على اكتمال الخطوات من حالة التجميع
استراتيجيات تدريب جديدة:
- أخذ عينات الإطارات الرئيسية (KFS): التدريب المسبق الضعيف الإشراف لمشفر المساحة
- أخذ عينات الأجزاء الرئيسية الواعية (KCAS): استراتيجية أخذ عينات جديدة لمشفر الزمان
مساهمة مجموعة البيانات: توفير تعليقات توضيحية PSR و ASD لمجموعة بيانات MECCANO، وإنشاء معايير الأداء
تحسن الأداء الملحوظ: تقليل كبير في تأخير التمييز على مجموعتي البيانات مع الحفاظ على أو تحسين مؤشرات الأداء الأخرى

شرح الطريقة

تعريف المهمة

بالنظر إلى إدخال الفيديو $X_t = (x_1, x_2, \cdots, x_t)$ ومجموعة الإجراءات الإجرائية $P = \{p_0, \cdots, p_N\}$ ، الهدف من مهمة PSR هو التنبؤ بمجموعة الخطوات المكتملة بحلول الوقت t:

$\hat{Y}_t = \{(\hat{a}_{\sigma(0)}, \hat{t}_{\sigma(0)}), \cdots (\hat{a}_{\sigma(m)}, \hat{t}_{\sigma(m)})\}$

حيث يمثل $\hat{a}_{\sigma(i)}$ اكتمال الإجراء المتنبأ به، و $\hat{t}_{\sigma(i)}$ يمثل وقت الاكتمال.

معمارية النموذج

تصميم الإطار ثنائي التدفق

يعتمد STORM-PSR على معمارية ثنائية التدفق:

تدفق كشف حالة التجميع (S): معالجة الإطارات الخالية من الإغلاق، بناءً على كشف حالة التجميع الكاملة باستخدام YOLOv8-M
التدفق الزمانية المكانية (T): معالجة حالات الإغلاق، التنبؤ المباشر باكتمال الخطوات

يتم الحصول على التنبؤ النهائي من خلال الدمج بأوزان متساوية: $\hat{y}_k = 0.5 \cdot \hat{y}_{S,k} + 0.5 \cdot \hat{y}_{T,k}$

معمارية التدفق الزمانية المكانية

مشفر المساحة: نموذج ViT-S مدرب مسبقاً، استخراج ميزات المساحة على مستوى الإطار
مشفر الزمان: معمارية Transformer، تعلم العلاقات الزمانية
رأس التصنيف: شبكة MLP لتنفيذ التصنيف متعدد التسميات

الابتكارات التقنية الرئيسية

1. أخذ عينات الإطارات الرئيسية (KFS)

استراتيجية التدريب المسبق الضعيفة الإشراف، الاستفادة من التعليقات التوضيحية النادرة لاكتمال الخطوات:

أخذ عينات من الإطارات حول طوابع زمن اكتمال الخطوات
استخدام خسارة التباين الخاضعة للإشراف لتعلم تمثيلات مساحة قوية
يمكن دمج تحسين البيانات الاصطناعية في التدريب

2. أخذ عينات الأجزاء الرئيسية الواعية (KCAS)

استراتيجية أخذ العينات بناءً على التوزيع ثنائي الأوضاع: $p_i(x) = \sum_{t_j \in T} [g(x | t_j - \delta, \sigma) + g(x | t_j + \delta, \sigma)]$

الإفراط في أخذ عينات من الأجزاء قبل وبعد اكتمال الخطوات
نقص أخذ عينات من اللحظات الغامضة والأجزاء الخلفية
توفير المزيد من العينات الموجبة والعينات السالبة الصعبة

إعداد التجارب

مجموعات البيانات

IndustReal: 26.9K إطار معلق، يتضمن دعم البيانات الاصطناعية
MECCANO: 13.6K إطار معلق حديثاً، سيناريوهات إغلاق أكثر تحدياً

مؤشرات التقييم

تشابه ترتيب الإجراء (POS): دقة الترتيب بناءً على مسافة التحرير
درجة F1: المتوسط التوافقي للدقة والاستدعاء
متوسط التأخير (τ): الفرق الزمني بين الاكتمال الفعلي والمعترف به

تفاصيل التنفيذ

مشفر المساحة: ViT-S مدرب مسبقاً على ImageNet-21K
مشفر الزمان: 6 طبقات من الانتباه الذاتي، 8 رؤوس انتباه
المحسّن: SGD، معدل التعلم 10^-3، جدول التلدين الجيبي
دقة الإدخال: 224×224 بكسل

نتائج التجارب

النتائج الرئيسية

الطريقة	IndustReal			MECCANO
	POS↑	F1↑	τ↓	POS↑	F1↑	τ↓
خط أساس IndustReal	0.797	0.891	21.0	0.354	0.545	99.8
التدفق الزمانية المكانية وحده	0.497	0.506	14.2	0.206	0.247	120.3
STORM-PSR	0.812	0.901	15.5	0.377	0.497	88.6

النتائج الرئيسية

تقليل التأخير الملحوظ: تقليل بنسبة 26.1% على IndustReal وتقليل بنسبة 11.2% على MECCANO
تحسن الأداء: تحقيق أفضل مؤشرات على IndustReal
التحقق من التكامل: يجمع الإطار ثنائي التدفق بشكل فعال بين مزايا كلا الطريقتين

تجارب الاستئصال

تأثير استراتيجيات أخذ العينات

بدون تدريب مسبق KFS: لا يمكن لمشفر الزمان تعلم ميزات فعالة
KFS فقط: تحسن محدود في الأداء
KFS+KCAS: تحسن ملحوظ في الأداء (14%-79%)

مقارنة النمذجة الزمانية

Transformer > LSTM > TCN، مما يتحقق من تفوق آلية الانتباه في نمذجة التبعيات طويلة المدى.

حجم النافذة الزمانية

توفر النوافذ الزمانية الأكبر (256 إطار) أداءً أفضل، لكن تكاليف الحساب تزداد.

الأعمال ذات الصلة

أبحاث فهم الإجراء

تمييز الإجراء: تصنيف مقاطع الفيديو القصيرة
تقسيم الإجراء الزمانية: كشف حدود الإجراء في مقاطع الفيديو الطويلة
تمييز الخطوات الرئيسية: كشف اللحظات الرئيسية
كشف حالة التجميع: تمييز الحالة بناءً على إطار واحد

الفرق بين هذه الورقة والأعمال الموجودة

أول من يحسّن مباشرة مهمة PSR بدلاً من الاعتماد على الاستدلال من ASD
معالجة صريحة لمشكلة الإغلاق
إدخال النمذجة الزمانية لحل قيود طرق الإطار الواحد

الخلاصة والمناقشة

الاستنتاجات الرئيسية

تقلل النمذجة الزمانية المكانية بشكل كبير من تأخير التمييز في PSR
يجمع الإطار ثنائي التدفق بشكل فعال بين مزايا الكشف المكاني والاستدلال الزمانية
التدريب المسبق الضعيف الإشراف واستراتيجيات أخذ العينات الذكية ضروريان لتحسن الأداء

القيود

متطلبات البيانات: تتطلب نماذج النمذجة الزمانية المكانية المزيد من بيانات التدريب
التكاليف الحسابية: تعقيد حسابي أعلى مقارنة بطرق التدفق الواحد (75.1 مقابل 284.8 إطار في الثانية)
قيود النافذة الزمانية: يحد حجم النافذة الثابت من فهم البرنامج العام
حجم مجموعة البيانات: ندرة البيانات في MECCANO تؤثر على فعالية التعلم الزمانية المكانية

الاتجاهات المستقبلية

توسيع النافذة الزمانية: استكشاف العلاقات الزمانية الأطول
الدمج التكيفي: تعلم استراتيجيات دمج التدفق الثنائي بناءً على البيانات
تحسين البيانات الاصطناعية: استخدام تقنيات مثل NeRF لتوليد المزيد من بيانات التدريب
نمذجة الفيديو الكامل: طرق تأخذ في الاعتبار تسلسل الفيديو بأكمله

التقييم المتعمق

المزايا

قوة استهداف المشكلة: حل مباشر للمشاكل العملية في السيناريوهات الصناعية
ابتكار تقني واضح: أول من يطبق النمذجة الزمانية المكانية على PSR، مع تصميم ذكي
تجارب شاملة: تجارب استئصال كافية للتحقق من مساهمة كل مكون
قيمة عملية عالية: تقليل التأخير الملحوظ ذو أهمية كبيرة للتطبيقات العملية
مساهمات مفتوحة المصدر: توفير الكود والتعليقات التوضيحية الجديدة لمجموعة البيانات

أوجه القصور

قابلية عامة محدودة: موجهة بشكل أساسي لمهام التجميع، مع عدم التأكد من قابلية التطبيق على أنواع إجرائية أخرى
المقايضة في الكفاءة: تحسن الأداء على حساب زيادة التكاليف الحسابية
نقص التحليل النظري: افتقار إلى شرح نظري لتعلم الميزات الزمانية المكانية
تحليل الأخطاء: تحليل نسبي محدود لحالات الفشل

التأثير

المساهمة الأكاديمية: إدخال نمط نمذجة جديد لمجال PSR
القيمة الصناعية: تطبيق مباشر على التحكم في الجودة والمساعدة في التصنيع
قابلية الاستنساخ: توفير الكود الكامل ومجموعة البيانات لتسهيل الأبحاث اللاحقة
الإلهام: توفير أفكار نمذجة زمانية مكانية لمهام فهم الإجراء الأخرى

السيناريوهات المعمول بها

التجميع الصناعي: مراقبة تجميع المنتجات الإلكترونية والأجزاء الميكانيكية
فحص الجودة: التحقق الفوري من خطوات التجميع
أنظمة التدريب: تقييم مهارات المشغل والإرشادات
التكامل الآلي: سيناريوهات التفاعل بين الإنسان والآلة مع أنظمة الروبوتات

المراجع

تستشهد الورقة بـ 59 مرجعاً ذا صلة، تغطي بشكل أساسي:

الأعمال الكلاسيكية في فهم الإجراء وتمييز الإجراء
الأبحاث ذات الصلة بكشف حالة التجميع
طرق تعلم التمثيل والتعلم المقارن
آليات الانتباه ومعمارية Transformer
أعمال بناء مجموعات البيانات ذات الصلة

تقدم هذه الورقة مساهمة مهمة في مجال تمييز خطوات الإجراء، حيث تحل بشكل فعال قيود الطرق الموجودة في سيناريوهات الإغلاق من خلال تصميم ثنائي التدفق ذكي واستراتيجيات تدريب مبتكرة. على الرغم من التحديات المتعلقة بالتكاليف الحسابية وقابلية العموم، فإن قيمتها العملية في التطبيقات الصناعية والابتكار الأكاديمي تجعلها تقدماً مهماً في هذا المجال.