2025-11-15T00:16:11.455248

New keypoint-based approach for recognising British Sign Language (BSL) from sequences

Deb, Prajwal, Zisserman

In this paper, we present a novel keypoint-based classification model designed to recognise British Sign Language (BSL) words within continuous signing sequences. Our model's performance is assessed using the BOBSL dataset, revealing that the keypoint-based approach surpasses its RGB-based counterpart in computational efficiency and memory usage. Furthermore, it offers expedited training times and demands fewer computational resources. To the best of our knowledge, this is the inaugural application of a keypoint-based model for BSL word classification, rendering direct comparisons with existing works unavailable.

academic

نهج جديد قائم على النقاط الرئيسية للتعرف على لغة الإشارة البريطانية (BSL) من التسلسلات

المعلومات الأساسية

معرّف الورقة: 2412.09475
العنوان: نهج جديد قائم على النقاط الرئيسية للتعرف على لغة الإشارة البريطانية (BSL) من التسلسلات
المؤلفون: Oishi Deb, KR Prajwal, Andrew Zisserman (مجموعة الهندسة الهندسية البصرية، جامعة أكسفورد)
التصنيف: cs.CV cs.AI
وقت النشر/المؤتمر: المؤتمر الدولي لرؤية الحاسوب (ICCV) - ورشة العمل HANDS، 2023
رابط الورقة: https://arxiv.org/abs/2412.09475

الملخص

تقدم هذه الورقة نموذج تصنيف جديد قائم على النقاط الرئيسية للتعرف على كلمات لغة الإشارة البريطانية (BSL) في تسلسلات لغة الإشارة المستمرة. تم تقييم النموذج على مجموعة بيانات BOBSL، وأظهرت النتائج أن الطريقة القائمة على النقاط الرئيسية تتفوق على الطرق المقابلة القائمة على RGB من حيث الكفاءة الحسابية واستخدام الذاكرة، مع توفير وقت تدريب أسرع واحتياج موارد حسابية أقل. وفقاً لمعرفة المؤلفين، هذا هو أول تطبيق لنماذج قائمة على النقاط الرئيسية لتصنيف كلمات BSL، وبالتالي لا يمكن إجراء مقارنة مباشرة مع الأعمال الموجودة.

خلفية البحث والدافع

تعريف المشكلة

يعتبر التعرف على لغة الإشارة مهمة مهمة في رؤية الحاسوب، تهدف إلى التعرف التلقائي على كلمات أو عبارات لغة الإشارة من تسلسلات الفيديو. تعتمد الطرق التقليدية بشكل أساسي على فيديو RGB، لكنها تعاني من تعقيد حسابي عالي وحساسية للعوامل البيئية.

الأهمية

الأهمية الاجتماعية: تحسين إمكانية الوصول لمجتمع الصم، وتعزيز التواصل الشامل
التحديات التقنية: ظاهرة النطق المتزامن (co-articulation) في لغة الإشارة المستمرة تجعل مهمة التعرف صعبة للغاية
المتطلبات الفورية: تتطلب التطبيقات العملية نماذج فعالة قادرة على المعالجة الفورية

قيود الطرق الموجودة

طرق RGB: تعقيد حسابي عالي، استهلاك ذاكرة كبير، وقت تدريب طويل
حساسية بيئية: عرضة للتأثر بعوامل خارجية مثل الإضاءة والملابس
ضعف الفورية: يصعب تلبية متطلبات التطبيقات الفورية

دافع البحث

يقترح المؤلفون استخدام تمثيل النقاط الرئيسية ثنائية الأبعاد لحل المشاكل المذكورة أعلاه، بناءً على ثلاثة أسباب رئيسية:

القابلية للتحكم: القدرة على اختيار مجموعات فرعية من النقاط الرئيسية بمرونة، والتحكم في التكاليف الحسابية
الإحكام: القضاء على عوامل التشويش مثل الإضاءة والملابس، وتوفير تمثيل أكثر إحكاماً
الفورية: يمكن حساب النقاط الرئيسية بشكل فوري، مما يدعم التنفيذ الفوري للنموذج

المساهمات الأساسية

التطبيق الأول: أول تطبيق لطريقة قائمة على النقاط الرئيسية لمهمة تصنيف كلمات BSL
معمارية فعالة: اقتراح معمارية قائمة على Transformer لمعالجة تسلسلات النقاط الرئيسية
الكفاءة الحسابية: تقليل كبير في التكاليف الحسابية واستخدام الذاكرة ووقت التدريب مقارنة بطرق RGB
القيمة العملية: توفير حل أكثر كفاءة وعملية للتعرف على لغة الإشارة

شرح الطريقة

تعريف المهمة

الإدخال: تمثيل النقاط الرئيسية ثنائية الأبعاد لتسلسلات فيديو BSL المستمرة
الإخراج: نتائج التصنيف لـ 8,162 فئة كلمة BSL
القيود: معالجة ظاهرة النطق المتزامن، دعم المعالجة الفورية

استخراج النقاط الرئيسية

استخدام مكتبة MediaPipe لاستخراج النقاط الرئيسية:

نقاط الموضع: 33 نقطة
نقاط اليد: 21 نقطة لكل من اليد اليسرى واليمنى
نقاط الوجه: 468 نقطة (مختزلة إلى 128 نقطة في نموذج 203kp)
الإجمالي: 543 نقطة رئيسية (أو 203 نقاط في النسخة المبسطة)

معمارية النموذج

تمثيل الإدخال

استخراج تسلسل النقاط الرئيسية من 16 إطار متتالي (بناءً على البحث الذي يشير إلى أن النطق المتزامن يستمر 13-20 إطار)
تشكيل متجه ثلاثي الأبعاد 16 × K × 2، حيث K هو عدد النقاط الرئيسية في كل إطار

معمارية Transformer

المرمز (Tokenizer): تمرير بيانات الإدخال إلى رموز
الترميز الموضعي: إضافة معلومات الموضع لتمييز الترتيب في التسلسل
المشفر (Encoder): 6 طبقات مشفرة، تحتوي كل طبقة على:
- آلية الانتباه الذاتي متعددة الرؤوس (8 رؤوس انتباه)
- شبكة عصبية موضعية تغذية أمامية
- تطبيع الطبقة
المولد (Generator): تحويل التمثيل المتعلم إلى مخرجات التصنيف

آلية الانتباه

الانتباه على مستوى الإطار (Frame-wise Attention): نموذج انتباه على مستوى الإطار
الانتباه على مستوى المسار (Trajectory-wise Attention): نموذج انتباه على مستوى المسار
استخدام آلية الانتباه بالنقاط الحجمية المقياسة

نقاط الابتكار التقني

إدخال النقاط الرئيسية المباشر: على عكس الطرق القائمة على الشبكات العصبية الرسومية، إدخال النقاط الرئيسية مباشرة إلى Transformer
النمذجة الزمنية: الاستفادة من آلية الانتباه الذاتي في Transformer لالتقاط العلاقات طويلة المدى
النقاط الرئيسية متعددة المقاييس: استكشاف تكوينات مختلفة من عدد النقاط الرئيسية لموازنة الأداء والكفاءة
تعزيز البيانات: استراتيجيات تعزيز مصممة للنقاط الرئيسية (الترجمة، التحجيم، الدوران، الانقلاب)

إعداد التجربة

مجموعة البيانات

مجموعة بيانات BOBSL:

الحجم: 1,467 ساعة من برامج BBC
الدقة: 444×444 بكسل، 25 إطار في الثانية
المفردات: 8,162 كلمة لغة إشارة
الموقعون: 39 مترجم لغة إشارة
مجموعة التدريب: 8,162 كلمة فريدة، 3,555,141 إطار
مجموعة التحقق: 3,348 كلمة، 53,768 إطار
استراتيجية التقسيم: التقسيم حسب الموقع، مما يضمن عدم تداخل الموقعين بين مجموعات التدريب والتحقق والاختبار

مقاييس التقييم

دقة Top-5

تفاصيل التنفيذ

المحسّن (Optimizer): محسّن Adam، معدل التعلم 1e-4
حجم الدفعة: 128
استراتيجية الإيقاف المبكر: التوقف عندما لا يحدث تحسن في خسارة التحقق لمدة 3 حقب متتالية
أبعاد النموذج: تضمين 512 بعد
عدد المعاملات: 23.9 مليون معامل (مقابل 34.5 مليون في نموذج RGB)

نتائج التجربة

النتائج الرئيسية

الدقة: دقة Top-5 تصل إلى 60%
كفاءة المعاملات: تقليل 30.7% من عدد المعاملات مقارنة بطريقة RGB (23.9M مقابل 34.5M)
الكفاءة الحسابية: تقليل كبير في التكاليف الحسابية واستخدام الذاكرة ووقت التدريب

مقارنة عدد النقاط الرئيسية

نموذج 543 نقطة رئيسية: استخدام 468 نقطة وجه
نموذج 203 نقطة رئيسية: استخدام 128 نقطة وجه
الاكتشاف: زيادة عدد نقاط الوجه تحسن الأداء

تأثير تعزيز البيانات

تم اختبار تقنيات تعزيز متعددة:

تعزيز الترجمة: توفير أكبر تحسن في الأداء
تعزيز التحجيم: تحجيم في نطاق 90-110%
تعزيز الدوران: دوران بزوايا صغيرة
الانقلاب الأفقي: الانقلاب المرآوي

كل طريقة تعزيز يمكنها تحسين أداء النموذج بشكل مستقل، حيث يكون تعزيز الترجمة الأكثر فعالية.

النتائج التجريبية

نقاط الوجه حاسمة للتعرف على BSL
الطريقة القائمة على النقاط الرئيسية تقلل بشكل كبير من التكاليف الحسابية مع الحفاظ على دقة معقولة
تقنيات تعزيز البيانات فعالة أيضاً لنماذج النقاط الرئيسية

الأعمال ذات الصلة

أبحاث التعرف على BSL

ركزت الأعمال السابقة بشكل أساسي على استخدام فيديو RGB للتعرف على BSL
التركيز على ظاهرة النطق المتزامن والتعرف على أنماط الشفاه
هذه الورقة هي الأولى في استخدام طريقة نقاط رئيسية نقية

أبحاث تمثيل النقاط الرئيسية

التطور من هندسة الميزات اليدوية إلى طرق التعلم العميق (CNNs)
تطبيق الشبكات العصبية الرسومية (GNNs) في التعرف على الإجراءات والإيماءات
التطبيقات الناجحة لمعمارية Transformer في رؤية الحاسوب

المقارنة التقنية

تستخدم هذه الورقة طريقة إدخال النقاط الرئيسية مباشرة إلى Transformer، وهي تختلف عن الطريقة التقليدية لبناء الشبكات العصبية الرسومية.

الاستنتاج والنقاش

الاستنتاجات الرئيسية

تتمتع الطريقة القائمة على النقاط الرئيسية بمزايا حسابية كبيرة في التعرف على BSL
معمارية Transformer يمكنها معالجة تسلسلات النقاط الرئيسية بفعالية
نقاط الوجه حاسمة لأداء التعرف على BSL
تعزيز البيانات المناسب يمكنه تحسين أداء النموذج بشكل إضافي

القيود

الدقة: دقة 60% لا تزال بحاجة إلى تحسين
غياب المقارنة: كأول طريقة نقاط رئيسية، تفتقد معايير المقارنة المباشرة
قيود مجموعة البيانات: تم التحقق فقط على مجموعة بيانات BOBSL
التحقق من الفورية: غياب اختبارات الأداء الفوري الفعلية

الاتجاهات المستقبلية

الدمج متعدد الأنماط: دمج النقاط الرئيسية وصور RGB لتحسين الدقة
تقدير الموضع ثلاثي الأبعاد: استكشاف تقنيات تقدير الموضع ثلاثي الأبعاد على مستوى التسلسل
صور الهيكل العظمي: محاولة تمثيل صور هيكل عظمي بالأبيض والأسود قائمة على النقاط الرئيسية
التحقق على نطاق أوسع: التحقق من فعالية الطريقة على مجموعات بيانات لغة إشارة أكثر

التقييم المتعمق

المزايا

ابتكار قوي: أول تطبيق لطريقة نقاط رئيسية نقية للتعرف على BSL
قيمة عملية عالية: تقليل كبير في التكاليف الحسابية، مناسبة للبيئات ذات الموارد المحدودة
الطريقة معقولة: مسار تقني واضح، تفاصيل التنفيذ كاملة
تجارب شاملة: تتضمن تجارب مقارنة لتكوينات وإستراتيجيات تعزيز متعددة

أوجه القصور

الأداء محدود: دقة 60% نسبياً منخفضة
غياب المقارنة: لا يمكن المقارنة المباشرة مع طرق أخرى
تحليل غير كافٍ: نقص التحليل المتعمق لحالات الفشل
القابلية للتعميم غير معروفة: تم التحقق فقط على مجموعة بيانات واحدة

التأثير

الرائدة: توفير مسار تقني جديد للتعرف على لغة الإشارة
العملية: الطريقة الفعالة تسهل نشر التطبيقات العملية
القابلية للتوسع: توفير أساس جيد للأبحاث اللاحقة
القيمة الاجتماعية: تساهم في تحسين إمكانية الوصول التكنولوجية لمجتمع الصم

السيناريوهات المعمول بها

البيئات ذات الموارد المحدودة: أجهزة محمولة، سيناريوهات الحوسبة الطرفية
التطبيقات الفورية: أنظمة تفاعلية تتطلب استجابة سريعة
النشر على نطاق واسع: سيناريوهات معالجة كميات كبيرة من بيانات الفيديو
النماذج الأولية البحثية: كمكون أساسي لأنظمة أكثر تعقيداً

المراجع

تستشهد الورقة بعدة أعمال ذات صلة مهمة، بما في ذلك:

أوراق مجموعة بيانات BOBSL ذات الصلة 3
إطار عمل استخراج النقاط الرئيسية MediaPipe 13
الورقة الأصلية لمعمارية Transformer 18
أبحاث التعرف على لغة الإشارة 1,2,6
تطبيق الشبكات العصبية الرسومية في التعرف على الإجراءات 21

التقييم الشامل: هذه ورقة ذات أهمية رائدة، تطبق لأول مرة طريقة قائمة على النقاط الرئيسية لمهمة التعرف على BSL. على الرغم من وجود مجال لتحسين الدقة، فإن مزاياها الكبيرة في الكفاءة الحسابية تمنحها قيمة عملية مهمة. يوفر هذا العمل اتجاهاً بحثياً جديداً لمجال التعرف على لغة الإشارة، وخاصة في السيناريوهات ذات الموارد المحدودة والتطبيقات الفورية.