In this paper, we present a novel keypoint-based classification model designed to recognise British Sign Language (BSL) words within continuous signing sequences. Our model's performance is assessed using the BOBSL dataset, revealing that the keypoint-based approach surpasses its RGB-based counterpart in computational efficiency and memory usage. Furthermore, it offers expedited training times and demands fewer computational resources. To the best of our knowledge, this is the inaugural application of a keypoint-based model for BSL word classification, rendering direct comparisons with existing works unavailable.
- معرّف الورقة: 2412.09475
- العنوان: نهج جديد قائم على النقاط الرئيسية للتعرف على لغة الإشارة البريطانية (BSL) من التسلسلات
- المؤلفون: Oishi Deb, KR Prajwal, Andrew Zisserman (مجموعة الهندسة الهندسية البصرية، جامعة أكسفورد)
- التصنيف: cs.CV cs.AI
- وقت النشر/المؤتمر: المؤتمر الدولي لرؤية الحاسوب (ICCV) - ورشة العمل HANDS، 2023
- رابط الورقة: https://arxiv.org/abs/2412.09475
تقدم هذه الورقة نموذج تصنيف جديد قائم على النقاط الرئيسية للتعرف على كلمات لغة الإشارة البريطانية (BSL) في تسلسلات لغة الإشارة المستمرة. تم تقييم النموذج على مجموعة بيانات BOBSL، وأظهرت النتائج أن الطريقة القائمة على النقاط الرئيسية تتفوق على الطرق المقابلة القائمة على RGB من حيث الكفاءة الحسابية واستخدام الذاكرة، مع توفير وقت تدريب أسرع واحتياج موارد حسابية أقل. وفقاً لمعرفة المؤلفين، هذا هو أول تطبيق لنماذج قائمة على النقاط الرئيسية لتصنيف كلمات BSL، وبالتالي لا يمكن إجراء مقارنة مباشرة مع الأعمال الموجودة.
يعتبر التعرف على لغة الإشارة مهمة مهمة في رؤية الحاسوب، تهدف إلى التعرف التلقائي على كلمات أو عبارات لغة الإشارة من تسلسلات الفيديو. تعتمد الطرق التقليدية بشكل أساسي على فيديو RGB، لكنها تعاني من تعقيد حسابي عالي وحساسية للعوامل البيئية.
- الأهمية الاجتماعية: تحسين إمكانية الوصول لمجتمع الصم، وتعزيز التواصل الشامل
- التحديات التقنية: ظاهرة النطق المتزامن (co-articulation) في لغة الإشارة المستمرة تجعل مهمة التعرف صعبة للغاية
- المتطلبات الفورية: تتطلب التطبيقات العملية نماذج فعالة قادرة على المعالجة الفورية
- طرق RGB: تعقيد حسابي عالي، استهلاك ذاكرة كبير، وقت تدريب طويل
- حساسية بيئية: عرضة للتأثر بعوامل خارجية مثل الإضاءة والملابس
- ضعف الفورية: يصعب تلبية متطلبات التطبيقات الفورية
يقترح المؤلفون استخدام تمثيل النقاط الرئيسية ثنائية الأبعاد لحل المشاكل المذكورة أعلاه، بناءً على ثلاثة أسباب رئيسية:
- القابلية للتحكم: القدرة على اختيار مجموعات فرعية من النقاط الرئيسية بمرونة، والتحكم في التكاليف الحسابية
- الإحكام: القضاء على عوامل التشويش مثل الإضاءة والملابس، وتوفير تمثيل أكثر إحكاماً
- الفورية: يمكن حساب النقاط الرئيسية بشكل فوري، مما يدعم التنفيذ الفوري للنموذج
- التطبيق الأول: أول تطبيق لطريقة قائمة على النقاط الرئيسية لمهمة تصنيف كلمات BSL
- معمارية فعالة: اقتراح معمارية قائمة على Transformer لمعالجة تسلسلات النقاط الرئيسية
- الكفاءة الحسابية: تقليل كبير في التكاليف الحسابية واستخدام الذاكرة ووقت التدريب مقارنة بطرق RGB
- القيمة العملية: توفير حل أكثر كفاءة وعملية للتعرف على لغة الإشارة
- الإدخال: تمثيل النقاط الرئيسية ثنائية الأبعاد لتسلسلات فيديو BSL المستمرة
- الإخراج: نتائج التصنيف لـ 8,162 فئة كلمة BSL
- القيود: معالجة ظاهرة النطق المتزامن، دعم المعالجة الفورية
استخدام مكتبة MediaPipe لاستخراج النقاط الرئيسية:
- نقاط الموضع: 33 نقطة
- نقاط اليد: 21 نقطة لكل من اليد اليسرى واليمنى
- نقاط الوجه: 468 نقطة (مختزلة إلى 128 نقطة في نموذج 203kp)
- الإجمالي: 543 نقطة رئيسية (أو 203 نقاط في النسخة المبسطة)
- استخراج تسلسل النقاط الرئيسية من 16 إطار متتالي (بناءً على البحث الذي يشير إلى أن النطق المتزامن يستمر 13-20 إطار)
- تشكيل متجه ثلاثي الأبعاد 16 × K × 2، حيث K هو عدد النقاط الرئيسية في كل إطار
- المرمز (Tokenizer): تمرير بيانات الإدخال إلى رموز
- الترميز الموضعي: إضافة معلومات الموضع لتمييز الترتيب في التسلسل
- المشفر (Encoder): 6 طبقات مشفرة، تحتوي كل طبقة على:
- آلية الانتباه الذاتي متعددة الرؤوس (8 رؤوس انتباه)
- شبكة عصبية موضعية تغذية أمامية
- تطبيع الطبقة
- المولد (Generator): تحويل التمثيل المتعلم إلى مخرجات التصنيف
- الانتباه على مستوى الإطار (Frame-wise Attention): نموذج انتباه على مستوى الإطار
- الانتباه على مستوى المسار (Trajectory-wise Attention): نموذج انتباه على مستوى المسار
- استخدام آلية الانتباه بالنقاط الحجمية المقياسة
- إدخال النقاط الرئيسية المباشر: على عكس الطرق القائمة على الشبكات العصبية الرسومية، إدخال النقاط الرئيسية مباشرة إلى Transformer
- النمذجة الزمنية: الاستفادة من آلية الانتباه الذاتي في Transformer لالتقاط العلاقات طويلة المدى
- النقاط الرئيسية متعددة المقاييس: استكشاف تكوينات مختلفة من عدد النقاط الرئيسية لموازنة الأداء والكفاءة
- تعزيز البيانات: استراتيجيات تعزيز مصممة للنقاط الرئيسية (الترجمة، التحجيم، الدوران، الانقلاب)
مجموعة بيانات BOBSL:
- الحجم: 1,467 ساعة من برامج BBC
- الدقة: 444×444 بكسل، 25 إطار في الثانية
- المفردات: 8,162 كلمة لغة إشارة
- الموقعون: 39 مترجم لغة إشارة
- مجموعة التدريب: 8,162 كلمة فريدة، 3,555,141 إطار
- مجموعة التحقق: 3,348 كلمة، 53,768 إطار
- استراتيجية التقسيم: التقسيم حسب الموقع، مما يضمن عدم تداخل الموقعين بين مجموعات التدريب والتحقق والاختبار
- المحسّن (Optimizer): محسّن Adam، معدل التعلم 1e-4
- حجم الدفعة: 128
- استراتيجية الإيقاف المبكر: التوقف عندما لا يحدث تحسن في خسارة التحقق لمدة 3 حقب متتالية
- أبعاد النموذج: تضمين 512 بعد
- عدد المعاملات: 23.9 مليون معامل (مقابل 34.5 مليون في نموذج RGB)
- الدقة: دقة Top-5 تصل إلى 60%
- كفاءة المعاملات: تقليل 30.7% من عدد المعاملات مقارنة بطريقة RGB (23.9M مقابل 34.5M)
- الكفاءة الحسابية: تقليل كبير في التكاليف الحسابية واستخدام الذاكرة ووقت التدريب
- نموذج 543 نقطة رئيسية: استخدام 468 نقطة وجه
- نموذج 203 نقطة رئيسية: استخدام 128 نقطة وجه
- الاكتشاف: زيادة عدد نقاط الوجه تحسن الأداء
تم اختبار تقنيات تعزيز متعددة:
- تعزيز الترجمة: توفير أكبر تحسن في الأداء
- تعزيز التحجيم: تحجيم في نطاق 90-110%
- تعزيز الدوران: دوران بزوايا صغيرة
- الانقلاب الأفقي: الانقلاب المرآوي
كل طريقة تعزيز يمكنها تحسين أداء النموذج بشكل مستقل، حيث يكون تعزيز الترجمة الأكثر فعالية.
- نقاط الوجه حاسمة للتعرف على BSL
- الطريقة القائمة على النقاط الرئيسية تقلل بشكل كبير من التكاليف الحسابية مع الحفاظ على دقة معقولة
- تقنيات تعزيز البيانات فعالة أيضاً لنماذج النقاط الرئيسية
- ركزت الأعمال السابقة بشكل أساسي على استخدام فيديو RGB للتعرف على BSL
- التركيز على ظاهرة النطق المتزامن والتعرف على أنماط الشفاه
- هذه الورقة هي الأولى في استخدام طريقة نقاط رئيسية نقية
- التطور من هندسة الميزات اليدوية إلى طرق التعلم العميق (CNNs)
- تطبيق الشبكات العصبية الرسومية (GNNs) في التعرف على الإجراءات والإيماءات
- التطبيقات الناجحة لمعمارية Transformer في رؤية الحاسوب
تستخدم هذه الورقة طريقة إدخال النقاط الرئيسية مباشرة إلى Transformer، وهي تختلف عن الطريقة التقليدية لبناء الشبكات العصبية الرسومية.
- تتمتع الطريقة القائمة على النقاط الرئيسية بمزايا حسابية كبيرة في التعرف على BSL
- معمارية Transformer يمكنها معالجة تسلسلات النقاط الرئيسية بفعالية
- نقاط الوجه حاسمة لأداء التعرف على BSL
- تعزيز البيانات المناسب يمكنه تحسين أداء النموذج بشكل إضافي
- الدقة: دقة 60% لا تزال بحاجة إلى تحسين
- غياب المقارنة: كأول طريقة نقاط رئيسية، تفتقد معايير المقارنة المباشرة
- قيود مجموعة البيانات: تم التحقق فقط على مجموعة بيانات BOBSL
- التحقق من الفورية: غياب اختبارات الأداء الفوري الفعلية
- الدمج متعدد الأنماط: دمج النقاط الرئيسية وصور RGB لتحسين الدقة
- تقدير الموضع ثلاثي الأبعاد: استكشاف تقنيات تقدير الموضع ثلاثي الأبعاد على مستوى التسلسل
- صور الهيكل العظمي: محاولة تمثيل صور هيكل عظمي بالأبيض والأسود قائمة على النقاط الرئيسية
- التحقق على نطاق أوسع: التحقق من فعالية الطريقة على مجموعات بيانات لغة إشارة أكثر
- ابتكار قوي: أول تطبيق لطريقة نقاط رئيسية نقية للتعرف على BSL
- قيمة عملية عالية: تقليل كبير في التكاليف الحسابية، مناسبة للبيئات ذات الموارد المحدودة
- الطريقة معقولة: مسار تقني واضح، تفاصيل التنفيذ كاملة
- تجارب شاملة: تتضمن تجارب مقارنة لتكوينات وإستراتيجيات تعزيز متعددة
- الأداء محدود: دقة 60% نسبياً منخفضة
- غياب المقارنة: لا يمكن المقارنة المباشرة مع طرق أخرى
- تحليل غير كافٍ: نقص التحليل المتعمق لحالات الفشل
- القابلية للتعميم غير معروفة: تم التحقق فقط على مجموعة بيانات واحدة
- الرائدة: توفير مسار تقني جديد للتعرف على لغة الإشارة
- العملية: الطريقة الفعالة تسهل نشر التطبيقات العملية
- القابلية للتوسع: توفير أساس جيد للأبحاث اللاحقة
- القيمة الاجتماعية: تساهم في تحسين إمكانية الوصول التكنولوجية لمجتمع الصم
- البيئات ذات الموارد المحدودة: أجهزة محمولة، سيناريوهات الحوسبة الطرفية
- التطبيقات الفورية: أنظمة تفاعلية تتطلب استجابة سريعة
- النشر على نطاق واسع: سيناريوهات معالجة كميات كبيرة من بيانات الفيديو
- النماذج الأولية البحثية: كمكون أساسي لأنظمة أكثر تعقيداً
تستشهد الورقة بعدة أعمال ذات صلة مهمة، بما في ذلك:
- أوراق مجموعة بيانات BOBSL ذات الصلة 3
- إطار عمل استخراج النقاط الرئيسية MediaPipe 13
- الورقة الأصلية لمعمارية Transformer 18
- أبحاث التعرف على لغة الإشارة 1,2,6
- تطبيق الشبكات العصبية الرسومية في التعرف على الإجراءات 21
التقييم الشامل: هذه ورقة ذات أهمية رائدة، تطبق لأول مرة طريقة قائمة على النقاط الرئيسية لمهمة التعرف على BSL. على الرغم من وجود مجال لتحسين الدقة، فإن مزاياها الكبيرة في الكفاءة الحسابية تمنحها قيمة عملية مهمة. يوفر هذا العمل اتجاهاً بحثياً جديداً لمجال التعرف على لغة الإشارة، وخاصة في السيناريوهات ذات الموارد المحدودة والتطبيقات الفورية.