2025-11-15T00:16:11.455248

New keypoint-based approach for recognising British Sign Language (BSL) from sequences

Deb, Prajwal, Zisserman

In this paper, we present a novel keypoint-based classification model designed to recognise British Sign Language (BSL) words within continuous signing sequences. Our model's performance is assessed using the BOBSL dataset, revealing that the keypoint-based approach surpasses its RGB-based counterpart in computational efficiency and memory usage. Furthermore, it offers expedited training times and demands fewer computational resources. To the best of our knowledge, this is the inaugural application of a keypoint-based model for BSL word classification, rendering direct comparisons with existing works unavailable.

academic

ब्रिटिश साइन लैंग्वेज (BSL) को अनुक्रमों से पहचानने के लिए नया कीपॉइंट-आधारित दृष्टिकोण

बुनियादी जानकारी

पेपर ID: 2412.09475
शीर्षक: ब्रिटिश साइन लैंग्वेज (BSL) को अनुक्रमों से पहचानने के लिए नया कीपॉइंट-आधारित दृष्टिकोण
लेखक: ओइशी देब, केआर प्रज्वल, एंड्रयू जिसरमैन (विजुअल ज्योमेट्री ग्रुप, ऑक्सफोर्ड विश्वविद्यालय)
वर्गीकरण: cs.CV cs.AI
प्रकाशन समय/सम्मेलन: अंतर्राष्ट्रीय कंप्यूटर विजन सम्मेलन (ICCV) - HANDS वर्कशॉप, 2023
पेपर लिंक: https://arxiv.org/abs/2412.09475

सारांश

यह पेपर निरंतर साइन लैंग्वेज अनुक्रमों में ब्रिटिश साइन लैंग्वेज (BSL) शब्दों को पहचानने के लिए एक नवीन कीपॉइंट-आधारित वर्गीकरण मॉडल प्रस्तुत करता है। मॉडल को BOBSL डेटासेट पर मूल्यांकन किया गया है, जिसके परिणाम दर्शाते हैं कि कीपॉइंट-आधारित विधि RGB-आधारित समकक्षों को कम्प्यूटेशनल दक्षता और मेमोरी उपयोग के मामले में पार करती है, साथ ही तेजी से प्रशिक्षण समय और कम कम्प्यूटेशनल संसाधन प्रदान करती है। लेखकों के ज्ञान के अनुसार, यह BSL शब्द वर्गीकरण के लिए कीपॉइंट-आधारित मॉडल का पहला अनुप्रयोग है, इसलिए मौजूदा कार्य के साथ सीधी तुलना संभव नहीं है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

साइन लैंग्वेज पहचान एक महत्वपूर्ण कंप्यूटर विजन कार्य है जिसका उद्देश्य वीडियो अनुक्रमों से स्वचालित रूप से साइन लैंग्वेज शब्दों या वाक्यांशों को पहचानना है। पारंपरिक विधियां मुख्य रूप से RGB वीडियो पर निर्भर करती हैं, लेकिन उच्च कम्प्यूटेशनल जटिलता और पर्यावरणीय कारकों के प्रति संवेदनशीलता जैसी समस्याएं हैं।

महत्व

सामाजिक महत्व: बधिर समुदाय की पहुंच में सुधार, समावेशी संचार को बढ़ावा देना
तकनीकी चुनौती: निरंतर साइन लैंग्वेज में सह-उच्चारण (co-articulation) घटना पहचान कार्य को अत्यंत चुनौतीपूर्ण बनाती है
रीयल-टाइम आवश्यकता: व्यावहारिक अनुप्रयोगों के लिए रीयल-टाइम प्रसंस्करण में सक्षम कुशल मॉडल की आवश्यकता है

मौजूदा विधियों की सीमाएं

RGB विधि: उच्च कम्प्यूटेशनल जटिलता, बड़ी मेमोरी खपत, लंबा प्रशिक्षण समय
पर्यावरण संवेदनशीलता: प्रकाश, कपड़ों आदि बाहरी कारकों से आसानी से प्रभावित
खराब रीयल-टाइम प्रदर्शन: रीयल-टाइम अनुप्रयोग आवश्यकताओं को पूरा करना कठिन

अनुसंधान प्रेरणा

लेखकों ने उपरोक्त समस्याओं को हल करने के लिए 2D कीपॉइंट प्रतिनिधित्व का उपयोग करने का प्रस्ताव दिया है, मुख्य रूप से तीन कारणों पर आधारित:

नियंत्रणीयता: कीपॉइंट उपसमुच्चय को लचीले ढंग से चुनने, कम्प्यूटेशनल लागत को नियंत्रित करने की क्षमता
संक्षिप्तता: प्रकाश, कपड़ों आदि हस्तक्षेप कारकों को समाप्त करना, अधिक संक्षिप्त प्रतिनिधित्व प्रदान करना
रीयल-टाइम प्रदर्शन: कीपॉइंट रीयल-टाइम में गणना की जा सकती है, रीयल-टाइम मॉडल निष्पादन का समर्थन करता है

मुख्य योगदान

पहली बार अनुप्रयोग: BSL शब्द वर्गीकरण कार्य के लिए कीपॉइंट-आधारित विधि का पहला अनुप्रयोग
कुशल आर्किटेक्चर: कीपॉइंट अनुक्रम प्रसंस्करण के लिए Transformer-आधारित आर्किटेक्चर प्रस्तावित
कम्प्यूटेशनल दक्षता: RGB विधि की तुलना में कम्प्यूटेशनल लागत, मेमोरी उपयोग और प्रशिक्षण समय में उल्लेखनीय कमी
व्यावहारिक मूल्य: साइन लैंग्वेज पहचान के लिए अधिक कुशल और व्यावहारिक समाधान प्रदान करता है

विधि विवरण

कार्य परिभाषा

इनपुट: निरंतर BSL साइन लैंग्वेज वीडियो अनुक्रम का 2D कीपॉइंट प्रतिनिधित्व
आउटपुट: 8,162 BSL शब्द श्रेणियों का वर्गीकरण परिणाम
बाधाएं: सह-उच्चारण घटना को संभालना, रीयल-टाइम प्रसंस्करण का समर्थन करना

कीपॉइंट निष्कर्षण

MediaPipe लाइब्रेरी का उपयोग करके कीपॉइंट निकाले जाते हैं:

मुद्रा कीपॉइंट: 33
हाथ कीपॉइंट: बाएं और दाएं हाथ में से प्रत्येक में 21
चेहरे की कीपॉइंट: 468 (203kp मॉडल में 128 तक कम)
कुल: 543 कीपॉइंट (या 203 कीपॉइंट का सरलीकृत संस्करण)

मॉडल आर्किटेक्चर

इनपुट प्रतिनिधित्व

निरंतर 16 फ्रेम की कीपॉइंट अनुक्रम निकाली जाती है (अनुसंधान के आधार पर सह-उच्चारण 13-20 फ्रेम तक रहता है)
16 × K × 2 का त्रि-आयामी वेक्टर बनाता है, जहां K प्रति फ्रेम कीपॉइंट संख्या है

Transformer आर्किटेक्चर

टोकनाइजर: इनपुट डेटा को टोकन में परिवर्तित करता है
स्थिति एन्कोडिंग: अनुक्रम में क्रम को अलग करने के लिए स्थिति जानकारी जोड़ता है
एन्कोडर: 6-स्तरीय एन्कोडर, प्रत्येक स्तर में शामिल है:
- बहु-सिर स्व-ध्यान तंत्र (8 ध्यान सिर)
- स्थिति फीडफॉरवर्ड तंत्रिका नेटवर्क
- परत सामान्यीकरण
जनरेटर: सीखे गए प्रतिनिधित्व को वर्गीकरण आउटपुट में परिवर्तित करता है

ध्यान तंत्र

फ्रेम-वार ध्यान: फ्रेम स्तर का ध्यान मॉडल
ट्रैजेक्टरी-वार ध्यान: ट्रैजेक्टरी स्तर का ध्यान मॉडल
स्केल किए गए डॉट-प्रोडक्ट ध्यान तंत्र का उपयोग करता है

तकनीकी नवाचार

प्रत्यक्ष कीपॉइंट इनपुट: ग्राफ तंत्रिका नेटवर्क-आधारित विधियों के विपरीत, कीपॉइंट को सीधे Transformer में इनपुट करता है
अस्थायी मॉडलिंग: दीर्घ-श्रेणी निर्भरता को कैप्चर करने के लिए Transformer के स्व-ध्यान तंत्र का उपयोग करता है
बहु-स्तरीय कीपॉइंट: प्रदर्शन और दक्षता को संतुलित करने के लिए विभिन्न संख्या में कीपॉइंट कॉन्फ़िगरेशन का अन्वेषण करता है
डेटा संवर्धन: कीपॉइंट के लिए डिज़ाइन की गई संवर्धन रणनीति (अनुवाद, स्केलिंग, घुमाव, फ्लिपिंग)

प्रयोगात्मक सेटअप

डेटासेट

BOBSL डेटासेट:

आकार: 1,467 घंटे BBC कार्यक्रम
रिज़ॉल्यूशन: 444×444 पिक्सल, 25fps
शब्दावली: 8,162 साइन लैंग्वेज शब्द
हस्ताक्षरकर्ता: 39 साइन लैंग्वेज अनुवादक
प्रशिक्षण सेट: 8,162 अद्वितीय शब्द, 3,555,141 फ्रेम
सत्यापन सेट: 3,348 शब्द, 53,768 फ्रेम
विभाजन रणनीति: हस्ताक्षरकर्ता द्वारा विभाजित, प्रशिक्षण, सत्यापन, परीक्षण सेट के बीच कोई हस्ताक्षरकर्ता ओवरलैप नहीं

मूल्यांकन मेट्रिक्स

शीर्ष-5 सटीकता

कार्यान्वयन विवरण

अनुकूलक: Adam अनुकूलक, सीखने की दर 1e-4
बैच आकार: 128
प्रारंभिक रोक रणनीति: सत्यापन हानि में लगातार 3 epoch बिना सुधार के रोकता है
मॉडल आयाम: 512-आयामी एम्बेडिंग
पैरामीटर संख्या: 23.9 मिलियन पैरामीटर (बनाम RGB मॉडल के 34.5 मिलियन)

प्रयोगात्मक परिणाम

मुख्य परिणाम

सटीकता: शीर्ष-5 सटीकता 60% तक पहुंचती है
पैरामीटर दक्षता: RGB विधि की तुलना में 30.7% पैरामीटर में कमी (23.9M बनाम 34.5M)
कम्प्यूटेशनल दक्षता: कम्प्यूटेशनल लागत, मेमोरी उपयोग और प्रशिक्षण समय में उल्लेखनीय कमी

कीपॉइंट संख्या तुलना

543 कीपॉइंट मॉडल: 468 चेहरे की कीपॉइंट का उपयोग करता है
203 कीपॉइंट मॉडल: 128 चेहरे की कीपॉइंट का उपयोग करता है
खोज: चेहरे की कीपॉइंट संख्या बढ़ाने से प्रदर्शन में सुधार होता है

डेटा संवर्धन प्रभाव

कई संवर्धन तकनीकों का परीक्षण किया गया:

अनुवाद संवर्धन: सबसे बड़ा प्रदर्शन सुधार प्रदान करता है
स्केलिंग संवर्धन: 90-110% श्रेणी में स्केलिंग
घुमाव संवर्धन: छोटे कोण घुमाव
क्षैतिज फ्लिपिंग: दर्पण फ्लिपिंग

प्रत्येक संवर्धन विधि मॉडल प्रदर्शन को अलग से बढ़ा सकती है, जिसमें अनुवाद संवर्धन सबसे प्रभावी है।

प्रयोगात्मक खोजें

चेहरे की कीपॉइंट BSL पहचान के लिए महत्वपूर्ण हैं
कीपॉइंट-आधारित विधि उचित सटीकता बनाए रखते हुए कम्प्यूटेशनल लागत में उल्लेखनीय कमी करती है
डेटा संवर्धन तकनीकें कीपॉइंट मॉडल के लिए समान रूप से प्रभावी हैं

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

कीपॉइंट-आधारित विधि BSL पहचान में महत्वपूर्ण कम्प्यूटेशनल लाभ प्रदान करती है
Transformer आर्किटेक्चर कीपॉइंट अनुक्रमों को प्रभावी ढंग से संभाल सकता है
चेहरे की कीपॉइंट BSL पहचान प्रदर्शन के लिए महत्वपूर्ण हैं
उचित डेटा संवर्धन मॉडल प्रदर्शन को और बढ़ा सकता है

सीमाएं

सटीकता: 60% की सटीकता में अभी सुधार की गुंजाइश है
तुलना की कमी: पहली कीपॉइंट विधि के रूप में, सीधी तुलना बेंचमार्क की कमी है
डेटासेट सीमा: केवल BOBSL डेटासेट पर सत्यापित
रीयल-टाइम सत्यापन: वास्तविक रीयल-टाइम प्रदर्शन परीक्षण की कमी

भविष्य की दिशाएं

बहु-मोडल संलयन: सटीकता बढ़ाने के लिए कीपॉइंट और RGB छवियों को जोड़ना
3D मुद्रा अनुमान: अनुक्रम-स्तरीय 3D मुद्रा अनुमान तकनीकों का अन्वेषण करना
कंकाल छवि: कीपॉइंट-आधारित काली-सफेद कंकाल छवि प्रतिनिधित्व का प्रयास करना
बड़े पैमाने पर सत्यापन: अधिक साइन लैंग्वेज डेटासेट पर विधि की प्रभावशीलता को सत्यापित करना

गहन मूल्यांकन

शक्तियां

मजबूत नवाचार: BSL पहचान के लिए शुद्ध कीपॉइंट विधि का पहला अनुप्रयोग
उच्च व्यावहारिक मूल्य: कम्प्यूटेशनल लागत में उल्लेखनीय कमी, संसाधन-सीमित वातावरण के लिए उपयुक्त
उचित विधि: स्पष्ट तकनीकी मार्ग, पूर्ण कार्यान्वयन विवरण
व्यापक प्रयोग: कई कॉन्फ़िगरेशन और संवर्धन रणनीतियों की तुलनात्मक प्रयोग

कमियां

सीमित प्रदर्शन: 60% की सटीकता अपेक्षाकृत कम है
तुलना की कमी: अन्य विधियों के साथ सीधी तुलना नहीं कर सकते
अपर्याप्त विश्लेषण: विफल मामलों का गहन विश्लेषण नहीं
अज्ञात सामान्यीकरण: केवल एकल डेटासेट पर सत्यापित

प्रभाव

अग्रणी: साइन लैंग्वेज पहचान के लिए नया तकनीकी मार्ग प्रदान करता है
व्यावहारिकता: कुशल विधि व्यावहारिक अनुप्रयोग तैनाती के लिए अनुकूल है
विस्तारशीलता: बाद के अनुसंधान के लिए अच्छा आधार प्रदान करता है
सामाजिक मूल्य: बधिर समुदाय के लिए तकनीकी पहुंच में सुधार करने में सहायक

लागू परिदृश्य

संसाधन-सीमित वातावरण: मोबाइल डिवाइस, एज कंप्यूटिंग परिदृश्य
रीयल-टाइम अनुप्रयोग: तेजी से प्रतिक्रिया की आवश्यकता वाली इंटरैक्टिव प्रणाली
बड़े पैमाने पर तैनाती: बड़ी मात्रा में वीडियो डेटा प्रसंस्करण परिदृश्य
अनुसंधान प्रोटोटाइप: अधिक जटिल प्रणालियों के आधार घटक के रूप में

संदर्भ

पेपर कई महत्वपूर्ण संबंधित कार्यों का हवाला देता है, जिनमें शामिल हैं:

BOBSL डेटासेट संबंधित पेपर 3
MediaPipe कीपॉइंट निष्कर्षण ढांचा 13
Transformer आर्किटेक्चर मूल पेपर 18
साइन लैंग्वेज पहचान संबंधित अनुसंधान 1,2,6
कार्य पहचान में ग्राफ तंत्रिका नेटवर्क का अनुप्रयोग 21

समग्र मूल्यांकन: यह एक अग्रणी महत्व का पेपर है, जो पहली बार BSL पहचान कार्य के लिए कीपॉइंट-आधारित विधि लागू करता है। यद्यपि सटीकता के मामले में सुधार की गुंजाइश है, लेकिन कम्प्यूटेशनल दक्षता में इसके उल्लेखनीय लाभ इसे महत्वपूर्ण व्यावहारिक मूल्य देते हैं। यह कार्य साइन लैंग्वेज पहचान क्षेत्र के लिए एक नई अनुसंधान दिशा प्रदान करता है, विशेष रूप से संसाधन-सीमित और रीयल-टाइम अनुप्रयोग परिदृश्यों में महत्वपूर्ण है।