In this paper, we present a novel keypoint-based classification model designed to recognise British Sign Language (BSL) words within continuous signing sequences. Our model's performance is assessed using the BOBSL dataset, revealing that the keypoint-based approach surpasses its RGB-based counterpart in computational efficiency and memory usage. Furthermore, it offers expedited training times and demands fewer computational resources. To the best of our knowledge, this is the inaugural application of a keypoint-based model for BSL word classification, rendering direct comparisons with existing works unavailable.
- पेपर ID: 2412.09475
- शीर्षक: ब्रिटिश साइन लैंग्वेज (BSL) को अनुक्रमों से पहचानने के लिए नया कीपॉइंट-आधारित दृष्टिकोण
- लेखक: ओइशी देब, केआर प्रज्वल, एंड्रयू जिसरमैन (विजुअल ज्योमेट्री ग्रुप, ऑक्सफोर्ड विश्वविद्यालय)
- वर्गीकरण: cs.CV cs.AI
- प्रकाशन समय/सम्मेलन: अंतर्राष्ट्रीय कंप्यूटर विजन सम्मेलन (ICCV) - HANDS वर्कशॉप, 2023
- पेपर लिंक: https://arxiv.org/abs/2412.09475
यह पेपर निरंतर साइन लैंग्वेज अनुक्रमों में ब्रिटिश साइन लैंग्वेज (BSL) शब्दों को पहचानने के लिए एक नवीन कीपॉइंट-आधारित वर्गीकरण मॉडल प्रस्तुत करता है। मॉडल को BOBSL डेटासेट पर मूल्यांकन किया गया है, जिसके परिणाम दर्शाते हैं कि कीपॉइंट-आधारित विधि RGB-आधारित समकक्षों को कम्प्यूटेशनल दक्षता और मेमोरी उपयोग के मामले में पार करती है, साथ ही तेजी से प्रशिक्षण समय और कम कम्प्यूटेशनल संसाधन प्रदान करती है। लेखकों के ज्ञान के अनुसार, यह BSL शब्द वर्गीकरण के लिए कीपॉइंट-आधारित मॉडल का पहला अनुप्रयोग है, इसलिए मौजूदा कार्य के साथ सीधी तुलना संभव नहीं है।
साइन लैंग्वेज पहचान एक महत्वपूर्ण कंप्यूटर विजन कार्य है जिसका उद्देश्य वीडियो अनुक्रमों से स्वचालित रूप से साइन लैंग्वेज शब्दों या वाक्यांशों को पहचानना है। पारंपरिक विधियां मुख्य रूप से RGB वीडियो पर निर्भर करती हैं, लेकिन उच्च कम्प्यूटेशनल जटिलता और पर्यावरणीय कारकों के प्रति संवेदनशीलता जैसी समस्याएं हैं।
- सामाजिक महत्व: बधिर समुदाय की पहुंच में सुधार, समावेशी संचार को बढ़ावा देना
- तकनीकी चुनौती: निरंतर साइन लैंग्वेज में सह-उच्चारण (co-articulation) घटना पहचान कार्य को अत्यंत चुनौतीपूर्ण बनाती है
- रीयल-टाइम आवश्यकता: व्यावहारिक अनुप्रयोगों के लिए रीयल-टाइम प्रसंस्करण में सक्षम कुशल मॉडल की आवश्यकता है
- RGB विधि: उच्च कम्प्यूटेशनल जटिलता, बड़ी मेमोरी खपत, लंबा प्रशिक्षण समय
- पर्यावरण संवेदनशीलता: प्रकाश, कपड़ों आदि बाहरी कारकों से आसानी से प्रभावित
- खराब रीयल-टाइम प्रदर्शन: रीयल-टाइम अनुप्रयोग आवश्यकताओं को पूरा करना कठिन
लेखकों ने उपरोक्त समस्याओं को हल करने के लिए 2D कीपॉइंट प्रतिनिधित्व का उपयोग करने का प्रस्ताव दिया है, मुख्य रूप से तीन कारणों पर आधारित:
- नियंत्रणीयता: कीपॉइंट उपसमुच्चय को लचीले ढंग से चुनने, कम्प्यूटेशनल लागत को नियंत्रित करने की क्षमता
- संक्षिप्तता: प्रकाश, कपड़ों आदि हस्तक्षेप कारकों को समाप्त करना, अधिक संक्षिप्त प्रतिनिधित्व प्रदान करना
- रीयल-टाइम प्रदर्शन: कीपॉइंट रीयल-टाइम में गणना की जा सकती है, रीयल-टाइम मॉडल निष्पादन का समर्थन करता है
- पहली बार अनुप्रयोग: BSL शब्द वर्गीकरण कार्य के लिए कीपॉइंट-आधारित विधि का पहला अनुप्रयोग
- कुशल आर्किटेक्चर: कीपॉइंट अनुक्रम प्रसंस्करण के लिए Transformer-आधारित आर्किटेक्चर प्रस्तावित
- कम्प्यूटेशनल दक्षता: RGB विधि की तुलना में कम्प्यूटेशनल लागत, मेमोरी उपयोग और प्रशिक्षण समय में उल्लेखनीय कमी
- व्यावहारिक मूल्य: साइन लैंग्वेज पहचान के लिए अधिक कुशल और व्यावहारिक समाधान प्रदान करता है
- इनपुट: निरंतर BSL साइन लैंग्वेज वीडियो अनुक्रम का 2D कीपॉइंट प्रतिनिधित्व
- आउटपुट: 8,162 BSL शब्द श्रेणियों का वर्गीकरण परिणाम
- बाधाएं: सह-उच्चारण घटना को संभालना, रीयल-टाइम प्रसंस्करण का समर्थन करना
MediaPipe लाइब्रेरी का उपयोग करके कीपॉइंट निकाले जाते हैं:
- मुद्रा कीपॉइंट: 33
- हाथ कीपॉइंट: बाएं और दाएं हाथ में से प्रत्येक में 21
- चेहरे की कीपॉइंट: 468 (203kp मॉडल में 128 तक कम)
- कुल: 543 कीपॉइंट (या 203 कीपॉइंट का सरलीकृत संस्करण)
- निरंतर 16 फ्रेम की कीपॉइंट अनुक्रम निकाली जाती है (अनुसंधान के आधार पर सह-उच्चारण 13-20 फ्रेम तक रहता है)
- 16 × K × 2 का त्रि-आयामी वेक्टर बनाता है, जहां K प्रति फ्रेम कीपॉइंट संख्या है
- टोकनाइजर: इनपुट डेटा को टोकन में परिवर्तित करता है
- स्थिति एन्कोडिंग: अनुक्रम में क्रम को अलग करने के लिए स्थिति जानकारी जोड़ता है
- एन्कोडर: 6-स्तरीय एन्कोडर, प्रत्येक स्तर में शामिल है:
- बहु-सिर स्व-ध्यान तंत्र (8 ध्यान सिर)
- स्थिति फीडफॉरवर्ड तंत्रिका नेटवर्क
- परत सामान्यीकरण
- जनरेटर: सीखे गए प्रतिनिधित्व को वर्गीकरण आउटपुट में परिवर्तित करता है
- फ्रेम-वार ध्यान: फ्रेम स्तर का ध्यान मॉडल
- ट्रैजेक्टरी-वार ध्यान: ट्रैजेक्टरी स्तर का ध्यान मॉडल
- स्केल किए गए डॉट-प्रोडक्ट ध्यान तंत्र का उपयोग करता है
- प्रत्यक्ष कीपॉइंट इनपुट: ग्राफ तंत्रिका नेटवर्क-आधारित विधियों के विपरीत, कीपॉइंट को सीधे Transformer में इनपुट करता है
- अस्थायी मॉडलिंग: दीर्घ-श्रेणी निर्भरता को कैप्चर करने के लिए Transformer के स्व-ध्यान तंत्र का उपयोग करता है
- बहु-स्तरीय कीपॉइंट: प्रदर्शन और दक्षता को संतुलित करने के लिए विभिन्न संख्या में कीपॉइंट कॉन्फ़िगरेशन का अन्वेषण करता है
- डेटा संवर्धन: कीपॉइंट के लिए डिज़ाइन की गई संवर्धन रणनीति (अनुवाद, स्केलिंग, घुमाव, फ्लिपिंग)
BOBSL डेटासेट:
- आकार: 1,467 घंटे BBC कार्यक्रम
- रिज़ॉल्यूशन: 444×444 पिक्सल, 25fps
- शब्दावली: 8,162 साइन लैंग्वेज शब्द
- हस्ताक्षरकर्ता: 39 साइन लैंग्वेज अनुवादक
- प्रशिक्षण सेट: 8,162 अद्वितीय शब्द, 3,555,141 फ्रेम
- सत्यापन सेट: 3,348 शब्द, 53,768 फ्रेम
- विभाजन रणनीति: हस्ताक्षरकर्ता द्वारा विभाजित, प्रशिक्षण, सत्यापन, परीक्षण सेट के बीच कोई हस्ताक्षरकर्ता ओवरलैप नहीं
- अनुकूलक: Adam अनुकूलक, सीखने की दर 1e-4
- बैच आकार: 128
- प्रारंभिक रोक रणनीति: सत्यापन हानि में लगातार 3 epoch बिना सुधार के रोकता है
- मॉडल आयाम: 512-आयामी एम्बेडिंग
- पैरामीटर संख्या: 23.9 मिलियन पैरामीटर (बनाम RGB मॉडल के 34.5 मिलियन)
- सटीकता: शीर्ष-5 सटीकता 60% तक पहुंचती है
- पैरामीटर दक्षता: RGB विधि की तुलना में 30.7% पैरामीटर में कमी (23.9M बनाम 34.5M)
- कम्प्यूटेशनल दक्षता: कम्प्यूटेशनल लागत, मेमोरी उपयोग और प्रशिक्षण समय में उल्लेखनीय कमी
- 543 कीपॉइंट मॉडल: 468 चेहरे की कीपॉइंट का उपयोग करता है
- 203 कीपॉइंट मॉडल: 128 चेहरे की कीपॉइंट का उपयोग करता है
- खोज: चेहरे की कीपॉइंट संख्या बढ़ाने से प्रदर्शन में सुधार होता है
कई संवर्धन तकनीकों का परीक्षण किया गया:
- अनुवाद संवर्धन: सबसे बड़ा प्रदर्शन सुधार प्रदान करता है
- स्केलिंग संवर्धन: 90-110% श्रेणी में स्केलिंग
- घुमाव संवर्धन: छोटे कोण घुमाव
- क्षैतिज फ्लिपिंग: दर्पण फ्लिपिंग
प्रत्येक संवर्धन विधि मॉडल प्रदर्शन को अलग से बढ़ा सकती है, जिसमें अनुवाद संवर्धन सबसे प्रभावी है।
- चेहरे की कीपॉइंट BSL पहचान के लिए महत्वपूर्ण हैं
- कीपॉइंट-आधारित विधि उचित सटीकता बनाए रखते हुए कम्प्यूटेशनल लागत में उल्लेखनीय कमी करती है
- डेटा संवर्धन तकनीकें कीपॉइंट मॉडल के लिए समान रूप से प्रभावी हैं
- पिछले कार्य मुख्य रूप से BSL पहचान के लिए RGB वीडियो का उपयोग करते हैं
- सह-उच्चारण और होंठ पैटर्न पहचान पर ध्यान केंद्रित करते हैं
- यह पेपर पहली शुद्ध कीपॉइंट विधि है
- हाथ से तैयार की गई विशेषताओं से गहन शिक्षण विधियों (CNNs) तक विकास
- कार्य पहचान, हाथ इशारा पहचान में ग्राफ तंत्रिका नेटवर्क (GNNs) का अनुप्रयोग
- कंप्यूटर विजन में Transformer आर्किटेक्चर की सफलता
यह पेपर कीपॉइंट को सीधे Transformer में इनपुट करने की विधि अपनाता है, जो ग्राफ तंत्रिका नेटवर्क बनाने के पारंपरिक तरीके से अलग है।
- कीपॉइंट-आधारित विधि BSL पहचान में महत्वपूर्ण कम्प्यूटेशनल लाभ प्रदान करती है
- Transformer आर्किटेक्चर कीपॉइंट अनुक्रमों को प्रभावी ढंग से संभाल सकता है
- चेहरे की कीपॉइंट BSL पहचान प्रदर्शन के लिए महत्वपूर्ण हैं
- उचित डेटा संवर्धन मॉडल प्रदर्शन को और बढ़ा सकता है
- सटीकता: 60% की सटीकता में अभी सुधार की गुंजाइश है
- तुलना की कमी: पहली कीपॉइंट विधि के रूप में, सीधी तुलना बेंचमार्क की कमी है
- डेटासेट सीमा: केवल BOBSL डेटासेट पर सत्यापित
- रीयल-टाइम सत्यापन: वास्तविक रीयल-टाइम प्रदर्शन परीक्षण की कमी
- बहु-मोडल संलयन: सटीकता बढ़ाने के लिए कीपॉइंट और RGB छवियों को जोड़ना
- 3D मुद्रा अनुमान: अनुक्रम-स्तरीय 3D मुद्रा अनुमान तकनीकों का अन्वेषण करना
- कंकाल छवि: कीपॉइंट-आधारित काली-सफेद कंकाल छवि प्रतिनिधित्व का प्रयास करना
- बड़े पैमाने पर सत्यापन: अधिक साइन लैंग्वेज डेटासेट पर विधि की प्रभावशीलता को सत्यापित करना
- मजबूत नवाचार: BSL पहचान के लिए शुद्ध कीपॉइंट विधि का पहला अनुप्रयोग
- उच्च व्यावहारिक मूल्य: कम्प्यूटेशनल लागत में उल्लेखनीय कमी, संसाधन-सीमित वातावरण के लिए उपयुक्त
- उचित विधि: स्पष्ट तकनीकी मार्ग, पूर्ण कार्यान्वयन विवरण
- व्यापक प्रयोग: कई कॉन्फ़िगरेशन और संवर्धन रणनीतियों की तुलनात्मक प्रयोग
- सीमित प्रदर्शन: 60% की सटीकता अपेक्षाकृत कम है
- तुलना की कमी: अन्य विधियों के साथ सीधी तुलना नहीं कर सकते
- अपर्याप्त विश्लेषण: विफल मामलों का गहन विश्लेषण नहीं
- अज्ञात सामान्यीकरण: केवल एकल डेटासेट पर सत्यापित
- अग्रणी: साइन लैंग्वेज पहचान के लिए नया तकनीकी मार्ग प्रदान करता है
- व्यावहारिकता: कुशल विधि व्यावहारिक अनुप्रयोग तैनाती के लिए अनुकूल है
- विस्तारशीलता: बाद के अनुसंधान के लिए अच्छा आधार प्रदान करता है
- सामाजिक मूल्य: बधिर समुदाय के लिए तकनीकी पहुंच में सुधार करने में सहायक
- संसाधन-सीमित वातावरण: मोबाइल डिवाइस, एज कंप्यूटिंग परिदृश्य
- रीयल-टाइम अनुप्रयोग: तेजी से प्रतिक्रिया की आवश्यकता वाली इंटरैक्टिव प्रणाली
- बड़े पैमाने पर तैनाती: बड़ी मात्रा में वीडियो डेटा प्रसंस्करण परिदृश्य
- अनुसंधान प्रोटोटाइप: अधिक जटिल प्रणालियों के आधार घटक के रूप में
पेपर कई महत्वपूर्ण संबंधित कार्यों का हवाला देता है, जिनमें शामिल हैं:
- BOBSL डेटासेट संबंधित पेपर 3
- MediaPipe कीपॉइंट निष्कर्षण ढांचा 13
- Transformer आर्किटेक्चर मूल पेपर 18
- साइन लैंग्वेज पहचान संबंधित अनुसंधान 1,2,6
- कार्य पहचान में ग्राफ तंत्रिका नेटवर्क का अनुप्रयोग 21
समग्र मूल्यांकन: यह एक अग्रणी महत्व का पेपर है, जो पहली बार BSL पहचान कार्य के लिए कीपॉइंट-आधारित विधि लागू करता है। यद्यपि सटीकता के मामले में सुधार की गुंजाइश है, लेकिन कम्प्यूटेशनल दक्षता में इसके उल्लेखनीय लाभ इसे महत्वपूर्ण व्यावहारिक मूल्य देते हैं। यह कार्य साइन लैंग्वेज पहचान क्षेत्र के लिए एक नई अनुसंधान दिशा प्रदान करता है, विशेष रूप से संसाधन-सीमित और रीयल-टाइम अनुप्रयोग परिदृश्यों में महत्वपूर्ण है।