In this paper, we present a novel keypoint-based classification model designed to recognise British Sign Language (BSL) words within continuous signing sequences. Our model's performance is assessed using the BOBSL dataset, revealing that the keypoint-based approach surpasses its RGB-based counterpart in computational efficiency and memory usage. Furthermore, it offers expedited training times and demands fewer computational resources. To the best of our knowledge, this is the inaugural application of a keypoint-based model for BSL word classification, rendering direct comparisons with existing works unavailable.
- পেপার আইডি: 2412.09475
- শিরোনাম: ক্রমাগত ক্রম থেকে ব্রিটিশ সাইন ল্যাঙ্গুয়েজ (BSL) স্বীকৃতির জন্য নতুন কীপয়েন্ট-ভিত্তিক পদ্ধতি
- লেখক: ওইশি ডেব, কেআর প্রজ্ঞাল, অ্যান্ড্রু জিসারম্যান (ভিজ্যুয়াল জিওমেট্রি গ্রুপ, অক্সফোর্ড বিশ্ববিদ্যালয়)
- শ্রেণীবিভাগ: cs.CV cs.AI
- প্রকাশনার সময়/সম্মেলন: আন্তর্জাতিক কম্পিউটার ভিশন সম্মেলন (ICCV) - HANDS ওয়ার্কশপ, 2023
- পেপার লিংক: https://arxiv.org/abs/2412.09475
এই পেপারটি ক্রমাগত হ্যান্ড সাইন ক্রমাংশ থেকে ব্রিটিশ সাইন ল্যাঙ্গুয়েজ (BSL) শব্দ স্বীকৃতির জন্য একটি উপন্যাস কীপয়েন্ট-ভিত্তিক শ্রেণীবিভাগ মডেল প্রস্তাব করে। মডেলটি BOBSL ডেটাসেটে মূল্যায়ন করা হয়েছে, ফলাফলগুলি দেখায় যে কীপয়েন্ট-ভিত্তিক পদ্ধতি RGB-ভিত্তিক সংশ্লিষ্ট পদ্ধতিকে গণনামূলক দক্ষতা এবং মেমরি ব্যবহারের ক্ষেত্রে অতিক্রম করে, একই সাথে দ্রুত প্রশিক্ষণ সময় প্রদান করে এবং কম গণনামূলক সম্পদের প্রয়োজন হয়। লেখকদের জ্ঞান অনুযায়ী, এটি BSL শব্দ শ্রেণীবিভাগে কীপয়েন্ট-ভিত্তিক মডেল প্রয়োগের প্রথম উদাহরণ, তাই বিদ্যমান কাজের সাথে সরাসরি তুলনা করা যায় না।
হ্যান্ড সাইন স্বীকৃতি একটি গুরুত্বপূর্ণ কম্পিউটার ভিশন কাজ যা ভিডিও ক্রমাংশ থেকে স্বয়ংক্রিয়ভাবে হ্যান্ড সাইন শব্দ বা বাক্যাংশ চিহ্নিত করার লক্ষ্য রাখে। ঐতিহ্যবাহী পদ্ধতিগুলি প্রধানত RGB ভিডিওর উপর নির্ভর করে, কিন্তু উচ্চ গণনামূলক জটিলতা এবং পরিবেশগত কারণের প্রতি সংবেদনশীলতার সমস্যা রয়েছে।
- সামাজিক তাৎপর্য: বধির সম্প্রদায়ের অ্যাক্সেসযোগ্যতা উন্নত করা, অন্তর্ভুক্তিমূলক যোগাযোগ প্রচার করা
- প্রযুক্তিগত চ্যালেঞ্জ: ক্রমাগত হ্যান্ড সাইনে সহ-উচ্চারণ (co-articulation) ঘটনা স্বীকৃতি কাজকে অত্যন্ত চ্যালেঞ্জিং করে তোলে
- রিয়েল-টাইম প্রয়োজনীয়তা: বাস্তব প্রয়োগের জন্য রিয়েল-টাইম প্রক্রিয়াকরণ করতে পারে এমন দক্ষ মডেল প্রয়োজন
- RGB পদ্ধতি: উচ্চ গণনামূলক জটিলতা, বড় মেমরি খরচ, দীর্ঘ প্রশিক্ষণ সময়
- পরিবেশ সংবেদনশীলতা: আলোকসজ্জা, পোশাক ইত্যাদি বাহ্যিক কারণ দ্বারা সহজেই প্রভাবিত
- দুর্বল রিয়েল-টাইম কর্মক্ষমতা: রিয়েল-টাইম প্রয়োগ প্রয়োজনীয়তা পূরণ করা কঠিন
লেখকরা উপরোক্ত সমস্যাগুলি সমাধানের জন্য 2D কীপয়েন্ট প্রতিনিধিত্ব ব্যবহার করার প্রস্তাব দেন, তিনটি প্রধান কারণের উপর ভিত্তি করে:
- নিয়ন্ত্রণযোগ্যতা: গণনামূলক খরচ নিয়ন্ত্রণ করতে কীপয়েন্ট সাবসেট নমনীয়ভাবে নির্বাচন করতে পারে
- সংক্ষিপ্ততা: আলোকসজ্জা, পোশাক ইত্যাদি হস্তক্ষেপ দূর করে, আরও সংক্ষিপ্ত প্রতিনিধিত্ব প্রদান করে
- রিয়েল-টাইম কর্মক্ষমতা: কীপয়েন্ট রিয়েল-টাইমে গণনা করা যায়, রিয়েল-টাইম মডেল সম্পাদন সমর্থন করে
- প্রথম প্রয়োগ: BSL শব্দ শ্রেণীবিভাগ কাজে কীপয়েন্ট-ভিত্তিক পদ্ধতি প্রথমবার প্রয়োগ করা
- দক্ষ আর্কিটেকচার: Transformer-ভিত্তিক কীপয়েন্ট ক্রম প্রক্রিয়াকরণ আর্কিটেকচার প্রস্তাব করা
- গণনামূলক দক্ষতা: RGB পদ্ধতির তুলনায় গণনামূলক খরচ, মেমরি ব্যবহার এবং প্রশিক্ষণ সময় উল্লেখযোগ্যভাবে হ্রাস করা
- ব্যবহারিক মূল্য: হ্যান্ড সাইন স্বীকৃতির জন্য আরও দক্ষ এবং ব্যবহারিক সমাধান প্রদান করা
- ইনপুট: ক্রমাগত BSL হ্যান্ড সাইন ভিডিও ক্রমাংশের 2D কীপয়েন্ট প্রতিনিধিত্ব
- আউটপুট: 8162টি BSL শব্দ বিভাগের শ্রেণীবিভাগ ফলাফল
- সীমাবদ্ধতা: সহ-উচ্চারণ ঘটনা পরিচালনা করা, রিয়েল-টাইম প্রক্রিয়াকরণ সমর্থন করা
MediaPipe লাইব্রেরি ব্যবহার করে কীপয়েন্ট নিষ্কাশন করা হয়:
- ভঙ্গি কীপয়েন্ট: 33টি
- হাতের কীপয়েন্ট: বাম এবং ডান হাত প্রতিটিতে 21টি
- মুখের কীপয়েন্ট: 468টি (203kp মডেলে 128টিতে হ্রাস করা)
- মোট: 543টি কীপয়েন্ট (বা 203টি কীপয়েন্টের সরলীকৃত সংস্করণ)
- ক্রমাগত 16 ফ্রেমের কীপয়েন্ট ক্রম নিষ্কাশন করা (গবেষণা অনুযায়ী সহ-উচ্চারণ 13-20 ফ্রেম স্থায়ী হয়)
- 16 × K × 2 ত্রিমাত্রিক ভেক্টর গঠন করা, যেখানে K প্রতিটি ফ্রেমের কীপয়েন্ট সংখ্যা
- টোকেনাইজার: ইনপুট ডেটা টোকেনাইজ করা
- অবস্থান এনকোডিং: ক্রমাংশে ক্রম আলাদা করার জন্য অবস্থান তথ্য যোগ করা
- এনকোডার: 6-স্তরের এনকোডার, প্রতিটি স্তরে অন্তর্ভুক্ত:
- মাল্টি-হেড স্ব-মনোযোগ প্রক্রিয়া (8টি মনোযোগ মাথা)
- অবস্থান ফিডফরওয়ার্ড নিউরাল নেটওয়ার্ক
- স্তর নর্মালাইজেশন
- জেনারেটর: শেখা প্রতিনিধিত্বকে শ্রেণীবিভাগ আউটপুটে রূপান্তরিত করা
- ফ্রেম-ওয়াইজ মনোযোগ: ফ্রেম-স্তরের মনোযোগ মডেল
- ট্র্যাজেক্টরি-ওয়াইজ মনোযোগ: ট্র্যাজেক্টরি-স্তরের মনোযোগ মডেল
- স্কেল করা ডট-প্রোডাক্ট মনোযোগ প্রক্রিয়া ব্যবহার করা
- সরাসরি কীপয়েন্ট ইনপুট: গ্রাফ নিউরাল নেটওয়ার্ক-ভিত্তিক পদ্ধতির বিপরীতে, সরাসরি কীপয়েন্টকে Transformer ইনপুট হিসাবে ব্যবহার করা
- সময়গত মডেলিং: দীর্ঘ-পরিসর নির্ভরতা ক্যাপচার করতে Transformer এর স্ব-মনোযোগ প্রক্রিয়া ব্যবহার করা
- মাল্টি-স্কেল কীপয়েন্ট: কর্মক্ষমতা এবং দক্ষতার ভারসাম্য রাখতে বিভিন্ন সংখ্যক কীপয়েন্ট কনফিগারেশন অন্বেষণ করা
- ডেটা বৃদ্ধি: কীপয়েন্টের জন্য ডিজাইন করা বৃদ্ধি কৌশল (স্থানান্তর, স্কেলিং, ঘূর্ণন, ফ্লিপিং)
BOBSL ডেটাসেট:
- স্কেল: 1,467 ঘন্টার BBC প্রোগ্রাম
- রেজোলিউশন: 444×444 পিক্সেল, 25fps
- শব্দভাণ্ডার: 8,162টি হ্যান্ড সাইন শব্দ
- স্বাক্ষরকারী: 39 জন হ্যান্ড সাইন অনুবাদক
- প্রশিক্ষণ সেট: 8,162টি অনন্য শব্দ, 3,555,141 ফ্রেম
- যাচাইকরণ সেট: 3,348টি শব্দ, 53,768 ফ্রেম
- বিভাজন কৌশল: স্বাক্ষরকারী দ্বারা বিভাজন, প্রশিক্ষণ, যাচাইকরণ এবং পরীক্ষা সেটের মধ্যে কোনো স্বাক্ষরকারী ওভারল্যাপ নিশ্চিত করা
- অপ্টিমাইজার: Adam অপ্টিমাইজার, শেখার হার 1e-4
- ব্যাচ আকার: 128
- প্রাথমিক থামানো কৌশল: যাচাইকরণ ক্ষতি ক্রমাগত 3টি epoch কোনো উন্নতি ছাড়াই থামানো
- মডেল মাত্রা: 512-মাত্রা এমবেডিং
- প্যারামিটার সংখ্যা: 23.9 মিলিয়ন প্যারামিটার (RGB মডেলের 34.5 মিলিয়নের বিপরীতে)
- নির্ভুলতা: শীর্ষ-5 নির্ভুলতা 60% এ পৌঁছেছে
- প্যারামিটার দক্ষতা: RGB পদ্ধতির তুলনায় 30.7% প্যারামিটার হ্রাস (23.9M বনাম 34.5M)
- গণনামূলক দক্ষতা: গণনামূলক খরচ, মেমরি ব্যবহার এবং প্রশিক্ষণ সময় উল্লেখযোগ্যভাবে হ্রাস করা
- 543 কীপয়েন্ট মডেল: 468টি মুখের কীপয়েন্ট ব্যবহার করা
- 203 কীপয়েন্ট মডেল: 128টি মুখের কীপয়েন্ট ব্যবহার করা
- আবিষ্কার: মুখের কীপয়েন্ট সংখ্যা বৃদ্ধি কর্মক্ষমতা উন্নত করতে পারে
একাধিক বৃদ্ধি কৌশল পরীক্ষা করা হয়েছে:
- স্থানান্তর বৃদ্ধি: সর্বাধিক কর্মক্ষমতা উন্নতি প্রদান করা
- স্কেলিং বৃদ্ধি: 90-110% পরিসরে স্কেলিং
- ঘূর্ণন বৃদ্ধি: ছোট কোণ ঘূর্ণন
- অনুভূমিক ফ্লিপিং: মিরর ফ্লিপিং
প্রতিটি বৃদ্ধি পদ্ধতি স্বাধীনভাবে মডেল কর্মক্ষমতা উন্নত করতে পারে, যার মধ্যে স্থানান্তর বৃদ্ধি সবচেয়ে কার্যকর।
- মুখের কীপয়েন্ট BSL স্বীকৃতির জন্য অত্যন্ত গুরুত্বপূর্ণ
- কীপয়েন্ট-ভিত্তিক পদ্ধতি যুক্তিসঙ্গত নির্ভুলতা বজায় রেখে গণনামূলক খরচ উল্লেখযোগ্যভাবে হ্রাস করে
- ডেটা বৃদ্ধি কৌশল কীপয়েন্ট মডেলের জন্য সমানভাবে কার্যকর
- পূর্ববর্তী কাজ প্রধানত RGB ভিডিও ব্যবহার করে BSL স্বীকৃতি করেছে
- সহ-উচ্চারণ এবং ঠোঁট প্যাটার্ন স্বীকৃতিতে ফোকাস করা
- এই পেপার প্রথম বিশুদ্ধ কীপয়েন্ট পদ্ধতি
- হাতে তৈরি বৈশিষ্ট্য প্রকৌশল থেকে গভীর শেখার পদ্ধতিতে বিকাশ (CNNs)
- ক্রিয়া স্বীকৃতি, হ্যান্ড জেসচার স্বীকৃতিতে গ্রাফ নিউরাল নেটওয়ার্ক (GNNs) প্রয়োগ
- কম্পিউটার ভিশনে Transformer আর্কিটেকচারের সফল প্রয়োগ
এই পেপার সরাসরি কীপয়েন্টকে Transformer-এ ইনপুট করার পদ্ধতি গ্রহণ করে, গ্রাফ নিউরাল নেটওয়ার্ক নির্মাণের ঐতিহ্যবাহী পদ্ধতি থেকে আলাদা।
- কীপয়েন্ট-ভিত্তিক পদ্ধতি BSL স্বীকৃতিতে উল্লেখযোগ্য গণনামূলক সুবিধা রয়েছে
- Transformer আর্কিটেকচার কীপয়েন্ট ক্রম কার্যকরভাবে পরিচালনা করতে পারে
- মুখের কীপয়েন্ট BSL স্বীকৃতি কর্মক্ষমতার জন্য অত্যন্ত গুরুত্বপূর্ণ
- উপযুক্ত ডেটা বৃদ্ধি মডেল কর্মক্ষমতা আরও উন্নত করতে পারে
- নির্ভুলতা: 60% নির্ভুলতা এখনও উন্নতির জায়গা রয়েছে
- তুলনা অনুপস্থিত: প্রথম কীপয়েন্ট পদ্ধতি হিসাবে, সরাসরি তুলনা মানদণ্ড অনুপস্থিত
- ডেটাসেট সীমাবদ্ধতা: শুধুমাত্র BOBSL ডেটাসেটে যাচাই করা
- রিয়েল-টাইম যাচাইকরণ: প্রকৃত রিয়েল-টাইম কর্মক্ষমতা পরীক্ষা অনুপস্থিত
- মাল্টি-মোডাল ফিউশন: নির্ভুলতা উন্নত করতে কীপয়েন্ট এবং RGB ইমেজ একত্রিত করা
- 3D ভঙ্গি অনুমান: ক্রম-স্তরের 3D ভঙ্গি অনুমান প্রযুক্তি অন্বেষণ করা
- কঙ্কাল ইমেজ: কীপয়েন্ট-ভিত্তিক কালো এবং সাদা কঙ্কাল ইমেজ প্রতিনিধিত্ব চেষ্টা করা
- বৃহত্তর স্কেল যাচাইকরণ: আরও বেশি হ্যান্ড সাইন ডেটাসেটে পদ্ধতির কার্যকারিতা যাচাই করা
- শক্তিশালী উদ্ভাবনী: BSL স্বীকৃতিতে বিশুদ্ধ কীপয়েন্ট পদ্ধতি প্রথমবার প্রয়োগ করা
- উচ্চ ব্যবহারিক মূল্য: গণনামূলক খরচ উল্লেখযোগ্যভাবে হ্রাস করা, সম্পদ-সীমিত পরিবেশের জন্য উপযুক্ত
- যুক্তিসঙ্গত পদ্ধতি: স্পষ্ট প্রযুক্তিগত রুট, সম্পূর্ণ বাস্তবায়ন বিবরণ
- পর্যাপ্ত পরীক্ষা: একাধিক কনফিগারেশন এবং বৃদ্ধি কৌশলের তুলনামূলক পরীক্ষা অন্তর্ভুক্ত
- সীমিত কর্মক্ষমতা: 60% নির্ভুলতা তুলনামূলকভাবে কম
- তুলনা অনুপস্থিত: অন্যান্য পদ্ধতির সাথে সরাসরি তুলনা করা যায় না
- বিশ্লেষণ অপর্যাপ্ত: ব্যর্থতার ক্ষেত্রে গভীর বিশ্লেষণ অনুপস্থিত
- সাধারণীকরণ অজানা: শুধুমাত্র একক ডেটাসেটে যাচাই করা
- অগ্রগামী: হ্যান্ড সাইন স্বীকৃতির জন্য নতুন প্রযুক্তিগত পথ প্রদান করা
- ব্যবহারিকতা: দক্ষ পদ্ধতি বাস্তব প্রয়োগ স্থাপনের জন্য উপকারী
- সম্প্রসারণযোগ্যতা: পরবর্তী গবেষণার জন্য ভাল ভিত্তি প্রদান করা
- সামাজিক মূল্য: বধির জনগোষ্ঠীর প্রযুক্তিগত অ্যাক্সেসযোগ্যতা উন্নত করতে সহায়তা করা
- সম্পদ-সীমিত পরিবেশ: মোবাইল ডিভাইস, এজ কম্পিউটিং দৃশ্যকল্প
- রিয়েল-টাইম প্রয়োগ: দ্রুত প্রতিক্রিয়া প্রয়োজন এমন ইন্টারেক্টিভ সিস্টেম
- বৃহৎ-স্কেল স্থাপনা: বিশাল পরিমাণ ভিডিও ডেটা প্রক্রিয়াকরণের প্রয়োজন এমন দৃশ্যকল্প
- গবেষণা প্রোটোটাইপ: আরও জটিল সিস্টেমের ভিত্তি উপাদান হিসাবে
পেপারটি একাধিক গুরুত্বপূর্ণ সম্পর্কিত কাজ উদ্ধৃত করেছে, যার মধ্যে রয়েছে:
- BOBSL ডেটাসেট সম্পর্কিত পেপার 3
- MediaPipe কীপয়েন্ট নিষ্কাশন ফ্রেমওয়ার্ক 13
- Transformer আর্কিটেকচার মূল পেপার 18
- হ্যান্ড সাইন স্বীকৃতি সম্পর্কিত গবেষণা 1,2,6
- ক্রিয়া স্বীকৃতিতে গ্রাফ নিউরাল নেটওয়ার্ক প্রয়োগ 21
সামগ্রিক মূল্যায়ন: এটি একটি অগ্রগামী তাৎপর্যপূর্ণ পেপার যা প্রথমবার BSL স্বীকৃতি কাজে কীপয়েন্ট-ভিত্তিক পদ্ধতি প্রয়োগ করেছে। যদিও নির্ভুলতার ক্ষেত্রে এখনও উন্নতির জায়গা রয়েছে, তবে গণনামূলক দক্ষতার ক্ষেত্রে এর উল্লেখযোগ্য সুবিধা এটিকে গুরুত্বপূর্ণ ব্যবহারিক মূল্য প্রদান করে। এই কাজ হ্যান্ড সাইন স্বীকৃতি ক্ষেত্রের জন্য একটি নতুন গবেষণা দিকনির্দেশনা প্রদান করে, বিশেষত সম্পদ-সীমিত এবং রিয়েল-টাইম প্রয়োগ দৃশ্যকল্পে গুরুত্বপূর্ণ।