2025-11-15T00:16:11.455248

New keypoint-based approach for recognising British Sign Language (BSL) from sequences

Deb, Prajwal, Zisserman
In this paper, we present a novel keypoint-based classification model designed to recognise British Sign Language (BSL) words within continuous signing sequences. Our model's performance is assessed using the BOBSL dataset, revealing that the keypoint-based approach surpasses its RGB-based counterpart in computational efficiency and memory usage. Furthermore, it offers expedited training times and demands fewer computational resources. To the best of our knowledge, this is the inaugural application of a keypoint-based model for BSL word classification, rendering direct comparisons with existing works unavailable.
academic

ক্রমাগত ক্রম থেকে ব্রিটিশ সাইন ল্যাঙ্গুয়েজ (BSL) স্বীকৃতির জন্য নতুন কীপয়েন্ট-ভিত্তিক পদ্ধতি

মৌলিক তথ্য

  • পেপার আইডি: 2412.09475
  • শিরোনাম: ক্রমাগত ক্রম থেকে ব্রিটিশ সাইন ল্যাঙ্গুয়েজ (BSL) স্বীকৃতির জন্য নতুন কীপয়েন্ট-ভিত্তিক পদ্ধতি
  • লেখক: ওইশি ডেব, কেআর প্রজ্ঞাল, অ্যান্ড্রু জিসারম্যান (ভিজ্যুয়াল জিওমেট্রি গ্রুপ, অক্সফোর্ড বিশ্ববিদ্যালয়)
  • শ্রেণীবিভাগ: cs.CV cs.AI
  • প্রকাশনার সময়/সম্মেলন: আন্তর্জাতিক কম্পিউটার ভিশন সম্মেলন (ICCV) - HANDS ওয়ার্কশপ, 2023
  • পেপার লিংক: https://arxiv.org/abs/2412.09475

সারসংক্ষেপ

এই পেপারটি ক্রমাগত হ্যান্ড সাইন ক্রমাংশ থেকে ব্রিটিশ সাইন ল্যাঙ্গুয়েজ (BSL) শব্দ স্বীকৃতির জন্য একটি উপন্যাস কীপয়েন্ট-ভিত্তিক শ্রেণীবিভাগ মডেল প্রস্তাব করে। মডেলটি BOBSL ডেটাসেটে মূল্যায়ন করা হয়েছে, ফলাফলগুলি দেখায় যে কীপয়েন্ট-ভিত্তিক পদ্ধতি RGB-ভিত্তিক সংশ্লিষ্ট পদ্ধতিকে গণনামূলক দক্ষতা এবং মেমরি ব্যবহারের ক্ষেত্রে অতিক্রম করে, একই সাথে দ্রুত প্রশিক্ষণ সময় প্রদান করে এবং কম গণনামূলক সম্পদের প্রয়োজন হয়। লেখকদের জ্ঞান অনুযায়ী, এটি BSL শব্দ শ্রেণীবিভাগে কীপয়েন্ট-ভিত্তিক মডেল প্রয়োগের প্রথম উদাহরণ, তাই বিদ্যমান কাজের সাথে সরাসরি তুলনা করা যায় না।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

হ্যান্ড সাইন স্বীকৃতি একটি গুরুত্বপূর্ণ কম্পিউটার ভিশন কাজ যা ভিডিও ক্রমাংশ থেকে স্বয়ংক্রিয়ভাবে হ্যান্ড সাইন শব্দ বা বাক্যাংশ চিহ্নিত করার লক্ষ্য রাখে। ঐতিহ্যবাহী পদ্ধতিগুলি প্রধানত RGB ভিডিওর উপর নির্ভর করে, কিন্তু উচ্চ গণনামূলক জটিলতা এবং পরিবেশগত কারণের প্রতি সংবেদনশীলতার সমস্যা রয়েছে।

গুরুত্ব

  1. সামাজিক তাৎপর্য: বধির সম্প্রদায়ের অ্যাক্সেসযোগ্যতা উন্নত করা, অন্তর্ভুক্তিমূলক যোগাযোগ প্রচার করা
  2. প্রযুক্তিগত চ্যালেঞ্জ: ক্রমাগত হ্যান্ড সাইনে সহ-উচ্চারণ (co-articulation) ঘটনা স্বীকৃতি কাজকে অত্যন্ত চ্যালেঞ্জিং করে তোলে
  3. রিয়েল-টাইম প্রয়োজনীয়তা: বাস্তব প্রয়োগের জন্য রিয়েল-টাইম প্রক্রিয়াকরণ করতে পারে এমন দক্ষ মডেল প্রয়োজন

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

  1. RGB পদ্ধতি: উচ্চ গণনামূলক জটিলতা, বড় মেমরি খরচ, দীর্ঘ প্রশিক্ষণ সময়
  2. পরিবেশ সংবেদনশীলতা: আলোকসজ্জা, পোশাক ইত্যাদি বাহ্যিক কারণ দ্বারা সহজেই প্রভাবিত
  3. দুর্বল রিয়েল-টাইম কর্মক্ষমতা: রিয়েল-টাইম প্রয়োগ প্রয়োজনীয়তা পূরণ করা কঠিন

গবেষণা প্রেরণা

লেখকরা উপরোক্ত সমস্যাগুলি সমাধানের জন্য 2D কীপয়েন্ট প্রতিনিধিত্ব ব্যবহার করার প্রস্তাব দেন, তিনটি প্রধান কারণের উপর ভিত্তি করে:

  1. নিয়ন্ত্রণযোগ্যতা: গণনামূলক খরচ নিয়ন্ত্রণ করতে কীপয়েন্ট সাবসেট নমনীয়ভাবে নির্বাচন করতে পারে
  2. সংক্ষিপ্ততা: আলোকসজ্জা, পোশাক ইত্যাদি হস্তক্ষেপ দূর করে, আরও সংক্ষিপ্ত প্রতিনিধিত্ব প্রদান করে
  3. রিয়েল-টাইম কর্মক্ষমতা: কীপয়েন্ট রিয়েল-টাইমে গণনা করা যায়, রিয়েল-টাইম মডেল সম্পাদন সমর্থন করে

মূল অবদান

  1. প্রথম প্রয়োগ: BSL শব্দ শ্রেণীবিভাগ কাজে কীপয়েন্ট-ভিত্তিক পদ্ধতি প্রথমবার প্রয়োগ করা
  2. দক্ষ আর্কিটেকচার: Transformer-ভিত্তিক কীপয়েন্ট ক্রম প্রক্রিয়াকরণ আর্কিটেকচার প্রস্তাব করা
  3. গণনামূলক দক্ষতা: RGB পদ্ধতির তুলনায় গণনামূলক খরচ, মেমরি ব্যবহার এবং প্রশিক্ষণ সময় উল্লেখযোগ্যভাবে হ্রাস করা
  4. ব্যবহারিক মূল্য: হ্যান্ড সাইন স্বীকৃতির জন্য আরও দক্ষ এবং ব্যবহারিক সমাধান প্রদান করা

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

  • ইনপুট: ক্রমাগত BSL হ্যান্ড সাইন ভিডিও ক্রমাংশের 2D কীপয়েন্ট প্রতিনিধিত্ব
  • আউটপুট: 8162টি BSL শব্দ বিভাগের শ্রেণীবিভাগ ফলাফল
  • সীমাবদ্ধতা: সহ-উচ্চারণ ঘটনা পরিচালনা করা, রিয়েল-টাইম প্রক্রিয়াকরণ সমর্থন করা

কীপয়েন্ট নিষ্কাশন

MediaPipe লাইব্রেরি ব্যবহার করে কীপয়েন্ট নিষ্কাশন করা হয়:

  • ভঙ্গি কীপয়েন্ট: 33টি
  • হাতের কীপয়েন্ট: বাম এবং ডান হাত প্রতিটিতে 21টি
  • মুখের কীপয়েন্ট: 468টি (203kp মডেলে 128টিতে হ্রাস করা)
  • মোট: 543টি কীপয়েন্ট (বা 203টি কীপয়েন্টের সরলীকৃত সংস্করণ)

মডেল আর্কিটেকচার

ইনপুট প্রতিনিধিত্ব

  • ক্রমাগত 16 ফ্রেমের কীপয়েন্ট ক্রম নিষ্কাশন করা (গবেষণা অনুযায়ী সহ-উচ্চারণ 13-20 ফ্রেম স্থায়ী হয়)
  • 16 × K × 2 ত্রিমাত্রিক ভেক্টর গঠন করা, যেখানে K প্রতিটি ফ্রেমের কীপয়েন্ট সংখ্যা

Transformer আর্কিটেকচার

  1. টোকেনাইজার: ইনপুট ডেটা টোকেনাইজ করা
  2. অবস্থান এনকোডিং: ক্রমাংশে ক্রম আলাদা করার জন্য অবস্থান তথ্য যোগ করা
  3. এনকোডার: 6-স্তরের এনকোডার, প্রতিটি স্তরে অন্তর্ভুক্ত:
    • মাল্টি-হেড স্ব-মনোযোগ প্রক্রিয়া (8টি মনোযোগ মাথা)
    • অবস্থান ফিডফরওয়ার্ড নিউরাল নেটওয়ার্ক
    • স্তর নর্মালাইজেশন
  4. জেনারেটর: শেখা প্রতিনিধিত্বকে শ্রেণীবিভাগ আউটপুটে রূপান্তরিত করা

মনোযোগ প্রক্রিয়া

  • ফ্রেম-ওয়াইজ মনোযোগ: ফ্রেম-স্তরের মনোযোগ মডেল
  • ট্র্যাজেক্টরি-ওয়াইজ মনোযোগ: ট্র্যাজেক্টরি-স্তরের মনোযোগ মডেল
  • স্কেল করা ডট-প্রোডাক্ট মনোযোগ প্রক্রিয়া ব্যবহার করা

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

  1. সরাসরি কীপয়েন্ট ইনপুট: গ্রাফ নিউরাল নেটওয়ার্ক-ভিত্তিক পদ্ধতির বিপরীতে, সরাসরি কীপয়েন্টকে Transformer ইনপুট হিসাবে ব্যবহার করা
  2. সময়গত মডেলিং: দীর্ঘ-পরিসর নির্ভরতা ক্যাপচার করতে Transformer এর স্ব-মনোযোগ প্রক্রিয়া ব্যবহার করা
  3. মাল্টি-স্কেল কীপয়েন্ট: কর্মক্ষমতা এবং দক্ষতার ভারসাম্য রাখতে বিভিন্ন সংখ্যক কীপয়েন্ট কনফিগারেশন অন্বেষণ করা
  4. ডেটা বৃদ্ধি: কীপয়েন্টের জন্য ডিজাইন করা বৃদ্ধি কৌশল (স্থানান্তর, স্কেলিং, ঘূর্ণন, ফ্লিপিং)

পরীক্ষামূলক সেটআপ

ডেটাসেট

BOBSL ডেটাসেট:

  • স্কেল: 1,467 ঘন্টার BBC প্রোগ্রাম
  • রেজোলিউশন: 444×444 পিক্সেল, 25fps
  • শব্দভাণ্ডার: 8,162টি হ্যান্ড সাইন শব্দ
  • স্বাক্ষরকারী: 39 জন হ্যান্ড সাইন অনুবাদক
  • প্রশিক্ষণ সেট: 8,162টি অনন্য শব্দ, 3,555,141 ফ্রেম
  • যাচাইকরণ সেট: 3,348টি শব্দ, 53,768 ফ্রেম
  • বিভাজন কৌশল: স্বাক্ষরকারী দ্বারা বিভাজন, প্রশিক্ষণ, যাচাইকরণ এবং পরীক্ষা সেটের মধ্যে কোনো স্বাক্ষরকারী ওভারল্যাপ নিশ্চিত করা

মূল্যায়ন মেট্রিক্স

  • শীর্ষ-5 নির্ভুলতা

বাস্তবায়ন বিবরণ

  • অপ্টিমাইজার: Adam অপ্টিমাইজার, শেখার হার 1e-4
  • ব্যাচ আকার: 128
  • প্রাথমিক থামানো কৌশল: যাচাইকরণ ক্ষতি ক্রমাগত 3টি epoch কোনো উন্নতি ছাড়াই থামানো
  • মডেল মাত্রা: 512-মাত্রা এমবেডিং
  • প্যারামিটার সংখ্যা: 23.9 মিলিয়ন প্যারামিটার (RGB মডেলের 34.5 মিলিয়নের বিপরীতে)

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

  • নির্ভুলতা: শীর্ষ-5 নির্ভুলতা 60% এ পৌঁছেছে
  • প্যারামিটার দক্ষতা: RGB পদ্ধতির তুলনায় 30.7% প্যারামিটার হ্রাস (23.9M বনাম 34.5M)
  • গণনামূলক দক্ষতা: গণনামূলক খরচ, মেমরি ব্যবহার এবং প্রশিক্ষণ সময় উল্লেখযোগ্যভাবে হ্রাস করা

কীপয়েন্ট সংখ্যা তুলনা

  • 543 কীপয়েন্ট মডেল: 468টি মুখের কীপয়েন্ট ব্যবহার করা
  • 203 কীপয়েন্ট মডেল: 128টি মুখের কীপয়েন্ট ব্যবহার করা
  • আবিষ্কার: মুখের কীপয়েন্ট সংখ্যা বৃদ্ধি কর্মক্ষমতা উন্নত করতে পারে

ডেটা বৃদ্ধি প্রভাব

একাধিক বৃদ্ধি কৌশল পরীক্ষা করা হয়েছে:

  1. স্থানান্তর বৃদ্ধি: সর্বাধিক কর্মক্ষমতা উন্নতি প্রদান করা
  2. স্কেলিং বৃদ্ধি: 90-110% পরিসরে স্কেলিং
  3. ঘূর্ণন বৃদ্ধি: ছোট কোণ ঘূর্ণন
  4. অনুভূমিক ফ্লিপিং: মিরর ফ্লিপিং

প্রতিটি বৃদ্ধি পদ্ধতি স্বাধীনভাবে মডেল কর্মক্ষমতা উন্নত করতে পারে, যার মধ্যে স্থানান্তর বৃদ্ধি সবচেয়ে কার্যকর।

পরীক্ষামূলক আবিষ্কার

  1. মুখের কীপয়েন্ট BSL স্বীকৃতির জন্য অত্যন্ত গুরুত্বপূর্ণ
  2. কীপয়েন্ট-ভিত্তিক পদ্ধতি যুক্তিসঙ্গত নির্ভুলতা বজায় রেখে গণনামূলক খরচ উল্লেখযোগ্যভাবে হ্রাস করে
  3. ডেটা বৃদ্ধি কৌশল কীপয়েন্ট মডেলের জন্য সমানভাবে কার্যকর

সম্পর্কিত কাজ

BSL স্বীকৃতি গবেষণা

  • পূর্ববর্তী কাজ প্রধানত RGB ভিডিও ব্যবহার করে BSL স্বীকৃতি করেছে
  • সহ-উচ্চারণ এবং ঠোঁট প্যাটার্ন স্বীকৃতিতে ফোকাস করা
  • এই পেপার প্রথম বিশুদ্ধ কীপয়েন্ট পদ্ধতি

কীপয়েন্ট প্রতিনিধিত্ব গবেষণা

  • হাতে তৈরি বৈশিষ্ট্য প্রকৌশল থেকে গভীর শেখার পদ্ধতিতে বিকাশ (CNNs)
  • ক্রিয়া স্বীকৃতি, হ্যান্ড জেসচার স্বীকৃতিতে গ্রাফ নিউরাল নেটওয়ার্ক (GNNs) প্রয়োগ
  • কম্পিউটার ভিশনে Transformer আর্কিটেকচারের সফল প্রয়োগ

প্রযুক্তি তুলনা

এই পেপার সরাসরি কীপয়েন্টকে Transformer-এ ইনপুট করার পদ্ধতি গ্রহণ করে, গ্রাফ নিউরাল নেটওয়ার্ক নির্মাণের ঐতিহ্যবাহী পদ্ধতি থেকে আলাদা।

উপসংহার এবং আলোচনা

প্রধান উপসংহার

  1. কীপয়েন্ট-ভিত্তিক পদ্ধতি BSL স্বীকৃতিতে উল্লেখযোগ্য গণনামূলক সুবিধা রয়েছে
  2. Transformer আর্কিটেকচার কীপয়েন্ট ক্রম কার্যকরভাবে পরিচালনা করতে পারে
  3. মুখের কীপয়েন্ট BSL স্বীকৃতি কর্মক্ষমতার জন্য অত্যন্ত গুরুত্বপূর্ণ
  4. উপযুক্ত ডেটা বৃদ্ধি মডেল কর্মক্ষমতা আরও উন্নত করতে পারে

সীমাবদ্ধতা

  1. নির্ভুলতা: 60% নির্ভুলতা এখনও উন্নতির জায়গা রয়েছে
  2. তুলনা অনুপস্থিত: প্রথম কীপয়েন্ট পদ্ধতি হিসাবে, সরাসরি তুলনা মানদণ্ড অনুপস্থিত
  3. ডেটাসেট সীমাবদ্ধতা: শুধুমাত্র BOBSL ডেটাসেটে যাচাই করা
  4. রিয়েল-টাইম যাচাইকরণ: প্রকৃত রিয়েল-টাইম কর্মক্ষমতা পরীক্ষা অনুপস্থিত

ভবিষ্যত দিকনির্দেশনা

  1. মাল্টি-মোডাল ফিউশন: নির্ভুলতা উন্নত করতে কীপয়েন্ট এবং RGB ইমেজ একত্রিত করা
  2. 3D ভঙ্গি অনুমান: ক্রম-স্তরের 3D ভঙ্গি অনুমান প্রযুক্তি অন্বেষণ করা
  3. কঙ্কাল ইমেজ: কীপয়েন্ট-ভিত্তিক কালো এবং সাদা কঙ্কাল ইমেজ প্রতিনিধিত্ব চেষ্টা করা
  4. বৃহত্তর স্কেল যাচাইকরণ: আরও বেশি হ্যান্ড সাইন ডেটাসেটে পদ্ধতির কার্যকারিতা যাচাই করা

গভীর মূল্যায়ন

সুবিধা

  1. শক্তিশালী উদ্ভাবনী: BSL স্বীকৃতিতে বিশুদ্ধ কীপয়েন্ট পদ্ধতি প্রথমবার প্রয়োগ করা
  2. উচ্চ ব্যবহারিক মূল্য: গণনামূলক খরচ উল্লেখযোগ্যভাবে হ্রাস করা, সম্পদ-সীমিত পরিবেশের জন্য উপযুক্ত
  3. যুক্তিসঙ্গত পদ্ধতি: স্পষ্ট প্রযুক্তিগত রুট, সম্পূর্ণ বাস্তবায়ন বিবরণ
  4. পর্যাপ্ত পরীক্ষা: একাধিক কনফিগারেশন এবং বৃদ্ধি কৌশলের তুলনামূলক পরীক্ষা অন্তর্ভুক্ত

অপূর্ণতা

  1. সীমিত কর্মক্ষমতা: 60% নির্ভুলতা তুলনামূলকভাবে কম
  2. তুলনা অনুপস্থিত: অন্যান্য পদ্ধতির সাথে সরাসরি তুলনা করা যায় না
  3. বিশ্লেষণ অপর্যাপ্ত: ব্যর্থতার ক্ষেত্রে গভীর বিশ্লেষণ অনুপস্থিত
  4. সাধারণীকরণ অজানা: শুধুমাত্র একক ডেটাসেটে যাচাই করা

প্রভাব

  1. অগ্রগামী: হ্যান্ড সাইন স্বীকৃতির জন্য নতুন প্রযুক্তিগত পথ প্রদান করা
  2. ব্যবহারিকতা: দক্ষ পদ্ধতি বাস্তব প্রয়োগ স্থাপনের জন্য উপকারী
  3. সম্প্রসারণযোগ্যতা: পরবর্তী গবেষণার জন্য ভাল ভিত্তি প্রদান করা
  4. সামাজিক মূল্য: বধির জনগোষ্ঠীর প্রযুক্তিগত অ্যাক্সেসযোগ্যতা উন্নত করতে সহায়তা করা

প্রযোজ্য দৃশ্যকল্প

  1. সম্পদ-সীমিত পরিবেশ: মোবাইল ডিভাইস, এজ কম্পিউটিং দৃশ্যকল্প
  2. রিয়েল-টাইম প্রয়োগ: দ্রুত প্রতিক্রিয়া প্রয়োজন এমন ইন্টারেক্টিভ সিস্টেম
  3. বৃহৎ-স্কেল স্থাপনা: বিশাল পরিমাণ ভিডিও ডেটা প্রক্রিয়াকরণের প্রয়োজন এমন দৃশ্যকল্প
  4. গবেষণা প্রোটোটাইপ: আরও জটিল সিস্টেমের ভিত্তি উপাদান হিসাবে

তথ্যসূত্র

পেপারটি একাধিক গুরুত্বপূর্ণ সম্পর্কিত কাজ উদ্ধৃত করেছে, যার মধ্যে রয়েছে:

  • BOBSL ডেটাসেট সম্পর্কিত পেপার 3
  • MediaPipe কীপয়েন্ট নিষ্কাশন ফ্রেমওয়ার্ক 13
  • Transformer আর্কিটেকচার মূল পেপার 18
  • হ্যান্ড সাইন স্বীকৃতি সম্পর্কিত গবেষণা 1,2,6
  • ক্রিয়া স্বীকৃতিতে গ্রাফ নিউরাল নেটওয়ার্ক প্রয়োগ 21

সামগ্রিক মূল্যায়ন: এটি একটি অগ্রগামী তাৎপর্যপূর্ণ পেপার যা প্রথমবার BSL স্বীকৃতি কাজে কীপয়েন্ট-ভিত্তিক পদ্ধতি প্রয়োগ করেছে। যদিও নির্ভুলতার ক্ষেত্রে এখনও উন্নতির জায়গা রয়েছে, তবে গণনামূলক দক্ষতার ক্ষেত্রে এর উল্লেখযোগ্য সুবিধা এটিকে গুরুত্বপূর্ণ ব্যবহারিক মূল্য প্রদান করে। এই কাজ হ্যান্ড সাইন স্বীকৃতি ক্ষেত্রের জন্য একটি নতুন গবেষণা দিকনির্দেশনা প্রদান করে, বিশেষত সম্পদ-সীমিত এবং রিয়েল-টাইম প্রয়োগ দৃশ্যকল্পে গুরুত্বপূর্ণ।