বক্তৃতা অনুবাদ (ST) একটি মেশিন অনুবাদ কাজ যা একটি ভাষার বক্তৃতা সংকেতকে অন্য ভাষায় সংশ্লিষ্ট পাঠে রূপান্তরিত করে; এই কাজটির দুটি ভিন্ন পদ্ধতি রয়েছে, যথা ঐতিহ্যবাহী ক্যাসকেড এবং আরও সাম্প্রতিক শেষ থেকে শেষ পর্যন্ত। এই পেপারটি স্বয়ংক্রিয় বক্তৃতা স্বীকৃতি (ASR) এবং ST উভয়ই একযোগে সম্পাদনের জন্য প্রাক-প্রশিক্ষিত বক্তৃতা এনকোডার এবং বৃহৎ ভাষা মডেল (LLM)-এর একটি সম্মিলিত শেষ থেকে শেষ পর্যন্ত স্থাপত্য অন্বেষণ করে। ইংরেজি-থেকে-জার্মান ভাষা জোড়ের সাথে পরীক্ষা-নিরীক্ষা দেখায় যে আমাদের সেরা মডেল শুধুমাত্র SeamlessM4T-এর চেয়ে ভাল অনুবাদ ফলাফল অর্জন করতে পারে না, বরং Whisper এবং NLLB-সহ একটি ক্যাসকেড সিস্টেমের কর্মক্ষমতার সাথে মেলে, মেট্রিকে ৮% পর্যন্ত স্কোর লাভ সহ।
এই গবেষণা বক্তৃতা অনুবাদ (Speech Translation, ST) কাজে দক্ষতা এবং কর্মক্ষমতার সমস্যা সমাধানের লক্ষ্য রাখে। বক্তৃতা অনুবাদের জন্য একটি ভাষার বক্তৃতা সংকেতকে সরাসরি অন্য ভাষার পাঠে রূপান্তরিত করা প্রয়োজন, যা ঐতিহ্যগতভাবে ক্যাসকেড পদ্ধতি (ASR→MT) বা শেষ থেকে শেষ পর্যন্ত পদ্ধতি ব্যবহার করে।
১. স্থাপত্য সরলীকরণ: শেষ থেকে শেষ পর্যন্ত পদ্ধতি মধ্যবর্তী ASR পদক্ষেপ এড়াতে পারে, সামগ্রিক সিস্টেম স্থাপত্য সরল করে २. ত্রুটি প্রচার: ক্যাসকেড সিস্টেম ত্রুটি প্রচারের সমস্যা রয়েছে, ASR পর্যায়ের ত্রুটি পরবর্তী অনুবাদ গুণমানকে প্রভাবিত করে ३. LLM সম্ভাবনা: বৃহৎ ভাষা মডেল প্রাকৃতিক ভাষা কাজে শক্তিশালী ক্ষমতা প্রদর্শন করে, কিন্তু বহু-মোডাল কাজে তাদের প্রয়োগ এখনও অন্বেষণ করা প্রয়োজন
१. ডেটা স্বল্পতা: বক্তৃতা অনুবাদের সমান্তরাল প্রশিক্ষণ ডেটা তুলনামূলকভাবে বিরল, বিশেষত নিম্ন-সম্পদ ভাষার জন্য २. মডেল দক্ষতা: বিদ্যমান শেষ থেকে শেষ পর্যন্ত মডেল অনুমান গতি এবং মডেল আকারের ক্ষেত্রে চ্যালেঞ্জের মুখোমুখি হয় ३. কর্মক্ষমতা ব্যবধান: শেষ থেকে শেষ পর্যন্ত মডেল কিছু ক্ষেত্রে এখনও ক্যাসকেড সিস্টেমের কর্মক্ষমতার সাথে প্রতিযোগিতা করতে পারে না
প্রাক-প্রশিক্ষিত বক্তৃতা এনকোডারের উচ্চ-মানের অডিও প্রতিনিধিত্ব ক্ষমতা এবং LLM-এর শক্তিশালী ভাষা প্রক্রিয়াকরণ ক্ষমতা একত্রিত করে, একটি এমন শেষ থেকে শেষ পর্যন্ত স্থাপত্য তৈরি করা যা ASR এবং ST কাজ একযোগে সম্পাদন করতে পারে।
१. বক্তৃতা ভিত্তিক মডেল এবং LLM-এর একীকরণের একটি শেষ থেকে শেষ পর্যন্ত স্থাপত্য প্রস্তাব করেছে, যা স্বয়ংক্রিয় বক্তৃতা স্বীকৃতি এবং বক্তৃতা অনুবাদ কাজ একযোগে সম্পাদন করতে পারে २. কার্যকর মোডাল অভিযোজন প্রক্রিয়া ডিজাইন করেছে, যার মধ্যে CTC ফোল্ডিং এবং কনভোলিউশনাল ডাউনস্যাম্পলিং দুটি দৈর্ঘ্য অ্যাডাপ্টার রয়েছে ३. ইংরেজি-জার্মান ভাষা জোড়ে SeamlessM4T-এর চেয়ে ভাল অনুবাদ কর্মক্ষমতা অর্জন করেছে, এবং Whisper+NLLB ক্যাসকেড সিস্টেমের কর্মক্ষমতার কাছাকাছি ४. বিভিন্ন LLM এবং বক্তৃতা এনকোডার সমন্বয়ের প্রভাব তুলনা করে বিস্তারিত পরীক্ষামূলক বিশ্লেষণ প্রদান করেছে
সামগ্রিক স্থাপত্যে তিনটি প্রধান উপাদান রয়েছে:
hubert-large-ls960-ft বৈকল্পিক ব্যবহার করে, LibriLight ৬০,০০০ ঘন্টা ডেটায় প্রশিক্ষিত, LibriSpeech ৯৬০ ঘন্টা ডেটায় সূক্ষ্ম-সুর করাwhisper-large-v3-turbo-এর এনকোডার অংশ ব্যবহার করে অডিও লুকানো বৈশিষ্ট্য নিষ্কাশন করাযেহেতু বক্তৃতা বৈশিষ্ট্য ক্রম LLM দ্বারা সমর্থিত সর্বাধিক দৈর্ঘ্য অতিক্রম করতে পারে, সংকোচন প্রয়োজন:
চারটি ভিন্ন প্রাক-প্রশিক্ষিত LLM পরীক্ষা করা হয়েছে:
gemma-7b)gemma-2-9b)Llama-2-7b-hf)Mistral-7B-v0.1)१. একীভূত বহু-কাজ শেখার কাঠামো: বিশেষ বিভাজক টোকেনের মাধ্যমে ASR এবং ST-এর একযোগে প্রশিক্ষণ এবং অনুমান সক্ষম করা २. মোডাল অভিযোজন কৌশল: বিভিন্ন বক্তৃতা এনকোডারের জন্য বিশেষায়িত দৈর্ঘ্য সংকোচন পদ্ধতি ডিজাইন করা ३. দক্ষ সূক্ষ্ম-সুর করা: QLoRA (Quantized Low-Rank Adaptation) প্রযুক্তি ব্যবহার করে প্যারামিটার-দক্ষ সূক্ষ্ম-সুর করা
<bos> <>audio<> {audio features} <>transcript<> {transcript} <>translation<> {translation} <eos>
<>transcript<> এর পরে টোকেনগুলির জন্য ক্রস-এন্ট্রপি ক্ষতি গণনা করা<bos> <>audio<> {audio features} <>transcript<>
মডেল স্বয়ংক্রিয়ভাবে প্রতিলিপি এবং অনুবাদ পাঠ তৈরি করে।
whisper-large-v3-turbo) + NLLB (nllb-200-3.3B)seamless-m4t-v2-large)| মডেল | MuST-C v2 | MuST-C v3 | IWSLT'22 | LibriSpeech clean | LibriSpeech other |
|---|---|---|---|---|---|
| Whisper | 6.7 | 7.7 | 11.8 | 4.1 | 7.2 |
| Whisper enc. + Gemma 2 9B | 8.2 | 8.1 | 22.6 | 8.0 | 13.7 |
| HuBERT + Gemma 2 9B | 11.1 | 12.5 | 21.9 | 8.4 | 13.1 |
| মডেল | MuST-C v2 | MuST-C v3 | IWSLT'21 | IWSLT'22 |
|---|---|---|---|---|
| Whisper + NLLB | 39.84/31.06 | 40.30/31.60 | 43.84/- | 41.86/30.48 |
| SeamlessM4T | 32.62/22.98 | 33.36/23.59 | 35.97/- | 34.08/22.68 |
| Whisper enc. + Gemma 2 9B | 41.33/31.98 | 41.16/31.72 | 40.76/- | 39.64/29.18 |
সেরা মডেল (Whisper enc. + Gemma 2 9B) COMET মেট্রিকে:
१. LLM নির্বাচন: Gemma 2 9B সমস্ত পরীক্ষায় সেরা কর্মক্ষমতা দেখায় २. এনকোডার তুলনা: Whisper এনকোডার সাধারণত HuBERT-এর চেয়ে ভাল ३. অ্যাডাপ্টার প্রভাব: CTC ফোল্ডিং এবং কনভোলিউশনাল ডাউনস্যাম্পলিং উভয়ই ক্রম দৈর্ঘ্য কার্যকরভাবে সংকুচিত করতে পারে
१. শেষ থেকে শেষ পর্যন্ত বনাম ক্যাসকেড: সেরা শেষ থেকে শেষ পর্যন্ত মডেল ক্যাসকেড সিস্টেমের কর্মক্ষমতার কাছাকাছি বা অতিক্রম করতে পারে २. মডেল আকার: বৃহত্তর LLM (Gemma 2 9B) ভাল কর্মক্ষমতা নিয়ে আসে ३. বক্তৃতা প্রতিনিধিত্ব: প্রাক-প্রশিক্ষিত বক্তৃতা এনকোডারের গুণমান চূড়ান্ত কর্মক্ষমতা সরাসরি প্রভাবিত করে
१. ক্যাসকেড পদ্ধতি: ঐতিহ্যবাহী ASR+MT পাইপলাইন, এখনও বর্তমান প্রধান পদ্ধতি २. শেষ থেকে শেষ পর্যন্ত পদ্ধতি: বক্তৃতা থেকে সরাসরি লক্ষ্য ভাষা পাঠ, মধ্যবর্তী প্রতিনিধিত্ব এড়ানো ३. বহু-মোডাল LLM: LLM-কে বক্তৃতা ইত্যাদি অন্যান্য মোডালে প্রসারিত করার সর্বশেষ গবেষণা
१. একীভূত কাঠামো: ASR এবং ST কাজ একযোগে পরিচালনা করা, একক কাজ অপ্টিমাইজেশন নয় २. মডুলার ডিজাইন: বিভিন্ন বক্তৃতা এনকোডার এবং LLM উপাদান নমনীয়ভাবে প্রতিস্থাপন করা যায় ३. ব্যবহারিকতা: প্রতিযোগিতামূলক কর্মক্ষমতা বজায় রেখে শেষ থেকে শেষ পর্যন্ত সমাধান প্রদান করা
१. প্রাক-প্রশিক্ষিত বক্তৃতা এনকোডার এবং LLM-এর একীকরণের শেষ থেকে শেষ পর্যন্ত স্থাপত্য ইংরেজি-জার্মান বক্তৃতা অনুবাদ কাজে প্রতিযোগিতামূলক কর্মক্ষমতা অর্জন করেছে २. সেরা মডেল শুধুমাত্র SeamlessM4T-কে অতিক্রম করেনি, বরং Whisper+NLLB ক্যাসকেড সিস্টেমের কর্মক্ষমতার কাছাকাছি এসেছে ३. মডেল ASR এবং ST কাজ একযোগে সম্পাদন করতে পারে, একটি একীভূত সমাধান প্রদান করে
१. ডেটা সীমাবদ্ধতা: শুধুমাত্র ইংরেজি-জার্মান উচ্চ-সম্পদ ভাষা জোড়ে যাচাই করা হয়েছে, নিম্ন-সম্পদ ভাষার প্রভাব অজানা २. গণনামূলক দক্ষতা: ভিত্তিরেখা মডেলের তুলনায়, অনুমান গতি ধীর, মডেল আকার বৃহত্তর ३. ASR কর্মক্ষমতা: বক্তৃতা স্বীকৃতি কাজে এখনও বিশেষায়িত Whisper মডেলের চেয়ে পিছিয়ে আছে ४. প্রশিক্ষণ ডেটা: MuST-C ডেটাসেট তুলনামূলকভাবে ছোট (৪০০ ঘন্টা), মডেল সম্ভাবনা সীমিত করতে পারে
१. ভাষা জোড় সম্প্রসারণ: আরও ভাষা দিকে প্রভাব যাচাই করা २. মডেল সংকোচন: জ্ঞান পাতন ইত্যাদি প্রযুক্তির মাধ্যমে মডেল আকার হ্রাস করা ३. অ্যাডাপ্টার উন্নতি: Q-Former ইত্যাদি আরও উন্নত মোডাল অভিযোজন পদ্ধতি চেষ্টা করা ४. শক্তিশালী শেখা: কর্মক্ষমতা আরও অপ্টিমাইজ করতে RL প্রযুক্তি একীভূত করা
१. উদ্ভাবনী স্থাপত্য: বক্তৃতা ভিত্তিক মডেল এবং LLM-এর সুবিধা কার্যকরভাবে একত্রিত করা २. পর্যাপ্ত পরীক্ষা: একাধিক এনকোডার এবং LLM সমন্বয়ের পদ্ধতিগত তুলনা ३. ব্যবহারিক মূল্য: শেষ থেকে শেষ পর্যন্ত একীভূত সমাধান প্রদান করা ४. প্রযুক্তিগত বিবরণ: মোডাল অভিযোজন এবং প্রশিক্ষণ কৌশল বিস্তারিত বর্ণনা ५. খোলামেলাতা: খোলা উৎস মডেল ব্যবহার, পুনরুৎপাদন সহজ করা
१. ভাষা কভারেজ: শুধুমাত্র ইংরেজি-জার্মান একক ভাষা জোড়ে যাচাই করা, সাধারণীকরণ সীমিত २. গণনামূলক খরচ: প্রশিক্ষণ এবং অনুমানের গণনামূলক ওভারহেড বিস্তারিত বিশ্লেষণ করা হয়নি ३. ত্রুটি বিশ্লেষণ: মডেল ব্যর্থতার ক্ষেত্রে গভীর বিশ্লেষণ অনুপস্থিত ४. তাত্ত্বিক বিশ্লেষণ: এই স্থাপত্য কেন কার্যকর তার তাত্ত্বিক ব্যাখ্যা অনুপস্থিত ५. ডেটা নির্ভরতা: প্রশিক্ষণ ডেটা আকারের প্রতি সংবেদনশীলতা বিশ্লেষণ অপর্যাপ্ত
१. একাডেমিক অবদান: বক্তৃতা অনুবাদ ক্ষেত্রে নতুন শেষ থেকে শেষ পর্যন্ত সমাধান প্রদান করা २. ব্যবহারিক মূল্য: বাস্তব বহু-ভাষিক বক্তৃতা প্রক্রিয়াকরণ সিস্টেমে প্রয়োগ করা যায় ३. পুনরুৎপাদনযোগ্যতা: খোলা উৎস উপাদান ব্যবহার, পরবর্তী গবেষণা সহজ করা ४. অনুপ্রেরণা: বহু-মোডাল LLM-এর প্রয়োগের জন্য মূল্যবান অন্বেষণ প্রদান করা
१. বহু-ভাষিক সম্মেলন: রিয়েল-টাইম বক্তৃতা অনুবাদ এবং প্রতিলিপি २. শিক্ষা প্ল্যাটফর্ম: বহু-ভাষিক অনলাইন কোর্সের স্বয়ংক্রিয় সাবটাইটেল এবং অনুবাদ ३. গ্রাহক সেবা: ক্রস-ভাষা বক্তৃতা মিথস্ক্রিয়া সিস্টেম ४. মিডিয়া প্রক্রিয়াকরণ: অডিও বিষয়বস্তুর স্বয়ংক্রিয় প্রতিলিপি এবং অনুবাদ
পেপারটি বক্তৃতা অনুবাদ, বৃহৎ ভাষা মডেল, বহু-মোডাল শেখা ইত্যাদি ক্ষেত্রের গুরুত্বপূর্ণ কাজ উদ্ধৃত করেছে, যার মধ্যে রয়েছে:
এই পেপারটি বক্তৃতা অনুবাদ ক্ষেত্রে একটি প্রতিশ্রুতিশীল শেষ থেকে শেষ পর্যন্ত সমাধান প্রস্তাব করেছে, যদিও কিছু দিকে উন্নতির অবকাশ রয়েছে, তবে বহু-মোডাল LLM-এর প্রয়োগের জন্য মূল্যবান অন্বেষণ এবং অভিজ্ঞতামূলক ফলাফল প্রদান করেছে।