2025-11-15T20:37:12.035510

End-to-end Automatic Speech Recognition and Speech Translation: Integration of Speech Foundational Models and LLMs

Luu, Bojar

Speech Translation (ST) is a machine translation task that involves converting speech signals from one language to the corresponding text in another language; this task has two different approaches, namely the traditional cascade and the more recent end-to-end. This paper explores a combined end-to-end architecture of pre-trained speech encoders and Large Language Models (LLMs) for performing both Automatic Speech Recognition (ASR) and ST simultaneously. Experiments with the English-to-German language pair show that our best model not only can achieve better translation results than SeamlessM4T, a large foundational end-to-end, multi-modal translation model, but can also match the performance of a cascaded system with Whisper and NLLB, with up to a score gain of 8% in $\text{COMET}^{\text{DA}}_{22}$ metric.

academic

শেষ থেকে শেষ পর্যন্ত স্বয়ংক্রিয় বক্তৃতা স্বীকৃতি এবং বক্তৃতা অনুবাদ: বক্তৃতা ভিত্তিক মডেল এবং LLM-এর একীকরণ

মৌলিক তথ্য

পেপার আইডি: 2510.10329
শিরোনাম: End-to-end Automatic Speech Recognition and Speech Translation: Integration of Speech Foundational Models and LLMs
লেখক: Nam Luu, Ondřej Bojar (চার্লস বিশ্ববিদ্যালয়)
শ্রেণীবিভাগ: cs.CL
প্রকাশনার সময়: ২০২৫ সালের ১১ অক্টোবর (arXiv প্রি-প্রিন্ট)
পেপার লিঙ্ক: https://arxiv.org/abs/2510.10329v1

সারসংক্ষেপ

বক্তৃতা অনুবাদ (ST) একটি মেশিন অনুবাদ কাজ যা একটি ভাষার বক্তৃতা সংকেতকে অন্য ভাষায় সংশ্লিষ্ট পাঠে রূপান্তরিত করে; এই কাজটির দুটি ভিন্ন পদ্ধতি রয়েছে, যথা ঐতিহ্যবাহী ক্যাসকেড এবং আরও সাম্প্রতিক শেষ থেকে শেষ পর্যন্ত। এই পেপারটি স্বয়ংক্রিয় বক্তৃতা স্বীকৃতি (ASR) এবং ST উভয়ই একযোগে সম্পাদনের জন্য প্রাক-প্রশিক্ষিত বক্তৃতা এনকোডার এবং বৃহৎ ভাষা মডেল (LLM)-এর একটি সম্মিলিত শেষ থেকে শেষ পর্যন্ত স্থাপত্য অন্বেষণ করে। ইংরেজি-থেকে-জার্মান ভাষা জোড়ের সাথে পরীক্ষা-নিরীক্ষা দেখায় যে আমাদের সেরা মডেল শুধুমাত্র SeamlessM4T-এর চেয়ে ভাল অনুবাদ ফলাফল অর্জন করতে পারে না, বরং Whisper এবং NLLB-সহ একটি ক্যাসকেড সিস্টেমের কর্মক্ষমতার সাথে মেলে, $\text{COMET}^{\text{DA}}_{22}$ মেট্রিকে ৮% পর্যন্ত স্কোর লাভ সহ।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যার সংজ্ঞা

এই গবেষণা বক্তৃতা অনুবাদ (Speech Translation, ST) কাজে দক্ষতা এবং কর্মক্ষমতার সমস্যা সমাধানের লক্ষ্য রাখে। বক্তৃতা অনুবাদের জন্য একটি ভাষার বক্তৃতা সংকেতকে সরাসরি অন্য ভাষার পাঠে রূপান্তরিত করা প্রয়োজন, যা ঐতিহ্যগতভাবে ক্যাসকেড পদ্ধতি (ASR→MT) বা শেষ থেকে শেষ পর্যন্ত পদ্ধতি ব্যবহার করে।

গবেষণার গুরুত্ব

১. স্থাপত্য সরলীকরণ: শেষ থেকে শেষ পর্যন্ত পদ্ধতি মধ্যবর্তী ASR পদক্ষেপ এড়াতে পারে, সামগ্রিক সিস্টেম স্থাপত্য সরল করে २. ত্রুটি প্রচার: ক্যাসকেড সিস্টেম ত্রুটি প্রচারের সমস্যা রয়েছে, ASR পর্যায়ের ত্রুটি পরবর্তী অনুবাদ গুণমানকে প্রভাবিত করে ३. LLM সম্ভাবনা: বৃহৎ ভাষা মডেল প্রাকৃতিক ভাষা কাজে শক্তিশালী ক্ষমতা প্রদর্শন করে, কিন্তু বহু-মোডাল কাজে তাদের প্রয়োগ এখনও অন্বেষণ করা প্রয়োজন

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

१. ডেটা স্বল্পতা: বক্তৃতা অনুবাদের সমান্তরাল প্রশিক্ষণ ডেটা তুলনামূলকভাবে বিরল, বিশেষত নিম্ন-সম্পদ ভাষার জন্য २. মডেল দক্ষতা: বিদ্যমান শেষ থেকে শেষ পর্যন্ত মডেল অনুমান গতি এবং মডেল আকারের ক্ষেত্রে চ্যালেঞ্জের মুখোমুখি হয় ३. কর্মক্ষমতা ব্যবধান: শেষ থেকে শেষ পর্যন্ত মডেল কিছু ক্ষেত্রে এখনও ক্যাসকেড সিস্টেমের কর্মক্ষমতার সাথে প্রতিযোগিতা করতে পারে না

গবেষণা প্রেরণা

প্রাক-প্রশিক্ষিত বক্তৃতা এনকোডারের উচ্চ-মানের অডিও প্রতিনিধিত্ব ক্ষমতা এবং LLM-এর শক্তিশালী ভাষা প্রক্রিয়াকরণ ক্ষমতা একত্রিত করে, একটি এমন শেষ থেকে শেষ পর্যন্ত স্থাপত্য তৈরি করা যা ASR এবং ST কাজ একযোগে সম্পাদন করতে পারে।

মূল অবদান

१. বক্তৃতা ভিত্তিক মডেল এবং LLM-এর একীকরণের একটি শেষ থেকে শেষ পর্যন্ত স্থাপত্য প্রস্তাব করেছে, যা স্বয়ংক্রিয় বক্তৃতা স্বীকৃতি এবং বক্তৃতা অনুবাদ কাজ একযোগে সম্পাদন করতে পারে २. কার্যকর মোডাল অভিযোজন প্রক্রিয়া ডিজাইন করেছে, যার মধ্যে CTC ফোল্ডিং এবং কনভোলিউশনাল ডাউনস্যাম্পলিং দুটি দৈর্ঘ্য অ্যাডাপ্টার রয়েছে ३. ইংরেজি-জার্মান ভাষা জোড়ে SeamlessM4T-এর চেয়ে ভাল অনুবাদ কর্মক্ষমতা অর্জন করেছে, এবং Whisper+NLLB ক্যাসকেড সিস্টেমের কর্মক্ষমতার কাছাকাছি ४. বিভিন্ন LLM এবং বক্তৃতা এনকোডার সমন্বয়ের প্রভাব তুলনা করে বিস্তারিত পরীক্ষামূলক বিশ্লেষণ প্রদান করেছে

পদ্ধতির বিস্তারিত বর্ণনা

কাজের সংজ্ঞা

ইনপুট: উৎস ভাষার বক্তৃতা সংকেত
আউটপুট: একযোগে উৎস ভাষা প্রতিলিপি এবং লক্ষ্য ভাষা অনুবাদ পাঠ তৈরি করা
সীমাবদ্ধতা: শেষ থেকে শেষ পর্যন্ত প্রশিক্ষণ, মধ্যবর্তী তদারকি সংকেতের প্রয়োজন নেই

মডেল স্থাপত্য

সামগ্রিক স্থাপত্যে তিনটি প্রধান উপাদান রয়েছে:

१. বক্তৃতা এনকোডার (Speech Encoder)

HuBERT: hubert-large-ls960-ft বৈকল্পিক ব্যবহার করে, LibriLight ৬০,০০০ ঘন্টা ডেটায় প্রশিক্ষিত, LibriSpeech ৯৬০ ঘন্টা ডেটায় সূক্ষ্ম-সুর করা
Whisper এনকোডার: whisper-large-v3-turbo-এর এনকোডার অংশ ব্যবহার করে অডিও লুকানো বৈশিষ্ট্য নিষ্কাশন করা

२. দৈর্ঘ্য অ্যাডাপ্টার (Length Adapter)

যেহেতু বক্তৃতা বৈশিষ্ট্য ক্রম LLM দ্বারা সমর্থিত সর্বাধিক দৈর্ঘ্য অতিক্রম করতে পারে, সংকোচন প্রয়োজন:

CTC ফোল্ডিং (HuBERT-এর জন্য):
- CTC স্তর দ্বারা পূর্বাভাসিত লেবেল ব্যবহার করা
- পুনরাবৃত্ত লেবেলের সাথে সংশ্লিষ্ট ভেক্টরগুলি গড় করে একত্রিত করা
- ক্রম দৈর্ঘ্য কার্যকরভাবে সংকুচিত করা এবং শব্দার্থিক তথ্য বজায় রাখা
কনভোলিউশনাল ডাউনস্যাম্পলিং (Whisper-এর জন্য):
- kernel size=5, stride=5 সহ কনভোলিউশনাল স্তর ব্যবহার করা
- বৈশিষ্ট্য ক্রমে সরাসরি ৫ গুণ ডাউনস্যাম্পলিং করা

३. প্রজেকশন স্তর (Projection Layer)

একক স্তরের ফিডফরওয়ার্ড নেটওয়ার্ক
বক্তৃতা এনকোডারের লুকানো মাত্রা LLM-এর এম্বেডিং মাত্রায় ম্যাপ করা
বক্তৃতা প্রতিনিধিত্ব LLM-এর এম্বেডিং স্থানে কার্যকরভাবে একীভূত হওয়া নিশ্চিত করা

४. বৃহৎ ভাষা মডেল (LLMs)

চারটি ভিন্ন প্রাক-প্রশিক্ষিত LLM পরীক্ষা করা হয়েছে:

Gemma 7B (gemma-7b)
Gemma 2 9B (gemma-2-9b)
Llama 2 7B (Llama-2-7b-hf)
Mistral 7B v0.1 (Mistral-7B-v0.1)

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

१. একীভূত বহু-কাজ শেখার কাঠামো: বিশেষ বিভাজক টোকেনের মাধ্যমে ASR এবং ST-এর একযোগে প্রশিক্ষণ এবং অনুমান সক্ষম করা २. মোডাল অভিযোজন কৌশল: বিভিন্ন বক্তৃতা এনকোডারের জন্য বিশেষায়িত দৈর্ঘ্য সংকোচন পদ্ধতি ডিজাইন করা ३. দক্ষ সূক্ষ্ম-সুর করা: QLoRA (Quantized Low-Rank Adaptation) প্রযুক্তি ব্যবহার করে প্যারামিটার-দক্ষ সূক্ষ্ম-সুর করা

প্রশিক্ষণ কৌশল

ডেটা বিন্যাস

<bos> <>audio<> {audio features} <>transcript<> {transcript} <>translation<> {translation} <eos>

ক্ষতি গণনা

শুধুমাত্র <>transcript<> এর পরে টোকেনগুলির জন্য ক্রস-এন্ট্রপি ক্ষতি গণনা করা
পরবর্তী-টোকেন-পূর্বাভাস পদ্ধতি ব্যবহার করে প্রশিক্ষণ দেওয়া

অনুমান বিন্যাস

<bos> <>audio<> {audio features} <>transcript<>

মডেল স্বয়ংক্রিয়ভাবে প্রতিলিপি এবং অনুবাদ পাঠ তৈরি করে।

পরীক্ষামূলক সেটআপ

ডেটাসেট

প্রশিক্ষণ ডেটা: MuST-C v1.0 ইংরেজি-জার্মান উপসেট, প্রায় ৪০০ ঘন্টা অডিও ডেটা
পরীক্ষা ডেটা:
- MuST-C tst-COMMON v2.0 এবং v3.0
- IWSLT'21 এবং '22 অফলাইন ট্র্যাক পরীক্ষা সেট
- LibriSpeech test-clean এবং test-other (ASR মূল্যায়নের জন্য)

মূল্যায়ন মেট্রিক্স

বক্তৃতা অনুবাদ: BLEU, COMET $^{DA}_{22}$ , COMET $^{KIWI-DA}_{22}$
বক্তৃতা স্বীকৃতি: WER (Word Error Rate)

তুলনামূলক পদ্ধতি

ক্যাসকেড সিস্টেম: Whisper (whisper-large-v3-turbo) + NLLB (nllb-200-3.3B)
শেষ থেকে শেষ পর্যন্ত ভিত্তিরেখা: SeamlessM4T (seamless-m4t-v2-large)

বাস্তবায়ন বিবরণ

সূক্ষ্ম-সুর করার পদ্ধতি: 4-bit QLoRA, bfloat16 নির্ভুলতা
LoRA প্যারামিটার: rank=8, alpha=8
ব্যাচ আকার: HuBERT মডেলের জন্য 1, Whisper মডেলের জন্য 2
অপ্টিমাইজার: AdamW, শেখার হার 1e-4, কোসাইন সময়সূচী
প্রশিক্ষণ পদক্ষেপ: HuBERT মডেলের জন্য 500,000 পদক্ষেপ, Whisper মডেলের জন্য 100,000 পদক্ষেপ

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

ASR কর্মক্ষমতা (WER %)

মডেল	MuST-C v2	MuST-C v3	IWSLT'22	LibriSpeech clean	LibriSpeech other
Whisper	6.7	7.7	11.8	4.1	7.2
Whisper enc. + Gemma 2 9B	8.2	8.1	22.6	8.0	13.7
HuBERT + Gemma 2 9B	11.1	12.5	21.9	8.4	13.1

বক্তৃতা অনুবাদ কর্মক্ষমতা (BLEU স্কোর)

মডেল	MuST-C v2	MuST-C v3	IWSLT'21	IWSLT'22
Whisper + NLLB	39.84/31.06	40.30/31.60	43.84/-	41.86/30.48
SeamlessM4T	32.62/22.98	33.36/23.59	35.97/-	34.08/22.68
Whisper enc. + Gemma 2 9B	41.33/31.98	41.16/31.72	40.76/-	39.64/29.18

COMET কর্মক্ষমতা

সেরা মডেল (Whisper enc. + Gemma 2 9B) COMET $^{DA}_{22}$ মেট্রিকে:

MuST-C v2: 84.22 (বনাম 83.00 ক্যাসকেড সিস্টেম)
MuST-C v3: 83.65 (বনাম 82.49 ক্যাসকেড সিস্টেম)
SeamlessM4T-এর তুলনায় প্রায় ৮% উন্নতি

বিলোপন পরীক্ষা অনুসন্ধান

१. LLM নির্বাচন: Gemma 2 9B সমস্ত পরীক্ষায় সেরা কর্মক্ষমতা দেখায় २. এনকোডার তুলনা: Whisper এনকোডার সাধারণত HuBERT-এর চেয়ে ভাল ३. অ্যাডাপ্টার প্রভাব: CTC ফোল্ডিং এবং কনভোলিউশনাল ডাউনস্যাম্পলিং উভয়ই ক্রম দৈর্ঘ্য কার্যকরভাবে সংকুচিত করতে পারে

পরীক্ষামূলক অনুসন্ধান

१. শেষ থেকে শেষ পর্যন্ত বনাম ক্যাসকেড: সেরা শেষ থেকে শেষ পর্যন্ত মডেল ক্যাসকেড সিস্টেমের কর্মক্ষমতার কাছাকাছি বা অতিক্রম করতে পারে २. মডেল আকার: বৃহত্তর LLM (Gemma 2 9B) ভাল কর্মক্ষমতা নিয়ে আসে ३. বক্তৃতা প্রতিনিধিত্ব: প্রাক-প্রশিক্ষিত বক্তৃতা এনকোডারের গুণমান চূড়ান্ত কর্মক্ষমতা সরাসরি প্রভাবিত করে

উপসংহার এবং আলোচনা

প্রধান উপসংহার

१. প্রাক-প্রশিক্ষিত বক্তৃতা এনকোডার এবং LLM-এর একীকরণের শেষ থেকে শেষ পর্যন্ত স্থাপত্য ইংরেজি-জার্মান বক্তৃতা অনুবাদ কাজে প্রতিযোগিতামূলক কর্মক্ষমতা অর্জন করেছে २. সেরা মডেল শুধুমাত্র SeamlessM4T-কে অতিক্রম করেনি, বরং Whisper+NLLB ক্যাসকেড সিস্টেমের কর্মক্ষমতার কাছাকাছি এসেছে ३. মডেল ASR এবং ST কাজ একযোগে সম্পাদন করতে পারে, একটি একীভূত সমাধান প্রদান করে

সীমাবদ্ধতা

१. ডেটা সীমাবদ্ধতা: শুধুমাত্র ইংরেজি-জার্মান উচ্চ-সম্পদ ভাষা জোড়ে যাচাই করা হয়েছে, নিম্ন-সম্পদ ভাষার প্রভাব অজানা २. গণনামূলক দক্ষতা: ভিত্তিরেখা মডেলের তুলনায়, অনুমান গতি ধীর, মডেল আকার বৃহত্তর ३. ASR কর্মক্ষমতা: বক্তৃতা স্বীকৃতি কাজে এখনও বিশেষায়িত Whisper মডেলের চেয়ে পিছিয়ে আছে ४. প্রশিক্ষণ ডেটা: MuST-C ডেটাসেট তুলনামূলকভাবে ছোট (৪০০ ঘন্টা), মডেল সম্ভাবনা সীমিত করতে পারে

ভবিষ্যত দিক

१. ভাষা জোড় সম্প্রসারণ: আরও ভাষা দিকে প্রভাব যাচাই করা २. মডেল সংকোচন: জ্ঞান পাতন ইত্যাদি প্রযুক্তির মাধ্যমে মডেল আকার হ্রাস করা ३. অ্যাডাপ্টার উন্নতি: Q-Former ইত্যাদি আরও উন্নত মোডাল অভিযোজন পদ্ধতি চেষ্টা করা ४. শক্তিশালী শেখা: কর্মক্ষমতা আরও অপ্টিমাইজ করতে RL প্রযুক্তি একীভূত করা

গভীর মূল্যায়ন

শক্তি

१. উদ্ভাবনী স্থাপত্য: বক্তৃতা ভিত্তিক মডেল এবং LLM-এর সুবিধা কার্যকরভাবে একত্রিত করা २. পর্যাপ্ত পরীক্ষা: একাধিক এনকোডার এবং LLM সমন্বয়ের পদ্ধতিগত তুলনা ३. ব্যবহারিক মূল্য: শেষ থেকে শেষ পর্যন্ত একীভূত সমাধান প্রদান করা ४. প্রযুক্তিগত বিবরণ: মোডাল অভিযোজন এবং প্রশিক্ষণ কৌশল বিস্তারিত বর্ণনা ५. খোলামেলাতা: খোলা উৎস মডেল ব্যবহার, পুনরুৎপাদন সহজ করা

অপূর্ণতা

१. ভাষা কভারেজ: শুধুমাত্র ইংরেজি-জার্মান একক ভাষা জোড়ে যাচাই করা, সাধারণীকরণ সীমিত २. গণনামূলক খরচ: প্রশিক্ষণ এবং অনুমানের গণনামূলক ওভারহেড বিস্তারিত বিশ্লেষণ করা হয়নি ३. ত্রুটি বিশ্লেষণ: মডেল ব্যর্থতার ক্ষেত্রে গভীর বিশ্লেষণ অনুপস্থিত ४. তাত্ত্বিক বিশ্লেষণ: এই স্থাপত্য কেন কার্যকর তার তাত্ত্বিক ব্যাখ্যা অনুপস্থিত ५. ডেটা নির্ভরতা: প্রশিক্ষণ ডেটা আকারের প্রতি সংবেদনশীলতা বিশ্লেষণ অপর্যাপ্ত

প্রভাব

१. একাডেমিক অবদান: বক্তৃতা অনুবাদ ক্ষেত্রে নতুন শেষ থেকে শেষ পর্যন্ত সমাধান প্রদান করা २. ব্যবহারিক মূল্য: বাস্তব বহু-ভাষিক বক্তৃতা প্রক্রিয়াকরণ সিস্টেমে প্রয়োগ করা যায় ३. পুনরুৎপাদনযোগ্যতা: খোলা উৎস উপাদান ব্যবহার, পরবর্তী গবেষণা সহজ করা ४. অনুপ্রেরণা: বহু-মোডাল LLM-এর প্রয়োগের জন্য মূল্যবান অন্বেষণ প্রদান করা

প্রযোজ্য পরিস্থিতি

१. বহু-ভাষিক সম্মেলন: রিয়েল-টাইম বক্তৃতা অনুবাদ এবং প্রতিলিপি २. শিক্ষা প্ল্যাটফর্ম: বহু-ভাষিক অনলাইন কোর্সের স্বয়ংক্রিয় সাবটাইটেল এবং অনুবাদ ३. গ্রাহক সেবা: ক্রস-ভাষা বক্তৃতা মিথস্ক্রিয়া সিস্টেম ४. মিডিয়া প্রক্রিয়াকরণ: অডিও বিষয়বস্তুর স্বয়ংক্রিয় প্রতিলিপি এবং অনুবাদ

তথ্যসূত্র

পেপারটি বক্তৃতা অনুবাদ, বৃহৎ ভাষা মডেল, বহু-মোডাল শেখা ইত্যাদি ক্ষেত্রের গুরুত্বপূর্ণ কাজ উদ্ধৃত করেছে, যার মধ্যে রয়েছে:

Whisper (Radford et al., 2022): শক্তিশালী বক্তৃতা স্বীকৃতি ভিত্তিক মডেল
SeamlessM4T (Communication et al., 2023): বহু-মোডাল অনুবাদ মডেল ভিত্তিরেখা
MuST-C (Cattoni et al., 2021): মান বক্তৃতা অনুবাদ ডেটাসেট
QLoRA (Dettmers et al., 2023): প্যারামিটার-দক্ষ সূক্ষ্ম-সুর করার প্রযুক্তি

এই পেপারটি বক্তৃতা অনুবাদ ক্ষেত্রে একটি প্রতিশ্রুতিশীল শেষ থেকে শেষ পর্যন্ত সমাধান প্রস্তাব করেছে, যদিও কিছু দিকে উন্নতির অবকাশ রয়েছে, তবে বহু-মোডাল LLM-এর প্রয়োগের জন্য মূল্যবান অন্বেষণ এবং অভিজ্ঞতামূলক ফলাফল প্রদান করেছে।