2025-11-15T20:37:12.035510

End-to-end Automatic Speech Recognition and Speech Translation: Integration of Speech Foundational Models and LLMs

Luu, Bojar

Speech Translation (ST) is a machine translation task that involves converting speech signals from one language to the corresponding text in another language; this task has two different approaches, namely the traditional cascade and the more recent end-to-end. This paper explores a combined end-to-end architecture of pre-trained speech encoders and Large Language Models (LLMs) for performing both Automatic Speech Recognition (ASR) and ST simultaneously. Experiments with the English-to-German language pair show that our best model not only can achieve better translation results than SeamlessM4T, a large foundational end-to-end, multi-modal translation model, but can also match the performance of a cascaded system with Whisper and NLLB, with up to a score gain of 8% in $\text{COMET}^{\text{DA}}_{22}$ metric.

academic

अंत-से-अंत स्वचालित भाषण पहचान और भाषण अनुवाद: भाषण आधारभूत मॉडल और LLM का एकीकरण

बुनियादी जानकारी

पेपर ID: 2510.10329
शीर्षक: End-to-end Automatic Speech Recognition and Speech Translation: Integration of Speech Foundational Models and LLMs
लेखक: Nam Luu, Ondřej Bojar (चार्ल्स विश्वविद्यालय)
वर्गीकरण: cs.CL
प्रकाशन तिथि: 11 अक्टूबर 2025 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2510.10329v1

सारांश

भाषण अनुवाद (Speech Translation, ST) एक मशीन अनुवाद कार्य है जिसमें एक भाषा के भाषण संकेतों को दूसरी भाषा में संबंधित पाठ में परिवर्तित किया जाता है; इस कार्य के दो अलग-अलग दृष्टिकोण हैं, अर्थात् पारंपरिक कैस्केड और अधिक हाल का अंत-से-अंत। यह पेपर स्वचालित भाषण पहचान (ASR) और ST दोनों को एक साथ करने के लिए पूर्व-प्रशिक्षित भाषण एनकोडर और बड़े भाषा मॉडल (LLM) की एकीकृत अंत-से-अंत आर्किटेक्चर की खोज करता है। अंग्रेजी-से-जर्मन भाषा जोड़ी के साथ प्रयोग दिखाते हैं कि हमारा सर्वश्रेष्ठ मॉडल न केवल SeamlessM4T से बेहतर अनुवाद परिणाम प्राप्त कर सकता है, जो एक बड़ा आधारभूत अंत-से-अंत, बहु-मोडल अनुवाद मॉडल है, बल्कि Whisper और NLLB के साथ एक कैस्केड सिस्टम के प्रदर्शन से मेल खा सकता है, $\text{COMET}^{\text{DA}}_{22}$ मीट्रिक में 8% तक का स्कोर लाभ के साथ।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

यह अनुसंधान भाषण अनुवाद (Speech Translation, ST) कार्य में दक्षता और प्रदर्शन समस्याओं को हल करने का लक्ष्य रखता है। भाषण अनुवाद को एक भाषा के भाषण संकेतों को सीधे दूसरी भाषा के पाठ में परिवर्तित करने की आवश्यकता है, जो परंपरागत रूप से कैस्केड विधि (ASR→MT) या अंत-से-अंत विधि का उपयोग करता है।

अनुसंधान का महत्व

आर्किटेक्चर सरलीकरण: अंत-से-अंत विधि मध्यवर्ती ASR चरण से बच सकती है, समग्र सिस्टम आर्किटेक्चर को सरल बनाती है
त्रुटि प्रसार: कैस्केड सिस्टम में त्रुटि प्रसार की समस्या है, ASR चरण की त्रुटियां बाद के अनुवाद गुणवत्ता को प्रभावित करती हैं
LLM क्षमता: बड़े भाषा मॉडल प्राकृतिक भाषा कार्यों पर शक्तिशाली क्षमता प्रदर्शित करते हैं, लेकिन बहु-मोडल कार्यों पर उनका अनुप्रयोग अभी भी अन्वेषण की आवश्यकता है

मौजूदा विधियों की सीमाएं

डेटा की कमी: भाषण अनुवाद के समानांतर प्रशिक्षण डेटा अपेक्षाकृत दुर्लभ हैं, विशेषकर कम संसाधन वाली भाषाओं के लिए
मॉडल दक्षता: मौजूदा अंत-से-अंत मॉडल अनुमान गति और मॉडल आकार के संदर्भ में चुनौतियों का सामना करते हैं
प्रदर्शन अंतर: अंत-से-अंत मॉडल कुछ मामलों में अभी भी कैस्केड सिस्टम के प्रदर्शन से मेल खाना मुश्किल है

अनुसंधान प्रेरणा

पूर्व-प्रशिक्षित भाषण एनकोडर की उच्च-गुणवत्ता ऑडियो प्रतिनिधित्व क्षमता और LLM की शक्तिशाली भाषा प्रसंस्करण क्षमता को जोड़कर, एक ऐसी अंत-से-अंत आर्किटेक्चर बनाना जो ASR और ST कार्यों को एक साथ निष्पादित कर सके।

मुख्य योगदान

भाषण आधारभूत मॉडल और LLM को एकीकृत करने वाली अंत-से-अंत आर्किटेक्चर का प्रस्ताव, जो स्वचालित भाषण पहचान और भाषण अनुवाद कार्यों को एक साथ निष्पादित कर सकती है
प्रभावी मोडल अनुकूलन तंत्र का डिजाइन, जिसमें CTC फोल्डिंग और कनवोलूशनल डाउनसैम्पलिंग दो लंबाई अनुकूलक शामिल हैं
अंग्रेजी-जर्मन भाषा जोड़ी पर SeamlessM4T से बेहतर अनुवाद प्रदर्शन प्राप्त, और Whisper+NLLB कैस्केड सिस्टम के प्रदर्शन के करीब
विस्तृत प्रायोगिक विश्लेषण प्रदान, विभिन्न LLM और भाषण एनकोडर संयोजनों के प्रभाव की तुलना

विधि विवरण

कार्य परिभाषा

इनपुट: स्रोत भाषा का भाषण संकेत
आउटपुट: स्रोत भाषा प्रतिलेख और लक्ष्य भाषा अनुवाद पाठ दोनों को एक साथ उत्पन्न करें
बाधा: अंत-से-अंत प्रशिक्षण, मध्यवर्ती पर्यवेक्षण संकेत की आवश्यकता नहीं

मॉडल आर्किटेक्चर

समग्र आर्किटेक्चर में तीन मुख्य घटक शामिल हैं:

1. भाषण एनकोडर (Speech Encoder)

HuBERT: hubert-large-ls960-ft वेरिएंट का उपयोग, LibriLight 60,000 घंटे डेटा पर प्रशिक्षित, LibriSpeech 960 घंटे डेटा पर सूक्ष्म-समायोजित
Whisper एनकोडर: whisper-large-v3-turbo के एनकोडर भाग का उपयोग ऑडियो छिपी विशेषताओं को निकालने के लिए

2. लंबाई अनुकूलक (Length Adapter)

चूंकि भाषण विशेषता अनुक्रम LLM द्वारा समर्थित अधिकतम लंबाई से अधिक हो सकता है, संपीड़न की आवश्यकता है:

CTC फोल्डिंग (HuBERT के लिए):
- CTC परत द्वारा भविष्यवाणी किए गए लेबल का उपयोग करें
- दोहराए गए लेबल के अनुरूप वेक्टर को औसत करके मर्ज करें
- अनुक्रम लंबाई को प्रभावी रूप से संपीड़ित करते हुए शब्दार्थ जानकारी बनाए रखें
कनवोलूशनल डाउनसैम्पलिंग (Whisper के लिए):
- kernel size=5, stride=5 के साथ कनवोलूशनल परत का उपयोग करें
- विशेषता अनुक्रम को सीधे 5 गुना डाउनसैम्पल करें

3. प्रक्षेपण परत (Projection Layer)

एकल-परत फीडफॉरवर्ड नेटवर्क
भाषण एनकोडर की छिपी आयाम को LLM की एम्बेडिंग आयाम में मैप करें
सुनिश्चित करें कि भाषण प्रतिनिधित्व LLM के एम्बेडिंग स्पेस में प्रभावी रूप से एकीकृत हो

4. बड़े भाषा मॉडल (LLMs)

चार अलग-अलग पूर्व-प्रशिक्षित LLM का प्रयोग किया गया:

Gemma 7B (gemma-7b)
Gemma 2 9B (gemma-2-9b)
Llama 2 7B (Llama-2-7b-hf)
Mistral 7B v0.1 (Mistral-7B-v0.1)

तकनीकी नवाचार बिंदु

एकीकृत बहु-कार्य शिक्षण ढांचा: विशेष विभाजक टोकन के माध्यम से ASR और ST के एक साथ प्रशिक्षण और अनुमान को सक्षम करें
मोडल अनुकूलन रणनीति: विभिन्न भाषण एनकोडर के लिए विशेष लंबाई संपीड़न विधि डिजाइन करें
कुशल सूक्ष्म-समायोजन: पैरामीटर-कुशल सूक्ष्म-समायोजन के लिए QLoRA (Quantized Low-Rank Adaptation) तकनीक का उपयोग करें

प्रशिक्षण रणनीति

डेटा प्रारूप

<bos> <>audio<> {audio features} <>transcript<> {transcript} <>translation<> {translation} <eos>

हानि गणना

केवल <>transcript<> के बाद के टोकन के लिए क्रॉस-एंट्रॉपी हानि की गणना करें
अगले-टोकन-भविष्यवाणी विधि का उपयोग करके प्रशिक्षण दें

अनुमान प्रारूप

<bos> <>audio<> {audio features} <>transcript<>

मॉडल स्वचालित रूप से प्रतिलेख और अनुवाद पाठ उत्पन्न करता है।

प्रायोगिक सेटअप

डेटासेट

प्रशिक्षण डेटा: MuST-C v1.0 अंग्रेजी-जर्मन उपसमुच्चय, लगभग 400 घंटे ऑडियो डेटा
परीक्षण डेटा:
- MuST-C tst-COMMON v2.0 और v3.0
- IWSLT'21 और '22 ऑफलाइन ट्रैक परीक्षण सेट
- LibriSpeech test-clean और test-other (ASR मूल्यांकन के लिए)

मूल्यांकन मेट्रिक्स

भाषण अनुवाद: BLEU, COMET $^{DA}_{22}$ , COMET $^{KIWI-DA}_{22}$
भाषण पहचान: WER (Word Error Rate)

तुलना विधियां

कैस्केड सिस्टम: Whisper (whisper-large-v3-turbo) + NLLB (nllb-200-3.3B)
अंत-से-अंत आधारभूत: SeamlessM4T (seamless-m4t-v2-large)

कार्यान्वयन विवरण

सूक्ष्म-समायोजन विधि: 4-bit QLoRA, bfloat16 सटीकता
LoRA पैरामीटर: rank=8, alpha=8
बैच आकार: HuBERT मॉडल के लिए 1, Whisper मॉडल के लिए 2
अनुकूलक: AdamW, सीखने की दर 1e-4, कोसाइन शेड्यूलर
प्रशिक्षण चरण: HuBERT मॉडल के लिए 500,000 चरण, Whisper मॉडल के लिए 100,000 चरण

प्रायोगिक परिणाम

मुख्य परिणाम

ASR प्रदर्शन (WER %)

मॉडल	MuST-C v2	MuST-C v3	IWSLT'22	LibriSpeech clean	LibriSpeech other
Whisper	6.7	7.7	11.8	4.1	7.2
Whisper enc. + Gemma 2 9B	8.2	8.1	22.6	8.0	13.7
HuBERT + Gemma 2 9B	11.1	12.5	21.9	8.4	13.1

भाषण अनुवाद प्रदर्शन (BLEU स्कोर)

मॉडल	MuST-C v2	MuST-C v3	IWSLT'21	IWSLT'22
Whisper + NLLB	39.84/31.06	40.30/31.60	43.84/-	41.86/30.48
SeamlessM4T	32.62/22.98	33.36/23.59	35.97/-	34.08/22.68
Whisper enc. + Gemma 2 9B	41.33/31.98	41.16/31.72	40.76/-	39.64/29.18

COMET प्रदर्शन

सर्वश्रेष्ठ मॉडल (Whisper enc. + Gemma 2 9B) COMET $^{DA}_{22}$ मीट्रिक पर:

MuST-C v2: 84.22 (बनाम 83.00 कैस्केड सिस्टम)
MuST-C v3: 83.65 (बनाम 82.49 कैस्केड सिस्टम)
SeamlessM4T की तुलना में लगभग 8% सुधार

विलोपन प्रयोग निष्कर्ष

LLM चयन: Gemma 2 9B सभी परीक्षणों में सर्वश्रेष्ठ प्रदर्शन करता है
एनकोडर तुलना: Whisper एनकोडर आम तौर पर HuBERT से बेहतर है
अनुकूलक प्रभाव: CTC फोल्डिंग और कनवोलूशनल डाउनसैम्पलिंग दोनों अनुक्रम लंबाई को प्रभावी रूप से संपीड़ित कर सकते हैं

प्रायोगिक निष्कर्ष

अंत-से-अंत बनाम कैस्केड: सर्वश्रेष्ठ अंत-से-अंत मॉडल कैस्केड सिस्टम के प्रदर्शन के करीब या उससे बेहतर हो सकता है
मॉडल आकार: बड़ा LLM (Gemma 2 9B) बेहतर प्रदर्शन लाता है
भाषण प्रतिनिधित्व: पूर्व-प्रशिक्षित भाषण एनकोडर की गुणवत्ता अंतिम प्रदर्शन को सीधे प्रभावित करती है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

पूर्व-प्रशिक्षित भाषण एनकोडर और LLM को एकीकृत करने वाली अंत-से-अंत आर्किटेक्चर अंग्रेजी-जर्मन भाषण अनुवाद कार्य पर प्रतिस्पर्धी प्रदर्शन प्राप्त करती है
सर्वश्रेष्ठ मॉडल न केवल SeamlessM4T को पार करता है, बल्कि Whisper+NLLB कैस्केड सिस्टम के प्रदर्शन के करीब है
मॉडल ASR और ST कार्यों को एक साथ निष्पादित कर सकता है, एकीकृत समाधान प्रदान करता है

सीमाएं

डेटा सीमा: केवल अंग्रेजी-जर्मन उच्च-संसाधन भाषा जोड़ी पर सत्यापित, कम-संसाधन भाषा प्रभाव अज्ञात है
कम्प्यूटेशनल दक्षता: आधारभूत मॉडल की तुलना में, अनुमान गति धीमी है, मॉडल आकार बड़ा है
ASR प्रदर्शन: भाषण पहचान कार्य पर अभी भी विशेष Whisper मॉडल से पीछे है
प्रशिक्षण डेटा: MuST-C डेटासेट अपेक्षाकृत छोटा है (400 घंटे), मॉडल क्षमता को सीमित कर सकता है

भविष्य की दिशाएं

भाषा जोड़ी विस्तार: अधिक भाषा दिशाओं पर प्रभाव सत्यापित करें
मॉडल संपीड़न: ज्ञान आसवन आदि तकनीकों के माध्यम से मॉडल आकार को कम करें
अनुकूलक सुधार: Q-Former आदि अधिक उन्नत मोडल अनुकूलन विधियों का प्रयास करें
सुदृढीकरण सीखना: RL तकनीक को एकीकृत करके प्रदर्शन को और अनुकूलित करें

गहन मूल्यांकन

लाभ

नवाचारी आर्किटेक्चर: भाषण आधारभूत मॉडल और LLM की श्रेष्ठता को प्रभावी रूप से जोड़ता है
व्यापक प्रयोग: एनकोडर और LLM संयोजन की व्यवस्थित तुलना
व्यावहारिक मूल्य: अंत-से-अंत एकीकृत समाधान प्रदान करता है
तकनीकी विवरण: मोडल अनुकूलन और प्रशिक्षण रणनीति का विस्तृत विवरण
खुलापन: ओपन-सोर्स मॉडल का उपयोग, पुनरुत्पादन में सुविधा

कमियां

भाषा कवरेज: केवल अंग्रेजी-जर्मन एकल भाषा जोड़ी पर सत्यापित, सामान्यीकरण सीमित है
कम्प्यूटेशनल लागत: प्रशिक्षण और अनुमान की कम्प्यूटेशनल लागत का विस्तृत विश्लेषण नहीं
त्रुटि विश्लेषण: मॉडल विफलता मामलों का गहन विश्लेषण अभाव है
सैद्धांतिक विश्लेषण: इस आर्किटेक्चर के प्रभावी होने के कारण का सैद्धांतिक व्याख्या अभाव है
डेटा निर्भरता: प्रशिक्षण डेटा आकार के प्रति संवेदनशीलता विश्लेषण अपर्याप्त है

प्रभाव

शैक्षणिक योगदान: भाषण अनुवाद क्षेत्र के लिए नई अंत-से-अंत समाधान प्रदान करता है
व्यावहारिक मूल्य: वास्तविक बहु-भाषा भाषण प्रसंस्करण प्रणाली में लागू किया जा सकता है
पुनरुत्पादनशीलता: ओपन-सोर्स घटकों का उपयोग, बाद के अनुसंधान में सुविधा
प्रेरणा: बहु-मोडल LLM के अनुप्रयोग के लिए मूल्यवान अन्वेषण प्रदान करता है

लागू परिदृश्य

बहु-भाषा सम्मेलन: वास्तविक समय भाषण अनुवाद और प्रतिलेख
शिक्षा मंच: बहु-भाषा ऑनलाइन पाठ्यक्रम के लिए स्वचालित उपशीर्षक और अनुवाद
ग्राहक सेवा: क्रॉस-भाषा भाषण इंटरैक्शन प्रणाली
मीडिया प्रसंस्करण: ऑडियो सामग्री का स्वचालित प्रतिलेख और अनुवाद

संदर्भ

पेपर भाषण अनुवाद, बड़े भाषा मॉडल, बहु-मोडल शिक्षण आदि क्षेत्रों के महत्वपूर्ण कार्यों का हवाला देता है, जिसमें शामिल हैं:

Whisper (Radford et al., 2022): शक्तिशाली भाषण पहचान आधारभूत मॉडल
SeamlessM4T (Communication et al., 2023): बहु-मोडल अनुवाद मॉडल आधारभूत
MuST-C (Cattoni et al., 2021): मानक भाषण अनुवाद डेटासेट
QLoRA (Dettmers et al., 2023): पैरामीटर-कुशल सूक्ष्म-समायोजन तकनीक

यह पेपर भाषण अनुवाद क्षेत्र में एक आशाजनक अंत-से-अंत समाधान प्रस्तावित करता है, हालांकि कुछ पहलुओं में सुधार की गुंजाइश है, लेकिन बहु-मोडल LLM के अनुप्रयोग के लिए मूल्यवान अन्वेषण और अनुभवजन्य परिणाम प्रदान करता है।