End-to-end Automatic Speech Recognition and Speech Translation: Integration of Speech Foundational Models and LLMs
Luu, Bojar
Speech Translation (ST) is a machine translation task that involves converting speech signals from one language to the corresponding text in another language; this task has two different approaches, namely the traditional cascade and the more recent end-to-end. This paper explores a combined end-to-end architecture of pre-trained speech encoders and Large Language Models (LLMs) for performing both Automatic Speech Recognition (ASR) and ST simultaneously. Experiments with the English-to-German language pair show that our best model not only can achieve better translation results than SeamlessM4T, a large foundational end-to-end, multi-modal translation model, but can also match the performance of a cascaded system with Whisper and NLLB, with up to a score gain of 8% in $\text{COMET}^{\text{DA}}_{22}$ metric.
academic
अंत-से-अंत स्वचालित भाषण पहचान और भाषण अनुवाद: भाषण आधारभूत मॉडल और LLM का एकीकरण
भाषण अनुवाद (Speech Translation, ST) एक मशीन अनुवाद कार्य है जिसमें एक भाषा के भाषण संकेतों को दूसरी भाषा में संबंधित पाठ में परिवर्तित किया जाता है; इस कार्य के दो अलग-अलग दृष्टिकोण हैं, अर्थात् पारंपरिक कैस्केड और अधिक हाल का अंत-से-अंत। यह पेपर स्वचालित भाषण पहचान (ASR) और ST दोनों को एक साथ करने के लिए पूर्व-प्रशिक्षित भाषण एनकोडर और बड़े भाषा मॉडल (LLM) की एकीकृत अंत-से-अंत आर्किटेक्चर की खोज करता है। अंग्रेजी-से-जर्मन भाषा जोड़ी के साथ प्रयोग दिखाते हैं कि हमारा सर्वश्रेष्ठ मॉडल न केवल SeamlessM4T से बेहतर अनुवाद परिणाम प्राप्त कर सकता है, जो एक बड़ा आधारभूत अंत-से-अंत, बहु-मोडल अनुवाद मॉडल है, बल्कि Whisper और NLLB के साथ एक कैस्केड सिस्टम के प्रदर्शन से मेल खा सकता है, COMET22DA मीट्रिक में 8% तक का स्कोर लाभ के साथ।
यह अनुसंधान भाषण अनुवाद (Speech Translation, ST) कार्य में दक्षता और प्रदर्शन समस्याओं को हल करने का लक्ष्य रखता है। भाषण अनुवाद को एक भाषा के भाषण संकेतों को सीधे दूसरी भाषा के पाठ में परिवर्तित करने की आवश्यकता है, जो परंपरागत रूप से कैस्केड विधि (ASR→MT) या अंत-से-अंत विधि का उपयोग करता है।
आर्किटेक्चर सरलीकरण: अंत-से-अंत विधि मध्यवर्ती ASR चरण से बच सकती है, समग्र सिस्टम आर्किटेक्चर को सरल बनाती है
त्रुटि प्रसार: कैस्केड सिस्टम में त्रुटि प्रसार की समस्या है, ASR चरण की त्रुटियां बाद के अनुवाद गुणवत्ता को प्रभावित करती हैं
LLM क्षमता: बड़े भाषा मॉडल प्राकृतिक भाषा कार्यों पर शक्तिशाली क्षमता प्रदर्शित करते हैं, लेकिन बहु-मोडल कार्यों पर उनका अनुप्रयोग अभी भी अन्वेषण की आवश्यकता है
पूर्व-प्रशिक्षित भाषण एनकोडर की उच्च-गुणवत्ता ऑडियो प्रतिनिधित्व क्षमता और LLM की शक्तिशाली भाषा प्रसंस्करण क्षमता को जोड़कर, एक ऐसी अंत-से-अंत आर्किटेक्चर बनाना जो ASR और ST कार्यों को एक साथ निष्पादित कर सके।
भाषण आधारभूत मॉडल और LLM को एकीकृत करने वाली अंत-से-अंत आर्किटेक्चर का प्रस्ताव, जो स्वचालित भाषण पहचान और भाषण अनुवाद कार्यों को एक साथ निष्पादित कर सकती है
प्रभावी मोडल अनुकूलन तंत्र का डिजाइन, जिसमें CTC फोल्डिंग और कनवोलूशनल डाउनसैम्पलिंग दो लंबाई अनुकूलक शामिल हैं
अंग्रेजी-जर्मन भाषा जोड़ी पर SeamlessM4T से बेहतर अनुवाद प्रदर्शन प्राप्त, और Whisper+NLLB कैस्केड सिस्टम के प्रदर्शन के करीब
विस्तृत प्रायोगिक विश्लेषण प्रदान, विभिन्न LLM और भाषण एनकोडर संयोजनों के प्रभाव की तुलना
पूर्व-प्रशिक्षित भाषण एनकोडर और LLM को एकीकृत करने वाली अंत-से-अंत आर्किटेक्चर अंग्रेजी-जर्मन भाषण अनुवाद कार्य पर प्रतिस्पर्धी प्रदर्शन प्राप्त करती है
सर्वश्रेष्ठ मॉडल न केवल SeamlessM4T को पार करता है, बल्कि Whisper+NLLB कैस्केड सिस्टम के प्रदर्शन के करीब है
मॉडल ASR और ST कार्यों को एक साथ निष्पादित कर सकता है, एकीकृत समाधान प्रदान करता है
पेपर भाषण अनुवाद, बड़े भाषा मॉडल, बहु-मोडल शिक्षण आदि क्षेत्रों के महत्वपूर्ण कार्यों का हवाला देता है, जिसमें शामिल हैं:
Whisper (Radford et al., 2022): शक्तिशाली भाषण पहचान आधारभूत मॉडल
SeamlessM4T (Communication et al., 2023): बहु-मोडल अनुवाद मॉडल आधारभूत
MuST-C (Cattoni et al., 2021): मानक भाषण अनुवाद डेटासेट
QLoRA (Dettmers et al., 2023): पैरामीटर-कुशल सूक्ष्म-समायोजन तकनीक
यह पेपर भाषण अनुवाद क्षेत्र में एक आशाजनक अंत-से-अंत समाधान प्रस्तावित करता है, हालांकि कुछ पहलुओं में सुधार की गुंजाइश है, लेकिन बहु-मोडल LLM के अनुप्रयोग के लिए मूल्यवान अन्वेषण और अनुभवजन्य परिणाम प्रदान करता है।