End-to-end Automatic Speech Recognition and Speech Translation: Integration of Speech Foundational Models and LLMs
Luu, Bojar
Speech Translation (ST) is a machine translation task that involves converting speech signals from one language to the corresponding text in another language; this task has two different approaches, namely the traditional cascade and the more recent end-to-end. This paper explores a combined end-to-end architecture of pre-trained speech encoders and Large Language Models (LLMs) for performing both Automatic Speech Recognition (ASR) and ST simultaneously. Experiments with the English-to-German language pair show that our best model not only can achieve better translation results than SeamlessM4T, a large foundational end-to-end, multi-modal translation model, but can also match the performance of a cascaded system with Whisper and NLLB, with up to a score gain of 8% in $\text{COMET}^{\text{DA}}_{22}$ metric.
academic
الترجمة إلى العربية
التعرف التلقائي على الكلام والترجمة الفورية من الكلام: دمج نماذج الأساس الكلامية والنماذج اللغوية الكبيرة
الترجمة الفورية من الكلام (ST) هي مهمة ترجمة آلية تتضمن تحويل إشارات الكلام من لغة واحدة إلى النص المقابل في لغة أخرى؛ تتميز هذه المهمة بنهجين مختلفين، وهما النهج التقليدي المتسلسل والنهج الحديث من طرف إلى طرف. تستكشف هذه الورقة البحثية بنية معمارية متكاملة من طرف إلى طرف تجمع بين مشفرات الكلام المدربة مسبقاً والنماذج اللغوية الكبيرة (LLMs) لتنفيذ التعرف التلقائي على الكلام (ASR) والترجمة الفورية من الكلام بشكل متزامن. أظهرت التجارب على زوج اللغات الإنجليزية-الألمانية أن أفضل نموذج لدينا لا يحقق فقط نتائج ترجمة أفضل من SeamlessM4T، وهو نموذج ترجمة متعدد الأنماط متطور من طرف إلى طرف، بل يمكنه أيضاً مطابقة أداء نظام متسلسل يجمع بين Whisper و NLLB، مع تحسن يصل إلى 8% في مقياس COMET22DA.
تهدف هذه الدراسة إلى حل مشاكل الكفاءة والأداء في مهمة الترجمة الفورية من الكلام (ST). تتطلب الترجمة الفورية من الكلام تحويل إشارات الكلام من لغة واحدة مباشرة إلى نص في لغة أخرى، وتعتمد تقليدياً على النهج المتسلسل (ASR→MT) أو النهج من طرف إلى طرف.
تبسيط البنية المعمارية: يمكن للنهج من طرف إلى طرف تجنب خطوة التعرف التلقائي على الكلام الوسيطة، مما يبسط البنية المعمارية الإجمالية للنظام
انتشار الأخطاء: تعاني الأنظمة المتسلسلة من مشكلة انتشار الأخطاء، حيث تؤثر أخطاء مرحلة التعرف على الكلام على جودة الترجمة اللاحقة
إمكانيات النماذج اللغوية الكبيرة: تظهر النماذج اللغوية الكبيرة قدرات قوية في مهام معالجة اللغة الطبيعية، لكن تطبيقاتها في المهام متعددة الأنماط لا تزال تحتاج إلى استكشاف
دمج القدرة على استخراج تمثيلات صوتية عالية الجودة من مشفرات الكلام المدربة مسبقاً مع القدرات القوية لمعالجة اللغة من النماذج اللغوية الكبيرة، لبناء بنية معمارية من طرف إلى طرف قادرة على تنفيذ مهام التعرف التلقائي على الكلام والترجمة الفورية من الكلام بشكل متزامن.
اقتراح بنية معمارية متكاملة من طرف إلى طرف تجمع بين نماذج الأساس الكلامية والنماذج اللغوية الكبيرة، قادرة على تنفيذ التعرف التلقائي على الكلام والترجمة الفورية من الكلام بشكل متزامن
تصميم آليات تكيف نمطية فعالة، تشمل محولات طول نوعين: طي CTC والعينات المتناقصة الالتفافية
تحقيق أداء ترجمة أفضل من SeamlessM4T على زوج اللغات الإنجليزية-الألمانية، والاقتراب من أداء نظام Whisper+NLLB المتسلسل
توفير تحليل تجريبي مفصل يقارن تأثير مجموعات مختلفة من النماذج اللغوية الكبيرة ومشفرات الكلام
تحقق البنية المعمارية المتكاملة من مشفرات الكلام المدربة مسبقاً والنماذج اللغوية الكبيرة أداء تنافسية في مهمة الترجمة الفورية من الكلام الإنجليزية-الألمانية
لا يتفوق أفضل نموذج فقط على SeamlessM4T، بل يقترب أيضاً من أداء نظام Whisper+NLLB المتسلسل
يمكن للنموذج تنفيذ مهام ASR و ST بشكل متزامن، مما يوفر حلاً موحداً
تستشهد الورقة البحثية بأعمال مهمة في مجالات الترجمة الفورية من الكلام والنماذج اللغوية الكبيرة والتعلم متعدد الأنماط، بما في ذلك:
Whisper (Radford et al., 2022): نموذج أساس قوي للتعرف على الكلام
SeamlessM4T (Communication et al., 2023): نموذج ترجمة متعدد الأنماط أساسي
MuST-C (Cattoni et al., 2021): مجموعة بيانات قياسية للترجمة الفورية من الكلام
QLoRA (Dettmers et al., 2023): تقنية الضبط الدقيق الفعال من حيث المعاملات
تقدم هذه الورقة البحثية حلاً موعوداً من طرف إلى طرف في مجال الترجمة الفورية من الكلام، وعلى الرغم من وجود مجال للتحسين في بعض الجوانب، فإنها توفر استكشافاً وتجريبياً قيماً لتطبيق النماذج اللغوية الكبيرة متعددة الأنماط.