2025-11-15T20:37:12.035510

End-to-end Automatic Speech Recognition and Speech Translation: Integration of Speech Foundational Models and LLMs

Luu, Bojar
Speech Translation (ST) is a machine translation task that involves converting speech signals from one language to the corresponding text in another language; this task has two different approaches, namely the traditional cascade and the more recent end-to-end. This paper explores a combined end-to-end architecture of pre-trained speech encoders and Large Language Models (LLMs) for performing both Automatic Speech Recognition (ASR) and ST simultaneously. Experiments with the English-to-German language pair show that our best model not only can achieve better translation results than SeamlessM4T, a large foundational end-to-end, multi-modal translation model, but can also match the performance of a cascaded system with Whisper and NLLB, with up to a score gain of 8% in $\text{COMET}^{\text{DA}}_{22}$ metric.
academic

الترجمة إلى العربية

التعرف التلقائي على الكلام والترجمة الفورية من الكلام: دمج نماذج الأساس الكلامية والنماذج اللغوية الكبيرة

المعلومات الأساسية

  • معرّف الورقة البحثية: 2510.10329
  • العنوان: التعرف التلقائي على الكلام والترجمة الفورية من الكلام: دمج نماذج الأساس الكلامية والنماذج اللغوية الكبيرة
  • المؤلفون: Nam Luu، Ondřej Bojar (جامعة تشارلز)
  • التصنيف: cs.CL
  • تاريخ النشر: 11 أكتوبر 2025 (نسخة أولية من arXiv)
  • رابط الورقة البحثية: https://arxiv.org/abs/2510.10329v1

الملخص

الترجمة الفورية من الكلام (ST) هي مهمة ترجمة آلية تتضمن تحويل إشارات الكلام من لغة واحدة إلى النص المقابل في لغة أخرى؛ تتميز هذه المهمة بنهجين مختلفين، وهما النهج التقليدي المتسلسل والنهج الحديث من طرف إلى طرف. تستكشف هذه الورقة البحثية بنية معمارية متكاملة من طرف إلى طرف تجمع بين مشفرات الكلام المدربة مسبقاً والنماذج اللغوية الكبيرة (LLMs) لتنفيذ التعرف التلقائي على الكلام (ASR) والترجمة الفورية من الكلام بشكل متزامن. أظهرت التجارب على زوج اللغات الإنجليزية-الألمانية أن أفضل نموذج لدينا لا يحقق فقط نتائج ترجمة أفضل من SeamlessM4T، وهو نموذج ترجمة متعدد الأنماط متطور من طرف إلى طرف، بل يمكنه أيضاً مطابقة أداء نظام متسلسل يجمع بين Whisper و NLLB، مع تحسن يصل إلى 8% في مقياس COMET22DA\text{COMET}^{\text{DA}}_{22}.

الخلفية البحثية والدافع

تعريف المشكلة

تهدف هذه الدراسة إلى حل مشاكل الكفاءة والأداء في مهمة الترجمة الفورية من الكلام (ST). تتطلب الترجمة الفورية من الكلام تحويل إشارات الكلام من لغة واحدة مباشرة إلى نص في لغة أخرى، وتعتمد تقليدياً على النهج المتسلسل (ASR→MT) أو النهج من طرف إلى طرف.

أهمية البحث

  1. تبسيط البنية المعمارية: يمكن للنهج من طرف إلى طرف تجنب خطوة التعرف التلقائي على الكلام الوسيطة، مما يبسط البنية المعمارية الإجمالية للنظام
  2. انتشار الأخطاء: تعاني الأنظمة المتسلسلة من مشكلة انتشار الأخطاء، حيث تؤثر أخطاء مرحلة التعرف على الكلام على جودة الترجمة اللاحقة
  3. إمكانيات النماذج اللغوية الكبيرة: تظهر النماذج اللغوية الكبيرة قدرات قوية في مهام معالجة اللغة الطبيعية، لكن تطبيقاتها في المهام متعددة الأنماط لا تزال تحتاج إلى استكشاف

قيود الطرق الموجودة

  1. ندرة البيانات: بيانات التدريب المتوازية للترجمة الفورية من الكلام نسبياً نادرة، خاصة بالنسبة للغات منخفضة الموارد
  2. كفاءة النموذج: تواجه نماذج طرف إلى طرف الحالية تحديات في سرعة الاستدلال وحجم النموذج
  3. فجوة الأداء: لا تزال نماذج طرف إلى طرف في بعض الحالات تواجه صعوبة في مضاهاة أداء الأنظمة المتسلسلة

الدافع البحثي

دمج القدرة على استخراج تمثيلات صوتية عالية الجودة من مشفرات الكلام المدربة مسبقاً مع القدرات القوية لمعالجة اللغة من النماذج اللغوية الكبيرة، لبناء بنية معمارية من طرف إلى طرف قادرة على تنفيذ مهام التعرف التلقائي على الكلام والترجمة الفورية من الكلام بشكل متزامن.

المساهمات الأساسية

  1. اقتراح بنية معمارية متكاملة من طرف إلى طرف تجمع بين نماذج الأساس الكلامية والنماذج اللغوية الكبيرة، قادرة على تنفيذ التعرف التلقائي على الكلام والترجمة الفورية من الكلام بشكل متزامن
  2. تصميم آليات تكيف نمطية فعالة، تشمل محولات طول نوعين: طي CTC والعينات المتناقصة الالتفافية
  3. تحقيق أداء ترجمة أفضل من SeamlessM4T على زوج اللغات الإنجليزية-الألمانية، والاقتراب من أداء نظام Whisper+NLLB المتسلسل
  4. توفير تحليل تجريبي مفصل يقارن تأثير مجموعات مختلفة من النماذج اللغوية الكبيرة ومشفرات الكلام

شرح الطريقة

تعريف المهمة

  • الإدخال: إشارات الكلام باللغة المصدر
  • الإخراج: توليد متزامن لنص النسخ باللغة المصدر ونص الترجمة باللغة الهدف
  • القيود: التدريب من طرف إلى طرف، بدون الحاجة إلى إشارات إشرافية وسيطة

البنية المعمارية

تتكون البنية المعمارية الإجمالية من ثلاثة مكونات رئيسية:

1. مشفر الكلام (Speech Encoder)

  • HuBERT: استخدام متغير hubert-large-ls960-ft، مدرب على 60,000 ساعة من بيانات LibriLight، وتم ضبطه بدقة على 960 ساعة من بيانات LibriSpeech
  • مشفر Whisper: استخدام جزء المشفر من whisper-large-v3-turbo لاستخراج ميزات الصوت المخفية

2. محول الطول (Length Adapter)

نظراً لأن تسلسل ميزات الكلام قد يتجاوز الطول الأقصى الذي يدعمه النموذج اللغوي الكبير، يلزم إجراء ضغط:

  • طي CTC (للاستخدام مع HuBERT):
    • الاستفادة من التسميات المتنبأ بها من قبل طبقة CTC
    • دمج متوسط المتجهات المقابلة للتسميات المكررة
    • ضغط فعال لطول التسلسل مع الحفاظ على المعلومات الدلالية
  • العينات المتناقصة الالتفافية (للاستخدام مع Whisper):
    • استخدام طبقة التفافية بحجم kernel=5، stride=5
    • عينات متناقصة مباشرة لتسلسل الميزات بمعامل 5

3. طبقة الإسقاط (Projection Layer)

  • شبكة تغذية أمامية بطبقة واحدة
  • تعيين البعد المخفي لمشفر الكلام إلى البعد المدمج للنموذج اللغوي الكبير
  • ضمان إمكانية دمج تمثيلات الكلام بشكل فعال في فضاء التضمين للنموذج اللغوي الكبير

4. النماذج اللغوية الكبيرة (LLMs)

تم اختبار أربعة نماذج لغوية كبيرة مدربة مسبقاً مختلفة:

  • Gemma 7B (gemma-7b)
  • Gemma 2 9B (gemma-2-9b)
  • Llama 2 7B (Llama-2-7b-hf)
  • Mistral 7B v0.1 (Mistral-7B-v0.1)

نقاط الابتكار التقني

  1. إطار عمل موحد للتعلم متعدد المهام: تحقيق التدريب والاستدلال المتزامن لمهام ASR و ST من خلال رموز فاصلة خاصة
  2. استراتيجية تكيف نمطية: تصميم طرق ضغط طول متخصصة لمشفرات كلام مختلفة
  3. ضبط دقيق فعال: استخدام تقنية QLoRA (Quantized Low-Rank Adaptation) لضبط دقيق فعال من حيث المعاملات

استراتيجية التدريب

تنسيق البيانات

<bos> <>audio<> {audio features} <>transcript<> {transcript} <>translation<> {translation} <eos>

حساب الخسارة

  • حساب خسارة الإنتروبيا المتقاطعة فقط للرموز بعد <>transcript<>
  • استخدام طريقة التنبؤ بالرمز التالي للتدريب

تنسيق الاستدلال

<bos> <>audio<> {audio features} <>transcript<>

يقوم النموذج بتوليد النسخ والترجمة بشكل انحداري ذاتي.

إعداد التجارب

مجموعات البيانات

  • بيانات التدريب: مجموعة فرعية إنجليزية-ألمانية من MuST-C v1.0، تحتوي على حوالي 400 ساعة من بيانات الصوت
  • بيانات الاختبار:
    • MuST-C tst-COMMON v2.0 و v3.0
    • مجموعات اختبار المسار غير المتصل IWSLT'21 و '22
    • LibriSpeech test-clean و test-other (لتقييم ASR)

مقاييس التقييم

  • الترجمة الفورية من الكلام: BLEU, COMET22DA^{DA}_{22}, COMET22KIWIDA^{KIWI-DA}_{22}
  • التعرف على الكلام: WER (معدل خطأ الكلمة)

طرق المقارنة

  • النظام المتسلسل: Whisper (whisper-large-v3-turbo) + NLLB (nllb-200-3.3B)
  • خط الأساس من طرف إلى طرف: SeamlessM4T (seamless-m4t-v2-large)

تفاصيل التنفيذ

  • طريقة الضبط الدقيق: QLoRA بـ 4-bit، دقة bfloat16
  • معاملات LoRA: rank=8, alpha=8
  • حجم الدفعة: 1 لنماذج HuBERT، 2 لنماذج Whisper
  • المحسّن: AdamW، معدل التعلم 1e-4، جدولة جيب التمام
  • خطوات التدريب: 500,000 خطوة لنماذج HuBERT، 100,000 خطوة لنماذج Whisper

نتائج التجارب

النتائج الرئيسية

أداء ASR (WER %)

النموذجMuST-C v2MuST-C v3IWSLT'22LibriSpeech نظيفLibriSpeech آخر
Whisper6.77.711.84.17.2
مشفر Whisper + Gemma 2 9B8.28.122.68.013.7
HuBERT + Gemma 2 9B11.112.521.98.413.1

أداء الترجمة الفورية من الكلام (درجات BLEU)

النموذجMuST-C v2MuST-C v3IWSLT'21IWSLT'22
Whisper + NLLB39.84/31.0640.30/31.6043.84/-41.86/30.48
SeamlessM4T32.62/22.9833.36/23.5935.97/-34.08/22.68
مشفر Whisper + Gemma 2 9B41.33/31.9841.16/31.7240.76/-39.64/29.18

أداء COMET

أفضل نموذج (مشفر Whisper + Gemma 2 9B) على مقياس COMET22DA^{DA}_{22}:

  • MuST-C v2: 84.22 (مقابل 83.00 للنظام المتسلسل)
  • MuST-C v3: 83.65 (مقابل 82.49 للنظام المتسلسل)
  • تحسن بحوالي 8% مقارنة بـ SeamlessM4T

نتائج الدراسات الاستئصائية

  1. اختيار النموذج اللغوي الكبير: يُظهر Gemma 2 9B أفضل أداء في جميع الاختبارات
  2. مقارنة المشفرات: يتفوق مشفر Whisper بشكل عام على HuBERT
  3. تأثير المحول: يمكن لطي CTC والعينات المتناقصة الالتفافية ضغط طول التسلسل بشكل فعال

النتائج التجريبية

  1. طرف إلى طرف مقابل المتسلسل: يمكن لأفضل نموذج من طرف إلى طرف الاقتراب من أداء النظام المتسلسل أو تجاوزها
  2. حجم النموذج: يؤدي النموذج اللغوي الكبير الأكبر (Gemma 2 9B) إلى أداء أفضل
  3. تمثيل الكلام: تؤثر جودة مشفر الكلام المدرب مسبقاً بشكل مباشر على الأداء النهائي

الأعمال ذات الصلة

اتجاهات البحث في الترجمة الفورية من الكلام

  1. الطريقة المتسلسلة: خط أنابيب ASR+MT التقليدي، لا يزال الحل السائد الحالي
  2. الطريقة من طرف إلى طرف: التحويل المباشر من الكلام إلى نص اللغة الهدف، تجنب التمثيل الوسيط
  3. النماذج اللغوية الكبيرة متعددة الأنماط: أحدث الأبحاث في توسيع النماذج اللغوية الكبيرة إلى أنماط أخرى مثل الكلام

مزايا هذه الورقة البحثية مقارنة بالأعمال ذات الصلة

  1. إطار عمل موحد: معالجة مهام ASR و ST بشكل متزامن، بدلاً من تحسين مهمة واحدة
  2. التصميم المعياري: يمكن استبدال مشفرات كلام ونماذج لغوية كبيرة مختلفة بمرونة
  3. الجدوى العملية: توفير حل من طرف إلى طرف مع الحفاظ على أداء تنافسية

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. تحقق البنية المعمارية المتكاملة من مشفرات الكلام المدربة مسبقاً والنماذج اللغوية الكبيرة أداء تنافسية في مهمة الترجمة الفورية من الكلام الإنجليزية-الألمانية
  2. لا يتفوق أفضل نموذج فقط على SeamlessM4T، بل يقترب أيضاً من أداء نظام Whisper+NLLB المتسلسل
  3. يمكن للنموذج تنفيذ مهام ASR و ST بشكل متزامن، مما يوفر حلاً موحداً

القيود

  1. قيود البيانات: تم التحقق فقط على زوج لغات عالي الموارد الإنجليزية-الألمانية، تأثير اللغات منخفضة الموارد غير معروف
  2. الكفاءة الحسابية: سرعة الاستدلال أبطأ من نماذج الأساس، وحجم النموذج أكبر
  3. أداء ASR: لا تزال أداء التعرف على الكلام متخلفة عن نموذج Whisper المتخصص
  4. بيانات التدريب: مجموعة بيانات MuST-C نسبياً صغيرة (400 ساعة)، قد تحد من إمكانيات النموذج

الاتجاهات المستقبلية

  1. توسيع أزواج اللغات: التحقق من الفعالية على اتجاهات لغات أكثر
  2. ضغط النموذج: تقليل حجم النموذج من خلال تقنيات مثل تقطير المعرفة
  3. تحسين المحول: تجربة طرق تكيف نمطية أكثر تقدماً مثل Q-Former
  4. التعلم المعزز: دمج تقنيات RL لتحسين الأداء بشكل أكبر

التقييم المتعمق

المميزات

  1. البنية المعمارية المبتكرة: دمج فعال لمزايا نماذج الأساس الكلامية والنماذج اللغوية الكبيرة
  2. التجارب الشاملة: مقارنة منهجية لمجموعات مختلفة من المشفرات والنماذج اللغوية الكبيرة
  3. القيمة العملية: توفير حل موحد من طرف إلى طرف
  4. التفاصيل التقنية: وصف مفصل لاستراتيجيات تكيف النمط والتدريب
  5. الانفتاح: استخدام نماذج مفتوحة المصدر، يسهل إعادة الإنتاج

أوجه القصور

  1. تغطية اللغات: تم التحقق فقط من زوج لغات واحد إنجليزي-ألماني، القابلية للتعميم محدودة
  2. التكلفة الحسابية: لم يتم تحليل تكاليف التدريب والاستدلال الحسابية بالتفصيل
  3. تحليل الأخطاء: نقص التحليل المتعمق لحالات فشل النموذج
  4. التحليل النظري: نقص التفسير النظري لسبب فعالية هذه البنية المعمارية
  5. تحليل الحساسية: تحليل غير كافٍ لحساسية النموذج تجاه حجم بيانات التدريب

التأثير

  1. المساهمة الأكاديمية: توفير حل جديد من طرف إلى طرف لمجال الترجمة الفورية من الكلام
  2. القيمة العملية: يمكن تطبيقها على أنظمة معالجة الكلام متعددة اللغات الفعلية
  3. قابلية الإعادة: استخدام مكونات مفتوحة المصدر، يسهل الأبحاث اللاحقة
  4. الإلهام: استكشاف قيم لتطبيق النماذج اللغوية الكبيرة متعددة الأنماط

حالات الاستخدام المناسبة

  1. المؤتمرات متعددة اللغات: الترجمة الفورية من الكلام والنسخ في الوقت الفعلي
  2. منصات التعليم: النسخ والترجمة التلقائية للدورات التدريبية عبر الإنترنت متعددة اللغات
  3. خدمة العملاء: أنظمة التفاعل الصوتي عبر اللغات
  4. معالجة الوسائط: النسخ والترجمة التلقائية لمحتوى الصوت

المراجع

تستشهد الورقة البحثية بأعمال مهمة في مجالات الترجمة الفورية من الكلام والنماذج اللغوية الكبيرة والتعلم متعدد الأنماط، بما في ذلك:

  • Whisper (Radford et al., 2022): نموذج أساس قوي للتعرف على الكلام
  • SeamlessM4T (Communication et al., 2023): نموذج ترجمة متعدد الأنماط أساسي
  • MuST-C (Cattoni et al., 2021): مجموعة بيانات قياسية للترجمة الفورية من الكلام
  • QLoRA (Dettmers et al., 2023): تقنية الضبط الدقيق الفعال من حيث المعاملات

تقدم هذه الورقة البحثية حلاً موعوداً من طرف إلى طرف في مجال الترجمة الفورية من الكلام، وعلى الرغم من وجود مجال للتحسين في بعض الجوانب، فإنها توفر استكشافاً وتجريبياً قيماً لتطبيق النماذج اللغوية الكبيرة متعددة الأنماط.