MTP-S2UT: Enhancing Speech-to-Speech Translation Quality with Multi-token Prediction
Wang, Zhao, Liu et al.
Current direct speech-to-speech translation methods predominantly employ speech tokens as intermediate representations. However, a single speech token is not dense in semantics, so we generally need multiple tokens to express a complete semantic unit. To address this limitation, we introduce multi-token prediction (MTP) loss into speech-to-unit translation (S2UT) models, enabling models to predict multiple subsequent tokens at each position, thereby capturing more complete semantics and enhancing information density per position. Initial MTP implementations apply the loss at the final layer, which improves output representation but initiates information enrichment too late. We hypothesize that advancing the information enrichment process to intermediate layers can achieve earlier and more effective enhancement of hidden representation. Consequently, we propose MTP-S2UT loss, applying MTP loss to hidden representation where CTC loss is computed. Experiments demonstrate that all MTP loss variants consistently improve the quality of S2UT translation, with MTP-S2UT achieving the best performance.
academic
MTP-S2UT: تحسين جودة الترجمة من الكلام إلى الكلام باستخدام التنبؤ متعدد الرموز
تعتمد طرق الترجمة المباشرة من الكلام إلى الكلام الحالية بشكل أساسي على رموز الكلام كتمثيل وسيط. ومع ذلك، فإن الكثافة الدلالية لرمز الكلام الفردي منخفضة نسبياً، وعادة ما يتطلب الأمر عدة رموز للتعبير عن وحدة دلالية كاملة. لمعالجة هذا القيد، تقدم هذه الورقة خسارة التنبؤ متعدد الرموز (MTP) إلى نموذج الترجمة من الكلام إلى الوحدات (S2UT)، مما يمكّن النموذج من التنبؤ برموز متعددة لاحقة في كل موضع، وبالتالي التقاط دلالات أكثر اكتمالاً وزيادة كثافة المعلومات في كل موضع. بينما حسّنت عملية MTP الأولية تطبيق الخسارة على الطبقة الأخيرة التمثيل الناتج، إلا أن إثراء المعلومات بدأ متأخراً جداً. تفترض هذه الورقة أن تقديم عملية إثراء المعلومات إلى الطبقات الوسيطة يمكن أن يحقق تحسيناً أبكر وأكثر فعالية للتمثيلات المخفية. لذلك، تقترح خسارة MTP-S2UT، التي تطبق خسارة MTP على طبقة التمثيل المخفي المستخدمة لحساب خسارة CTC. تُظهر التجارب أن جميع متغيرات خسارة MTP تحسّن بشكل مستمر جودة ترجمة S2UT، حيث حققت MTP-S2UT أفضل أداء.
تواجه الترجمة المباشرة من الكلام إلى الكلام تحدياً رئيسياً يتمثل في الندرة الدلالية لرموز الكلام. بالمقارنة مع رموز النصوص، فإن التمثيل الدلالي لرموز الكلام أكثر ندرة، وعادة ما يتطلب عدة رموز كلام للتعبير عن مفهوم دلالي واحد، مما يؤدي إلى熵 تنبؤ أعلى وتعقيد نمذجة أكبر.
بناءً على الملاحظة بأن رموز الكلام تتطلب عدة رموز للتعاون في التعبير عن دلالات كاملة، تقترح هذه الورقة تحسين كثافة الدلالات من خلال التنبؤ متعدد الرموز، وتقديم هذا التحسين إلى الطبقات الوسيطة لتحقيق تعلم تمثيل أكثر فعالية.
تستشهد هذه الورقة بأعمال مهمة في مجالات الترجمة من الكلام إلى الكلام والتنبؤ متعدد الرموز وتعلم التمثيلات الكلامية، مما يوفر أساساً نظرياً متيناً للبحث. تشمل المراجع الرئيسية الورقة الأصلية لـ S2UT والأعمال المتعلقة بـ MTP (DeepSeek-V3 و VocalNet) والتقنيات الأساسية لمعالجة الكلام (HuBERT و CTC وغيرها).
التقييم الإجمالي: هذه ورقة عالية الجودة في مجال الترجمة من الكلام إلى الكلام، تقترح طريقة تحسين مبتكرة وفعالة. من خلال تطبيق تقنية التنبؤ متعدد الرموز بذكاء على الطبقة الوسيطة من إطار S2UT، حققت تحسناً ملحوظاً في الأداء. يتميز التصميم التجريبي للورقة بالدقة والتحليل العميق، مما يساهم بقيمة في تطور هذا المجال.