2025-11-12T02:28:29.830875

MTP-S2UT: Enhancing Speech-to-Speech Translation Quality with Multi-token Prediction

Wang, Zhao, Liu et al.

Current direct speech-to-speech translation methods predominantly employ speech tokens as intermediate representations. However, a single speech token is not dense in semantics, so we generally need multiple tokens to express a complete semantic unit. To address this limitation, we introduce multi-token prediction (MTP) loss into speech-to-unit translation (S2UT) models, enabling models to predict multiple subsequent tokens at each position, thereby capturing more complete semantics and enhancing information density per position. Initial MTP implementations apply the loss at the final layer, which improves output representation but initiates information enrichment too late. We hypothesize that advancing the information enrichment process to intermediate layers can achieve earlier and more effective enhancement of hidden representation. Consequently, we propose MTP-S2UT loss, applying MTP loss to hidden representation where CTC loss is computed. Experiments demonstrate that all MTP loss variants consistently improve the quality of S2UT translation, with MTP-S2UT achieving the best performance.

academic

MTP-S2UT: تحسين جودة الترجمة من الكلام إلى الكلام باستخدام التنبؤ متعدد الرموز

المعلومات الأساسية

معرّف الورقة: 2510.10003
العنوان: MTP-S2UT: Enhancing Speech-to-Speech Translation Quality with Multi-token Prediction
المؤلفون: Jianjin Wang, Runsong Zhao, Xiaoqian Liu, Yuan Ge, Ziqiang Xu, Tong Xiao, Shengxiang Gao, Zhengtao Yu, Jingbo Zhu
التصنيف: cs.CL, cs.SD, eess.AS
تاريخ النشر: 11 أكتوبر 2025 (نسخة arXiv المسبقة)
رابط الورقة: https://arxiv.org/abs/2510.10003

الملخص

تعتمد طرق الترجمة المباشرة من الكلام إلى الكلام الحالية بشكل أساسي على رموز الكلام كتمثيل وسيط. ومع ذلك، فإن الكثافة الدلالية لرمز الكلام الفردي منخفضة نسبياً، وعادة ما يتطلب الأمر عدة رموز للتعبير عن وحدة دلالية كاملة. لمعالجة هذا القيد، تقدم هذه الورقة خسارة التنبؤ متعدد الرموز (MTP) إلى نموذج الترجمة من الكلام إلى الوحدات (S2UT)، مما يمكّن النموذج من التنبؤ برموز متعددة لاحقة في كل موضع، وبالتالي التقاط دلالات أكثر اكتمالاً وزيادة كثافة المعلومات في كل موضع. بينما حسّنت عملية MTP الأولية تطبيق الخسارة على الطبقة الأخيرة التمثيل الناتج، إلا أن إثراء المعلومات بدأ متأخراً جداً. تفترض هذه الورقة أن تقديم عملية إثراء المعلومات إلى الطبقات الوسيطة يمكن أن يحقق تحسيناً أبكر وأكثر فعالية للتمثيلات المخفية. لذلك، تقترح خسارة MTP-S2UT، التي تطبق خسارة MTP على طبقة التمثيل المخفي المستخدمة لحساب خسارة CTC. تُظهر التجارب أن جميع متغيرات خسارة MTP تحسّن بشكل مستمر جودة ترجمة S2UT، حيث حققت MTP-S2UT أفضل أداء.

الخلفية البحثية والدافع

المشكلة الأساسية

تواجه الترجمة المباشرة من الكلام إلى الكلام تحدياً رئيسياً يتمثل في الندرة الدلالية لرموز الكلام. بالمقارنة مع رموز النصوص، فإن التمثيل الدلالي لرموز الكلام أكثر ندرة، وعادة ما يتطلب عدة رموز كلام للتعبير عن مفهوم دلالي واحد، مما يؤدي إلى熵 تنبؤ أعلى وتعقيد نمذجة أكبر.

أهمية المشكلة

احتياجات التطبيق العملي: تتمتع الترجمة من الكلام إلى الكلام بآفاق تطبيق واسعة في المؤتمرات الدولية والاتصالات بين الدول والسياحة وغيرها
الاختناقات التكنولوجية: تعاني الطرق الحالية من نقص في كثافة التمثيل الدلالي ودقة التنبؤ
كفاءة النموذج: تزيد ندرة رموز الكلام من عدم اليقين في التنبؤ بالنموذج

قيود الطرق الموجودة

كثافة دلالية منخفضة: لا يمكن لرمز الكلام الفردي أن يحمل معلومات دلالية كاملة
熵 تنبؤ عالي: يؤدي التعبير عن مفهوم واحد برموز متعددة إلى زيادة تعقيد التنبؤ
تأخر دمج المعلومات: تطبق طرق MTP الموجودة الخسارة فقط على الطبقة الأخيرة، مما يفقد فرص الدمج المبكر للمعلومات

الدافع البحثي

بناءً على الملاحظة بأن رموز الكلام تتطلب عدة رموز للتعاون في التعبير عن دلالات كاملة، تقترح هذه الورقة تحسين كثافة الدلالات من خلال التنبؤ متعدد الرموز، وتقديم هذا التحسين إلى الطبقات الوسيطة لتحقيق تعلم تمثيل أكثر فعالية.

المساهمات الأساسية

إدخال خسارة MTP إلى إطار S2UT للمرة الأولى: تطبيق منهجي لتقنية التنبؤ متعدد الرموز على مهمة الترجمة من الكلام إلى الكلام
اقتراح خسارة MTP-S2UT: تطبيق مبتكر لخسارة MTP على طبقة CTC المخفية، مما يحقق دمجاً أبكر للمعلومات
التحقق التجريبي الشامل: التحقق من فعالية الطريقة على عدة معدّلات كلام ولغات
تحليل آلي متعمق: الكشف عن آلية عمل خسارة MTP من خلال تحليل فك تشفير CTC وتحليل الإنتروبيا

شرح الطريقة

تعريف المهمة

يتم تعريف مهمة الترجمة من الكلام إلى الكلام كمجموعة بيانات رباعية $D = \{(S,X,Y,T)\}$ ، حيث:

$S = (s_1, \cdots, s_{|S|})$ : الكلام باللغة المصدر
$X = (x_1, \cdots, x_{|X|})$ : النص باللغة المصدر
$Y = (y_1, \cdots, y_{|Y|})$ : النص باللغة الهدف
$T = (t_1, \cdots, t_{|T|})$ : الكلام باللغة الهدف

معمارية النموذج

معمارية S2UT الأساسية

يتضمن نموذج S2UT ثلاثة مكونات رئيسية:

معدّل الكلام: تحويل الكلام المستمر للهدف إلى سلسلة رموز كلام منفصلة $U = (u_1, \cdots, u_{|U|}, e)$
نموذج تسلسل إلى تسلسل: تحويل الكلام المصدر إلى رموز الكلام الهدف
فك التعديل: تجميع الكلام الهدف من رموز الكلام

عملية الحساب الأساسية للنموذج:

H⁰_dec = Emb(U₊₁)                                    (1)
Hⁱ_dec = DecoderLayerᵢ(H^enc, Hⁱ⁻¹_dec)            (2)
L_NTP = -logP(U|H^L_dec)                             (3)
L_S2UT = L_NTP + L_other                             (4)

متغيرات خسارة MTP

تطبق هذه الورقة أربعة متغيرات من خسارة MTP:

1. MTP-Parallel-Linear استخدام N رؤوس خطية مستقلة:

P(U₋ₖ|H^L_dec) = softmax(WᵏH^L_dec)                 (6)

2. MTP-DeepSeek-V3 اعتماد teacher-forcing وكتل Transformer:

H⁰_out = H^L_dec                                     (7)
Hᵏ_in = Wᵏ_in[LN(Hᵏ⁻¹_out); LN(Emb(U₁₋ₖ))]         (8)
Hᵏ_out = Decoderₖ(H^enc, Hᵏ_in)                     (9)
P(U₋ₖ|H^L_dec) = softmax(W_outHᵏ_out)               (10)

3. MTP-VocalNet إزالة مدخلات teacher-forcing:

Hᵏ_in = Hᵏ⁻¹_out                                     (11)

نقاط الابتكار التقني

الابتكار الأساسي لـ MTP-S2UT

الرؤية الأساسية: طبقة CTC المخفية $H^m_{dec}$ تحتوي على معلومات من الأنماط النصية والكلامية معاً، وهي الموقع المثالي لتطبيق خسارة MTP.

طريقة التطبيق:

L_MTP-S2UT = -∑ᵏ⁼⁰^(N-1) logP(U₋ₖ|H^m_dec)         (13)

Hᵏ_out = Decoderₖ(H^enc, H^m_dec)                   (14)
P(U₋ₖ|H^m_dec) = softmax(W_outHᵏ_out)               (15)

مزايا التصميم:

دمج معلومات أبكر: تطبيق خسارة MTP على طبقة وسيطة وليس الطبقة الأخيرة
الاستفادة من المعلومات عبر الأنماط: الاستفادة الكاملة من تمثيل الدمج بين النص والكلام في طبقة CTC
نقل الدلالات للأمام: تعزيز حركة المعلومات الدلالية للأمام في التسلسل

إعداد التجارب

مجموعات البيانات

استخدام مجموعة بيانات معيار CVSS-C، وهي مجموعة بيانات كبيرة الحجم للترجمة من الكلام إلى الكلام:

أزواج اللغات: الفرنسية→الإنجليزية (Fr→En) والإسبانية→الإنجليزية (Es→En)
المعالجة المسبقة: ميزات mel-filterbank بـ 80 بُعد، مع تطبيع المتوسط والتباين الكيفي العام

معدّلات الكلام

تقييم ثلاثة معدّلات:

معدّل غير موجّه: ميزات mHuBERT المستندة إلى تجميع k-means (k=1000)
معدّل S3: معدّل موجّه، حجم الكود 6561
معدّل GLM-4-Voice-Tokenizer: معدّل موجّه، حجم الكود 16384

إعدادات النموذج

المشفّر: 12 طبقة Conformer، بُعد مخفي 256
فاك التشفير: 6 طبقات Transformer، بُعد مخفي 512
فاك تشفير CTC: متصل بطبقة فاك التشفير الثالثة، وزن 1.6
إعدادات MTP: التنبؤ برموز لاحقة N=7 لكل رمز كلام، وزن خسارة MTP 1.0

مؤشرات التقييم

استخدام ASR-BLEU لتقييم جودة الترجمة:

تحويل الكلام المُركّب إلى نص باستخدام نموذج ASR
حساب درجة BLEU بين النص المُحوّل والنص المرجعي

نتائج التجارب

النتائج الرئيسية

نتائج مهمة Fr→En

معدّل الكلام	النموذج	Greedy	Beam5	Beam10
S3	S2UT	17.79	18.98	19.15
S3	+ MTP-S2UT	24.36	25.14	25.16
HuBERT	S2UT	22.02	23.11	23.33
HuBERT	+ MTP-S2UT	23.59	24.50	24.53
GLM-4	S2UT	21.62	23.08	23.26
GLM-4	+ MTP-S2UT	23.97	25.22	25.26

نتائج مهمة Es→En

النموذج	Greedy	Beam5	Beam10
S2UT	16.67	17.99	18.18
+ MTP-S2UT	21.87	22.59	22.83

الاكتشافات الرئيسية

تحسين متسق: تحسّن جميع متغيرات MTP جودة الترجمة
أفضل أداء: حققت MTP-S2UT أفضل النتائج في جميع الإعدادات
تحسن كبير: ارتفع ASR-BLEU في البحث الجشع على معدّل S3 من 17.79 إلى 24.36 (+37%)

التجارب الاستئصالية

تحليل الإزاحة الأمامية لفك تشفير CTC

من خلال تحليل نتائج فك تشفير حالات CTC المخفية:

يُظهر النموذج المدرّب بـ MTP إزاحة أمامية لرموز النص مقارنة بـ NTP
يتقدم متوسط الموضع النسبي لأول ظهور لرمز النص بشكل كبير

النموذج	S3	HuBERT	GLM-4
S2UT	51.011%	49.628%	50.363%
MTP-S2UT	47.382%	44.561%	43.889%

تحليل عدم اليقين في رموز الكلام

من خلال تحليل الإنتروبيا:

تقلل جميع متغيرات MTP من عدم اليقين في التنبؤ برموز الكلام
تُظهر MTP-S2UT أكثر انخفاض ملحوظ في عدم اليقين
تزداد تكرار المناطق منخفضة الإنتروبيا، وتنخفض تكرار المناطق عالية الإنتروبيا

الأعمال ذات الصلة

الترجمة من الكلام إلى الكلام

الطرق المباشرة: استخدام وحدات كلام منفصلة كتمثيل وسيط
المعماريات الممثلة: نموذج S2UT ومتغيراته (UnitY و SeamlessM4T وغيرها)
التحديات التقنية: الندرة الدلالية لرموز الكلام وتعقيد التنبؤ

التنبؤ متعدد الرموز

الأصل: استُخدم في الأصل كمهمة مساعدة لنماذج اللغة الكبيرة
التطور: تحسينات DeepSeek-V3 وتطبيق VocalNet في الحوار الكلامي
المزايا: تحسين القدرة على التمثيل وتسريع الاستدلال والتقاط الأنماط المحلية

الخلاصة والنقاش

الاستنتاجات الرئيسية

فعالية خسارة MTP: يحسّن إدخال خسارة MTP إلى إطار S2UT جودة الترجمة بشكل كبير
مزايا الدمج المبكر: تطبيق خسارة MTP على طبقة CTC الوسيطة أكثر فعالية من الطبقة الأخيرة
رؤى الآلية: تعزز MTP نقل المعلومات الدلالية للأمام وتقلل من عدم اليقين في التنبؤ

القيود

التكلفة الحسابية: يقدم تدريب MTP معاملات إضافية وتعقيداً حسابياً
تغطية اللغات: تم التحقق من التجارب فقط على أزواج اللغات الأوروبية، مع نقص التحقق من لغات أوسع
التحليل النظري: لا يزال الفهم النظري لآلية عمل MTP بحاجة إلى تعميق

الاتجاهات المستقبلية

التوسع إلى أزواج لغات أكثر: التحقق من فعالية الطريقة عبر أنظمة لغوية مختلفة
تحسين الكفاءة الحسابية: تقليل التكلفة الحسابية لتدريب MTP
النمذجة النظرية: فهم أعمق لآلية عمل MTP في الترجمة الكلامية

التقييم المتعمق

المزايا

ابتكار قوي: أول تطبيق منهجي لـ MTP في الترجمة من الكلام إلى الكلام
طريقة معقولة: يستند تصميم MTP-S2UT إلى فهم عميق لخصائص طبقة CTC
تجارب شاملة: التحقق الكامل عبر معدّلات متعددة وأزواج لغات واستراتيجيات فك تشفير مختلفة
تحليل متعمق: الكشف عن آلية عمل الطريقة من خلال تحليل فك تشفير CTC وتحليل الإنتروبيا
نتائج كبيرة: تحسن متسق وملحوظ في جميع الإعدادات

أوجه القصور

قيود اللغات: التحقق فقط على أزواج اللغات الأوروبية، مع عدم التأكد من القابلية للتعميم
نقص تحليل الحساب: لم يتم تحليل تكلفة الحساب لتدريب MTP بالتفصيل
المقارنة غير كافية: نقص المقارنة مع طرق تحسين الترجمة الكلامية الأخرى
عمق نظري: لا يزال التحليل النظري لآلية عمل MTP غير كافٍ

التأثير

القيمة الأكاديمية: توفير أفكار تحسين جديدة لمجال الترجمة الكلامية
القيمة العملية: يجعل التحسن الملحوظ في الأداء لها إمكانية تطبيق عملي
قابلية الاستنساخ: وصف واضح للطريقة وإعدادات تجريبية مفصلة
الإلهام: توفير رؤى قيمة لنمذجة التسلسل متعدد الأنماط

السيناريوهات المطبقة

ترجمة كلام عالية الجودة: مناسبة للسيناريوهات التي تتطلب جودة ترجمة عالية
أنظمة المؤتمرات متعددة اللغات: يمكن تطبيقها على أنظمة الاتصال متعدد اللغات في الوقت الفعلي
مساعدات صوتية: تحسين قدرة الترجمة عبر اللغات لمساعدات صوتية
التعليم والتدريب: تطبيقات تعلم اللغات والتواصل بين الثقافات

المراجع

تستشهد هذه الورقة بأعمال مهمة في مجالات الترجمة من الكلام إلى الكلام والتنبؤ متعدد الرموز وتعلم التمثيلات الكلامية، مما يوفر أساساً نظرياً متيناً للبحث. تشمل المراجع الرئيسية الورقة الأصلية لـ S2UT والأعمال المتعلقة بـ MTP (DeepSeek-V3 و VocalNet) والتقنيات الأساسية لمعالجة الكلام (HuBERT و CTC وغيرها).

التقييم الإجمالي: هذه ورقة عالية الجودة في مجال الترجمة من الكلام إلى الكلام، تقترح طريقة تحسين مبتكرة وفعالة. من خلال تطبيق تقنية التنبؤ متعدد الرموز بذكاء على الطبقة الوسيطة من إطار S2UT، حققت تحسناً ملحوظاً في الأداء. يتميز التصميم التجريبي للورقة بالدقة والتحليل العميق، مما يساهم بقيمة في تطور هذا المجال.