2025-11-13T21:10:11.295731

Continuous-Token Diffusion for Speaker-Referenced TTS in Multimodal LLMs

He, Ray, Mallidi et al.

Unified architectures in multimodal large language models (MLLM) have shown promise in handling diverse tasks within a single framework. In the text-to-speech (TTS) task, current MLLM-based approaches rely on discrete token representations, which disregard the inherently continuous nature of speech and can lead to loss of fine-grained acoustic information.In this work, we investigate the TTS within the MLLM paradigm using continuous speech representations. We design a dual-head architecture and implement two complementary training strategies for a robust model. (1) A diffusion head generating continuous speech representations is added on the MLLM, which is on frame-level and strictly autoregressive. (2) The original language model head is retained to preserve multitask capability and to control the start and end of speech synthesis. (3) Masked training is employed to address exposure bias in autoregressive decoding. (4) To stabilize optimization, we propose a two-stage scheme where the LM is frozen in the second stage, ensuring the diffusion head learns from a fixed input distribution. Evaluations on LibriSpeech(PC) test-clean show that our approach achieves state-of-the-art autoregressive performance, with a WER of 1.95%, speaker similarity of 0.54, and UTMOS of 4.00. The two-stage training yields a 46% relative WER reduction over the one-stage training baseline. These results highlight the effectiveness of combining autoregressive modeling with continuous-token diffusion, supported by a two-stage training procedure.

academic

انتشار الرموز المستمرة لتحويل النص إلى كلام المرجعي للمتحدث في نماذج اللغة الكبيرة متعددة الأنماط

المعلومات الأساسية

معرّف الورقة: 2510.12995
العنوان: Continuous-Token Diffusion for Speaker-Referenced TTS in Multimodal LLMs
المؤلفون: Xinlu He¹, Swayambhu Nath Ray², Harish Mallidi², Jia-Hong Huang², Ashwin Bellur², Chander Chandak², M. Maruf², Venkatesh Ravichandran²
المؤسسات: ¹معهد ورسستر للفنون التطبيقية، الولايات المتحدة ²أمازون AGI، الولايات المتحدة
التصنيف: eess.AS cs.SD
مؤتمر النشر: ورشة عمل NeurIPS 2025: الاستدلال الاحتمالي المنظم والنمذجة التوليدية (SPIGM)
رابط الورقة: https://arxiv.org/abs/2510.12995

الملخص

أظهرت معمارية نماذج اللغة الكبيرة الموحدة متعددة الأنماط (MLLM) وعوداً في التعامل مع مهام متنوعة ضمن إطار عمل واحد. في مهام تحويل النص إلى كلام (TTS)، تعتمد الطرق الحالية القائمة على MLLM على تمثيلات الرموز المنفصلة، مما يتجاهل الطبيعة المستمرة للكلام بطبيعته، وقد يؤدي إلى فقدان المعلومات الصوتية الدقيقة. يستكشف هذا العمل استخدام تمثيلات الكلام المستمرة لمهام TTS ضمن نموذج MLLM. تم تصميم معمارية ثنائية الرأس وتنفيذ استراتيجيتي تدريب متكاملتين لبناء نموذج قوي. حققت الطريقة أداءً متقدماً من الدرجة الأولى على LibriSpeech(PC) test-clean بمعدل خطأ كلمات (WER) بنسبة 1.95%، وتشابه المتحدث 0.54، و UTMOS بقيمة 4.00.

خلفية البحث والدافع

تعريف المشكلة

تتمثل المشاكل الرئيسية في طرق TTS الحالية القائمة على MLLM فيما يلي:

فقدان التقسيم: تحول الطرق الحالية الكلام إلى رموز منفصلة، مما يتجاهل الطبيعة المستمرة للكلام، مما يؤدي إلى فقدان المعلومات الصوتية الدقيقة
اختناق التكميم: يؤدي التكميم المنفصل إلى التخلص من التفاصيل الصوتية الدقيقة، مما يحد من طبيعية الكلام وأمانته
غياب الإطار الموحد: عدم وجود طريقة فعالة لتوليد كلام مستمر عالي الجودة مع الحفاظ على قدرات MLLM متعددة المهام

أهمية البحث

الاحتياجات التقنية: مع تطور الذكاء الاصطناعي متعدد الأنماط، هناك حاجة للتعامل مع مهام النصوص والكلام ضمن إطار عمل موحد
تحسين الجودة: يمكن للتمثيلات المستمرة الحفاظ بشكل أفضل على الخصائص الجوهرية للكلام، مما يحسن جودة التوليف
القيمة التطبيقية: تتمتع تقنية استنساخ المتحدث بدون عينات بقيمة تطبيقية مهمة في توليف الكلام الشخصي

قيود الطرق الموجودة

الأنظمة متعددة المراحل: تتطلب طرق مثل VALL-E مراحل متعددة، مما يزيد من التعقيد
فقدان المعلومات: يؤدي الترميز المنفصل إلى فقدان المعلومات الصوتية الدقيقة
عدم استقرار التدريب: يوجد مشاكل في الانجراف التوزيعي عند التحسين المشترك لنموذج الانتشار و LLM

المساهمات الأساسية

معمارية مبتكرة: اقتراح رأس انتشار رموز مستمرة على مستوى الإطار، متكامل في إطار عمل MLLM الانحداري الذاتي، يختلف عن التصاميم الحالية متعددة الإطارات على مستوى الكتلة
تصميم ثنائي الرأس: تصميم معمارية ثنائية الرأس تحافظ على الإطار الموحد متعدد الأنماط، مع رأس LM يدعم توليف الكلام بأطوال متغيرة
استراتيجيات التدريب: تخفيف انحياز التعريض الانحداري الذاتي من خلال التدريب بالإخفاء، مما يحسن الاتساق الزمني وقوة النموذج
خطة التحسين: اقتراح استراتيجية تدريب على مرحلتين لتثبيت عملية التحسين، مع تقليل نسبي في WER بنسبة 46%، وتحقيق أداء SOTA الانحداري الذاتي على LibriSpeech(PC)

شرح الطريقة

تعريف المهمة

الإدخال: نص النسخ وجزء من الصوت المرجعي الإخراج: كلام عالي الجودة بخصائص متحدث محددة القيود: التنفيذ ضمن إطار عمل MLLM موحد، مع الحفاظ على القدرات متعددة المهام

معمارية النموذج

التصميم الشامل

يستخدم النموذج معمارية ثنائية الرأس، بناءً على OPT-125M كشبكة LLM الأساسية:

رأس الانتشار: توليد تضمينات الكلام المستمرة
رأس نموذج اللغة: التنبؤ بحدود الكلام والرموز الضابطة
الإسقاط متعدد الأنماط: معالجة تحويلات التمثيل لأنماط مختلفة

توليد الرموز المستمرة

بالنظر إلى تسلسل الهدف $x = \{x_1, ..., x_N\}$ ، حيث $x_i \in \mathbb{R}^d$ يمثل تضمين الكلام للإطار i.

عملية الاستدلال:

z_i = C_θ(p, x̂_{<i})  # LLM يولد متجه الشرط
x̂_i = Diffusion_φ(z_i)  # رأس الانتشار يولد تضمين الكلام

عملية التدريب: استخدام تدريب DDPM القياسي، مع دالة الخسارة:

L_diff(θ,φ) = E_t[||ε - ε̂||²]

حيث التنبؤ بالضوضاء $\hat{\varepsilon} = M_\phi(x_i^t, t, z_i)$

آلية التحكم في EOS

إدخال رموز خاصة لتحقيق التحكم في الحدود:

<speech_bos>: تشغيل مرحلة توليد الكلام
<cont_speech_gen>: متابعة توليد إطارات الكلام
<eos>: إنهاء توليد الكلام

دالة الخسارة الإجمالية:

L = L_LM + L_diff

نقاط الابتكار التقني

1. التعلم الانحداري الذاتي بالإخفاء

لتخفيف انحياز التعريض، يتم استخدام استراتيجية التدريب بالإخفاء:

إخفاء الإطارات السابقة عشوائياً باحتمالية $p_{mask}$
استبدال الإطارات المخفية بمتجهات صفرية
تدريب النموذج للتعامل مع المعلومات التاريخية غير الكاملة

2. التدريب على مرحلتين

المرحلة 1: التدريب المشترك لـ MLLM ورأس الانتشار المرحلة 2: تجميد MLLM، تدريب رأس الانتشار فقط

يحل هذا التصميم مشكلة الانجراف التوزيعي، مما يثبت عملية التدريب.

إعداد التجربة

مجموعات البيانات

بيانات التدريب: مجموعة فرعية بحجم 50 ألف ساعة من مكتبة LibriVox (من Libri-Light)
بيانات التقييم: مجموعة بيانات LibriSpeech(PC) test-clean
بروتوكول التقييم: اختيار عشوائي لـ 40 متحدثاً، كل واحد منهم utterance واحد، مع إضافة 3 ثوان من الصوت المرجعي

مؤشرات التقييم

الذكاء: معدل خطأ الكلمات (WER) - محسوب باستخدام نسخ Whisper-Large
تشابه المتحدث: استخدام ECAPA-TDNN لاستخراج التضمينات وحساب تشابه جيب التمام
- SIM-R: التشابه مع الصوت المرجعي
- SIM-G: التشابه مع الكلام الحقيقي
جودة الكلام: UTMOS - مؤشر التنبؤ بـ MOS المدرب على تقييمات بشرية واسعة النطاق

طرق المقارنة

VALL-E: طريقة الرموز المنفصلة (400M معامل)
MegaTTS: طريقة الرموز المستمرة (500M معامل)
Voicebox: طريقة مستمرة غير انحدارية ذاتية (400M معامل)
StyleTTS2: طريقة مستمرة غير انحدارية ذاتية (700M معامل)

تفاصيل التنفيذ

الشبكة الأساسية: OPT-125M
تمثيل الكلام: تضمينات VAE بـ 64 بُعد، 25fps
تضمينات المتحدث: تضمينات LAM بـ 768 بُعد
معاملات الانتشار: T=1000 خطوة للتدريب، 100 خطوة للاستدلال، جدول الضوضاء الجيبي
محسّن: Adam، بدون تحلل الأوزان، دقة مختلطة FP16

نتائج التجربة

النتائج الرئيسية

الطريقة	طريقة النمذجة	نوع الرموز	عدد المعاملات	WER(%)↓	SIM↑	UTMOS↑
VALL-E	AR+NAR	منفصل	400M	6.11	0.47	3.68
MegaTTS	AR+NAR	مستمر	500M	2.32	0.53	4.02
Voicebox	NAR	مستمر	400M	2.14	0.48	3.73
StyleTTS2	NAR	مستمر	700M	2.49	0.38	3.94
الطريقة المقترحة	AR	مستمر	160M	1.95	0.54	4.00

الاكتشافات الرئيسية:

تحقيق أفضل أداء بمعاملات 160M فقط
تقليل نسبي في WER بنسبة 46% مقارنة بخط الأساس للمرحلة 1 (3.61%→1.95%)
تفوق على جميع المؤشرات مقارنة بالنماذج الأكبر

تجارب الاستئصال

تأثير نسبة الإخفاء

نسبة الإخفاء(%)	WER(%)↓	SIM-R↑	UTMOS↑
0	15.06	0.45	2.00
15	12.65	0.45	1.39
30	6.17	0.46	3.21
50	8.13	0.46	2.84

الاكتشاف: نسبة إخفاء 30% تحقق أفضل توازن

تأثير عمق رأس الانتشار

عدد طبقات MLP	ضبط المرحلة 2	WER(%)↓	SIM-R↑	UTMOS↑
3	✗	6.17	0.46	3.10
6	✗	5.12	0.50	3.10
12	✗	3.61	0.49	3.21
12	✓	1.95	0.54	4.00

الاكتشاف: الشبكات الأعمق والتدريب على مرحلتين يحققان تحسناً كبيراً

مقارنة معايير الإيقاف

معيار الإيقاف	WER(%)↓	SIM-R↑	UTMOS↑
GT-Dur.	29.36	0.48	2.55
GT-EP.	3.46	0.49	3.21
رمز EOS	3.61	0.49	3.21

الاكتشاف: طريقة رمز EOS تحقق أداءً مماثلاً دون الحاجة إلى معلومات oracle

الأعمال ذات الصلة

تحويل النص إلى كلام بدون عينات

الأنظمة متعددة المراحل: VALL-E و SALAD وغيرها من خلال معالجة متعددة المراحل للرموز الدلالية أو الترميز
طرق المرحلة الواحدة: MegaTTS و NaturalSpeech توليد تمثيلات مستمرة عالية المعلومات مباشرة
مساهمة هذا العمل: تحقيق توليد الكلام المستمر على مرحلة واحدة ضمن إطار عمل MLLM موحد

الانتشار الانحداري الذاتي

الطرق الموجودة: TransFusion وغيرها تحاول الجمع بين الانحدار الذاتي والانتشار، لكنها تواجه صعوبات في التوليد السببي الصارم
الابتكار في هذا العمل: تحقيق انتشار تمثيل مستمر انحداري ذاتي صارم على مستوى الإطار

الخلاصة والمناقشة

الاستنتاجات الرئيسية

التحقق من الفعالية: انتشار الرموز المستمرة يتفوق بشكل كبير على الطرق المنفصلة في مهام TTS ضمن إطار عمل MLLM
مزايا الكفاءة: تحقيق أداء أفضل بمعاملات أقل (160M مقابل 400-700M)
أهمية استراتيجيات التدريب: التدريب على مرحلتين والتعلم بالإخفاء حاسمان لتحسين الأداء

القيود

التعقيد الحسابي: تتطلب عملية الانتشار استدلالاً متعدد الخطوات، مما يزيد من التكلفة الحسابية
قيود اللغة الواحدة: التحقق الحالي على بيانات اللغة الإنجليزية فقط
تعميم المتحدث: القدرة على التعميم على المتحدثين غير المرئيين تحتاج إلى مزيد من التحقق
الوقت الفعلي: قد يؤثر استدلال الانتشار بـ 100 خطوة على التطبيقات في الوقت الفعلي

الاتجاهات المستقبلية

التوسع متعدد اللغات: توسيع نطاق مهام TTS متعددة اللغات
تسريع الاستدلال: البحث عن طرق أسرع لأخذ عينات من الانتشار
الإطار الموحد: دمج المزيد من مهام الكلام (ASR، ترجمة الكلام، إلخ)
توليف النصوص الطويلة: تحسين استقرار توليف الكلام للتسلسلات الطويلة

التقييم المتعمق

المزايا

الابتكار التقني:
- أول تطبيق لانتشار مستمر على مستوى الإطار ضمن إطار عمل MLLM
- تصميم معمارية ثنائية الرأس ذكي، يحافظ على الوحدة
- التدريب على مرحلتين يحل بشكل فعال مشكلة الانجراف التوزيعي
التجارب الشاملة:
- تجارب استئصال شاملة تتحقق من مساهمة كل مكون
- مؤشرات تقييم متعددة الأبعاد (الذكاء، التشابه، الجودة)
- مقارنة عادلة مع خطوط أساس قوية متعددة
قوة النتائج:
- تحسن كبير في الأداء (تقليل نسبي في WER بنسبة 46%)
- ميزة واضحة في كفاءة المعاملات
- تحقيق أداء SOTA الانحداري الذاتي

أوجه القصور

تعقيد الطريقة:
- يتطلب تدريباً على مرحلتين، مما يزيد من تعقيد التدريب
- معاملات متعددة تحتاج إلى ضبط (نسبة الإخفاء، خطوات الانتشار، إلخ)
حدود التجارب:
- التحقق على مجموعة بيانات واحدة فقط
- غياب تجارب التقييم الذاتي
- تحليل غير كافٍ لسرعة الاستدلال
التحليل النظري:
- الشرح النظري للتدريب على مرحلتين نسبياً بسيط
- غياب تحليل التقارب

التأثير

القيمة الأكاديمية: توفير مسار تقني جديد لتوليد الكلام المستمر في MLLM
القيمة العملية: تحقيق توليف كلام عالي الجودة مع الحفاظ على الإطار الموحد
قابلية إعادة الإنتاج: وصف تفاصيل التنفيذ بشكل مفصل، مما يسهل إعادة الإنتاج

السيناريوهات المطبقة

مساعدات الكلام الشخصية: قدرة استنساخ المتحدث بدون عينات
أنظمة الحوار متعددة الأنماط: معالجة موحدة للنصوص والكلام
إنشاء المحتوى: توليد محتوى صوتي عالي الجودة
التكنولوجيا المساعدة: توفير خدمات توليف الكلام للأشخاص ذوي الإعاقات البصرية والسمعية

المراجع

تستشهد الورقة بـ 42 مرجعاً ذا صلة، تغطي الأعمال المهمة في مجالات نماذج اللغة الكبيرة متعددة الأنماط، نماذج الانتشار، وتوليف الكلام، مما يوفر أساساً نظرياً قوياً لهذا البحث.

التقييم الشامل: هذا عمل بحثي عالي الجودة في مجال توليف الكلام ضمن إطار عمل نماذج اللغة الكبيرة متعددة الأنماط. تتمتع طريقة انتشار الرموز المستمرة المقترحة بالابتكار التقني، والنتائج التجريبية مقنعة، وتوفر مساهمة قيمة لتطوير أنظمة الذكاء الاصطناعي الموحدة متعددة الأنماط. على الرغم من وجود بعض القيود، فإن مسار التقنية والتحقق التجريبي يضع أساساً جيداً للأبحاث اللاحقة في هذا المجال.