Continuous-Token Diffusion for Speaker-Referenced TTS in Multimodal LLMs
He, Ray, Mallidi et al.
Unified architectures in multimodal large language models (MLLM) have shown promise in handling diverse tasks within a single framework. In the text-to-speech (TTS) task, current MLLM-based approaches rely on discrete token representations, which disregard the inherently continuous nature of speech and can lead to loss of fine-grained acoustic information.In this work, we investigate the TTS within the MLLM paradigm using continuous speech representations. We design a dual-head architecture and implement two complementary training strategies for a robust model. (1) A diffusion head generating continuous speech representations is added on the MLLM, which is on frame-level and strictly autoregressive. (2) The original language model head is retained to preserve multitask capability and to control the start and end of speech synthesis. (3) Masked training is employed to address exposure bias in autoregressive decoding. (4) To stabilize optimization, we propose a two-stage scheme where the LM is frozen in the second stage, ensuring the diffusion head learns from a fixed input distribution. Evaluations on LibriSpeech(PC) test-clean show that our approach achieves state-of-the-art autoregressive performance, with a WER of 1.95%, speaker similarity of 0.54, and UTMOS of 4.00. The two-stage training yields a 46% relative WER reduction over the one-stage training baseline. These results highlight the effectiveness of combining autoregressive modeling with continuous-token diffusion, supported by a two-stage training procedure.
academic
انتشار الرموز المستمرة لتحويل النص إلى كلام المرجعي للمتحدث في نماذج اللغة الكبيرة متعددة الأنماط
أظهرت معمارية نماذج اللغة الكبيرة الموحدة متعددة الأنماط (MLLM) وعوداً في التعامل مع مهام متنوعة ضمن إطار عمل واحد. في مهام تحويل النص إلى كلام (TTS)، تعتمد الطرق الحالية القائمة على MLLM على تمثيلات الرموز المنفصلة، مما يتجاهل الطبيعة المستمرة للكلام بطبيعته، وقد يؤدي إلى فقدان المعلومات الصوتية الدقيقة. يستكشف هذا العمل استخدام تمثيلات الكلام المستمرة لمهام TTS ضمن نموذج MLLM. تم تصميم معمارية ثنائية الرأس وتنفيذ استراتيجيتي تدريب متكاملتين لبناء نموذج قوي. حققت الطريقة أداءً متقدماً من الدرجة الأولى على LibriSpeech(PC) test-clean بمعدل خطأ كلمات (WER) بنسبة 1.95%، وتشابه المتحدث 0.54، و UTMOS بقيمة 4.00.
معمارية مبتكرة: اقتراح رأس انتشار رموز مستمرة على مستوى الإطار، متكامل في إطار عمل MLLM الانحداري الذاتي، يختلف عن التصاميم الحالية متعددة الإطارات على مستوى الكتلة
تصميم ثنائي الرأس: تصميم معمارية ثنائية الرأس تحافظ على الإطار الموحد متعدد الأنماط، مع رأس LM يدعم توليف الكلام بأطوال متغيرة
استراتيجيات التدريب: تخفيف انحياز التعريض الانحداري الذاتي من خلال التدريب بالإخفاء، مما يحسن الاتساق الزمني وقوة النموذج
خطة التحسين: اقتراح استراتيجية تدريب على مرحلتين لتثبيت عملية التحسين، مع تقليل نسبي في WER بنسبة 46%، وتحقيق أداء SOTA الانحداري الذاتي على LibriSpeech(PC)
الإدخال: نص النسخ وجزء من الصوت المرجعي
الإخراج: كلام عالي الجودة بخصائص متحدث محددة
القيود: التنفيذ ضمن إطار عمل MLLM موحد، مع الحفاظ على القدرات متعددة المهام
تستشهد الورقة بـ 42 مرجعاً ذا صلة، تغطي الأعمال المهمة في مجالات نماذج اللغة الكبيرة متعددة الأنماط، نماذج الانتشار، وتوليف الكلام، مما يوفر أساساً نظرياً قوياً لهذا البحث.
التقييم الشامل: هذا عمل بحثي عالي الجودة في مجال توليف الكلام ضمن إطار عمل نماذج اللغة الكبيرة متعددة الأنماط. تتمتع طريقة انتشار الرموز المستمرة المقترحة بالابتكار التقني، والنتائج التجريبية مقنعة، وتوفر مساهمة قيمة لتطوير أنظمة الذكاء الاصطناعي الموحدة متعددة الأنماط. على الرغم من وجود بعض القيود، فإن مسار التقنية والتحقق التجريبي يضع أساساً جيداً للأبحاث اللاحقة في هذا المجال.