2025-11-12T15:34:10.495668

Gelina: Unified Speech and Gesture Synthesis via Interleaved Token Prediction

Guichoux, Lemerle, Mehta et al.
Human communication is multimodal, with speech and gestures tightly coupled, yet most computational methods for generating speech and gestures synthesize them sequentially, weakening synchrony and prosody alignment. We introduce Gelina, a unified framework that jointly synthesizes speech and co-speech gestures from text using interleaved token sequences in a discrete autoregressive backbone, with modality-specific decoders. Gelina supports multi-speaker and multi-style cloning and enables gesture-only synthesis from speech inputs. Subjective and objective evaluations demonstrate competitive speech quality and improved gesture generation over unimodal baselines.
academic

جيلينا: توليف موحد للكلام والإيماءات عبر التنبؤ بالرموز المتداخلة

المعلومات الأساسية

  • معرّف الورقة: 2510.12834
  • العنوان: Gelina: Unified Speech and Gesture Synthesis via Interleaved Token Prediction
  • المؤلفون: Téo Guichoux, Théodor Lemerle, Shivam Mehta, Jonas Beskow, Gustav Eje Henter, Laure Soulier, Catherine Pelachaud, Nicolas Obin
  • التصنيف: cs.SD cs.AI eess.AS
  • تاريخ النشر: تم تقديمه إلى arXiv في 13 أكتوبر 2025
  • رابط الورقة: https://arxiv.org/abs/2510.12834v1

الملخص

التواصل البشري متعدد الأنماط بطبيعته، حيث يكون الكلام والإيماءات مرتبطين ارتباطاً وثيقاً، لكن معظم الطرق الحسابية لتوليد الكلام والإيماءات تستخدم التوليف المتسلسل، مما يضعف التزامن والمحاذاة الإيقاعية. تقدم هذه الورقة جيلينا، وهي إطار عمل موحد يجمع بين الكلام والإيماءات المصاحبة للكلام من النص من خلال استخدام تسلسلات رموز متداخلة في عمود فقري ذاتي الانحدار منفصل، مع فك تشفير خاص بكل نمط. تدعم جيلينا استنساخ متعدد المتحدثين ومتعدد الأنماط، وتتمكن من توليف الإيماءات فقط من مدخلات الكلام. تشير التقييمات الذاتية والموضوعية إلى أن جيلينا تتمتع بجودة كلام تنافسية وقدرات محسّنة لتوليد الإيماءات مقارنة بالخطوط الأساسية أحادية النمط.

خلفية البحث والدافع

المشكلة الأساسية

معظم الأنظمة متعددة الأنماط الحالية تعتمد على تصميم متسلسل، حيث يتم توليد الكلام أولاً ثم إضافة الإيماءات. تواجه هذه الطريقة المشاكل التالية:

  1. ضعف التزامن: عملية توليد الكلام لا تأخذ في الاعتبار نوع الإيماءات وتوقيتها
  2. محاذاة إيقاعية محدودة: نقص التنسيق بين الكلام والإيماءات
  3. انخفاض التعبيرية: يتعارض مع الأدلة النفسية اللغوية التي تظهر مبدأ التخطيط المشترك للكلام والإيماءات

الأهمية البحثية

  1. الأهمية النظرية: توافق مع نظريات علم النفس اللغوي مثل فرضية نقطة النمو في التواصل البشري
  2. القيمة العملية: توفير تكامل سلوك متعدد الأنماط أكثر طبيعية للوكلاء الحواريين الافتراضيين والروبوتات الاجتماعية
  3. الاختراق التكنولوجي: تحسين الكفاءة من خلال إطار عمل موحد، مما يسمح لنموذج الإيماءات بالوصول المباشر إلى ميزات اللغة والإيقاع

قيود الطرق الموجودة

  1. ندرة البيانات: نقص المدونات الكبيرة المقترنة
  2. قيود مجموعات البيانات أحادية النمط: البناء على مجموعات بيانات الكلام أو الإيماءات فقط
  3. عيوب التصميم المتسلسل: عملية توليد الكلام غير حساسة لمعلومات الإيماءات

المساهمات الأساسية

  1. معمارية الانحدار الذاتي بالرموز المتداخلة للمرة الأولى: تقديم أول معمارية انحدار ذاتي بالرموز المتداخلة لتوليف الكلام والإيماءات، مع محاذاة الأنماط داخل عمود فقري موحد
  2. استراتيجية تدريب مبتكرة: اقتراح استراتيجية تدريب تستفيد من مجموعات بيانات النصوص والكلام الكبيرة أحادية النمط لتحسين القدرة على التعميم تحت ندرة البيانات المقترنة
  3. أنماط إدخال مرنة: دعم توليد الكلام والإيماءات من النص فقط، أو توليف الإيماءات فقط من النص والكلام
  4. استنساخ النمط ثنائي النمط: تحقيق الاستنساخ المشترك للكلام والإيماءات من خلال استمرار التسلسل، دون الحاجة إلى تضمينات صريحة للمتحدث

شرح الطريقة

تعريف المهمة

المدخلات: تسلسل نصي (اختياري: مرجع كلام) المخرجات: موجة صوتية متزامنة وتسلسل إيماءات جسم ثلاثي الأبعاد (تنسيق SMPL-X) القيود: دعم متعدد المتحدثين ومتعدد الأنماط، مع الحفاظ على التزامن الزمني بين الكلام والإيماءات

معمارية النموذج

تتكون جيلينا من ثلاثة مكونات أساسية:

1. وحدة الترميز

  • ترميز الكلام: استخدام WavTokenizer لتحويل الكلام بتردد 24 كيلوهرتز إلى رموز منفصلة بتردد 75 هرتز
  • ترميز الإيماءات: استخدام فك تشفير متغير الكمية المتبقية (RVQ-VAE)، لتحويل تسلسلات الحركة المستمرة إلى رموز منفصلة هرمية بتردد 5 هرتز
  • ترميز النص: خوارزمية ترميز البايتات المقترنة (BPE) القياسية

2. العمود الفقري الانحداري الذاتي

موسع بناءً على معمارية Lina-Speech:

  • مخطط التداخل النمطي: إدراج رمز إيماءة واحد لكل 15 رمز كلام (يعكس نسبة الترميز 75 هرتز و5 هرتز)
  • التضمينات المستقلة: الحفاظ على تضمينات إدخال وإسقاطات إخراج مستقلة لكل نمط
  • التدريب على مرحلتين:
    • المرحلة الأولى: التدريب على مجموعات بيانات نصوص-كلام كبيرة، مع استبدال رموز الإيماءات برموز عشوائية
    • المرحلة الثانية: الضبط الدقيق على بيانات مقترنة من النصوص والكلام والإيماءات

3. فك تشفير مطابقة التدفق الشرطي

محسّن لجودة الإيماءات:

  • الدافع: فك التشفير المباشر لـ RVQ-VAE حساس لتسلسلات رموز الإيماءات الضوضائية
  • المعمارية: شبكة U بناءً على Matcha-TTS مع Transformer أحادي البعد ملتف
  • هدف التدريب:
    L = LFM + λvel*Lvel + λgeo*Lgeo
    
    حيث يتضمن خسارة مطابقة التدفق وحد اتساق السرعة وخسارة الخط الجيوديسي لدوران المفاصل

نقاط الابتكار التقني

  1. تصميم الرموز المتداخلة: ترتيب مبتكر لرموز الكلام والإيماءات على البعد الزمني، مما يضمن المحاذاة الزمنية بين الأنماط
  2. استراتيجية التدريب على مرحلتين: إنشاء محاذاة نصوص-كلام على بيانات أحادية النمط كبيرة أولاً، ثم تعلم التزامن متعدد الأنماط على بيانات مقترنة
  3. فك تشفير مطابقة التدفق: الاستفادة من فضاء التضمين الغني دلالياً للعمود الفقري الانحداري الذاتي، مع تحسين جودة الإيماءات من خلال مطابقة التدفق الشرطي

إعداد التجارب

مجموعات البيانات

  • المرحلة الأولى: GigaSpeech و LibriTTS و MLS-10k، بإجمالي 18,190 ساعة
  • الضبط الدقيق: مجموعة بيانات BEAT2 (أكبر مجموعة بيانات متعددة المتحدثين للكلام والإيماءات)
  • معالجة البيانات:
    • إعادة نسخ الصوت باستخدام Whisper-large-v3
    • تمثيل الإيماءات كتسلسلات حركة SMPL-X (25 مفصل، مع إزالة مفاصل الأصابع)
    • التحويل إلى تمثيل Rot6D، يتضمن الترجمة ومعلومات اتصال القدم

مؤشرات التقييم

  • جودة الإيماءات:
    • FGD-B (مسافة جيسيه للإيماءات - الجسم): مسافة توزيع الإيماءات المولدة من الإيماءات البشرية
    • BC (اتساق النبض): المحاذاة الزمنية بين نبضات الإيماءات والصوت
    • L1-Diversity: التنوع في تسلسل الإيماءات المولدة
  • جودة الكلام:
    • WER (معدل خطأ الكلمات): الوضوح
    • NMOS (درجة الرأي المتوسط الطبيعية): التنبؤ بالطبيعية
    • SS (تشابه المتحدث): تشابه المتحدث

طرق المقارنة

  • خطوط أساسية الإيماءات: CAMN و EMAGE و RAG-Gesture
  • خطوط أساسية الكلام: Lina-Speech و CosyVoice-2
  • الدراسات الاستئصالية: Gelina - Flow (بدون فك تشفير مطابقة التدفق)، Tokenizers (إعادة بناء المشفر-فك المشفر المباشر)

تفاصيل التنفيذ

  • RVQ-VAE: 6 طبقات متبقية، 512 مدخل دفتر الرموز، فضاء كامن بـ 512 بعد
  • العمود الفقري الانحداري الذاتي: 168 مليون معامل، 6 طبقات ترميز نصوص، 12 طبقة فك تشفير سببي
  • فك تشفير الإيماءات: شبكة U بـ 11.5 مليون معامل، λvel=0.05، λgeo=0.8
  • التدريب: 100 ألف خطوة للمرحلة الأولى، 5 آلاف خطوة للضبط الدقيق، 300 ألف خطوة لتدريب مطابقة التدفق

نتائج التجارب

النتائج الرئيسية

النموذجFGD-B↓BC∼Div.∼WER↓NMOS↑SS
البشر0.00.6844.146.5±0.543.72±0.0469.1
جيلينا الاستنساخ0.08390.7383.159.2±0.843.21±0.0461.3
RAG0.17810.7005.13---
EMAGE0.16790.7663.92---
Lina-Speech---10.9±0.92.98±0.0560.1
CosyVoice-2---3.5±0.53.70±0.0463.9

النتائج الرئيسية

  1. جودة الإيماءات: استنساخ جيلينا يحقق أفضل أداء في FGD-B (0.0839)، متفوقاً بشكل كبير على خطوط الأساس الأخرى لتوليد الإيماءات
  2. جودة الكلام: مقارنة بـ Lina-Speech، انخفض WER من 10.9% إلى 9.2%، وارتفع NMOS من 2.98 إلى 3.21
  3. كفاءة التشغيل: معامل الوقت الفعلي (RTF) على GPU A5000 هو 1.47، قريب من الوقت الفعلي، مع توليف كلا النمطين

الدراسة البشرية

نتائج دراسة بشرية واسعة النطاق مع 96 مشاركاً:

  • تشابه الكلام البشري: جيلينا متفوقة بشكل كبير على Lina-Speech
  • تشابه الإيماءات البشرية: أداء جيلينا مماثلة لـ RAG، متفوقة بشكل كبير على EMAGE و CAMN
  • التزامن: لا فرق كبير بين جيلينا و RAG، كلاهما متفوق بشكل كبير على خطوط الأساس الأخرى

الدراسات الاستئصالية

  • أهمية فك تشفير مطابقة التدفق: إزالة مطابقة التدفق تؤدي إلى تدهور FGD-B من 0.0839 إلى 0.6107
  • جودة المشفر: إعادة بناء المشفر المباشر توضح حد الأداء للمشفر-فك المشفر

الأعمال ذات الصلة

توليف الإيماءات المصاحبة للكلام

  • الطرق المبكرة: نمذجة التسلسل الانحداري الذاتي (مثل CAMN)
  • الاتجاه الحالي السائد: مولدات قائمة على الانتشار (مثل EMAGE)
  • التمثيل المنفصل: توليف أكثر قابلية للتحكم (مثل BEAT2)

تحويل النصوص إلى كلام

  • اتجاه التطور: التحول نحو الطرق المدفوعة بالبيانات
  • نمذجة الترميز المنفصل: استخدام مشفرات-فاك مشفرات كبيرة مدربة مسبقاً
  • توليف متعدد المتحدثين: استنساخ المتحدث من خلال عبارات مرجعية قصيرة

توليف موحد للكلام والإيماءات

  • المحاولات المبكرة: طرق عصبية مثل Tacotron-ISG
  • الأعمال الحديثة: أطر عمل قائمة على الانتشار مثل Diff-TTSG و Match-TTSG
  • القيود: معظمها محدود بمتحدث واحد أو بيانات اصطناعية

الخلاصة والنقاش

الاستنتاجات الرئيسية

  1. فعالية الإطار الموحد: تثبت جيلينا أن التوليد المشترك للكلام والإيماءات يمكن أن يحافظ على تنافسية، بل يتفوق على خطوط الأساس أحادية النمط
  2. مزايا الرموز المتداخلة: من خلال توليد رموز الكلام والإيماءات بشكل مشترك في تدفق انحداري ذاتي واحد، يتم ضمان مخرجات متعددة الأنماط متزامنة
  3. نجاح استراتيجية التدريب: يستفيد التدريب على مرحلتين بشكل فعال من موارد البيانات الموجودة أحادية النمط وثنائية النمط

القيود

  1. نطاق تغطية الإيماءات: حالياً يتم نمذجة إيماءات الجسم فقط، بدون أصابع أو تعبيرات وجهية
  2. قيود جودة الكلام: محدود بجودة المشفر
  3. طول التسلسل: الإصدار الحالي له دعم محدود لتوليف التسلسلات الطويلة

الاتجاهات المستقبلية

  1. تحسين المشفرات: تحسين جودة ترميز الكلام
  2. توسيع تغطية الإيماءات: تضمين الأصابع والتعبيرات الوجهية
  3. دعم التسلسلات الطويلة: دعم توليف التسلسلات الأطول
  4. التوسع متعدد اللغات: التوسع إلى سيناريوهات متعددة اللغات

التقييم المتعمق

المزايا

  1. ابتكار قوي: أول معمارية انحدار ذاتي بالرموز المتداخلة، مسار تقني جديد
  2. تجارب شاملة: تتضمن مؤشرات موضوعية ودراسة بشرية واسعة النطاق، تقييم شامل
  3. قيمة عملية عالية: دعم متعدد المتحدثين ومتعدد الأنماط، آفاق تطبيق جيدة
  4. أساس نظري متين: توافق مع نظريات علم النفس اللغوي

أوجه القصور

  1. قيود خطوط الأساس للمقارنة: عدم القدرة على المقارنة المباشرة مع جميع الأعمال ذات الصلة بسبب اختلافات مجموعات البيانات
  2. كفاءة الحساب: عبء حسابي أكبر مقارنة بنماذج توليف الكلام المتخصصة
  3. تبسيط تمثيل الإيماءات: إزالة مفاصل الأصابع قد تؤثر على اكتمال التعبير

التأثير

  1. المساهمة الأكاديمية: توفير نموذج تقني جديد لتوليف متعدد الأنماط
  2. القيمة العملية: قيمة تطبيقية مهمة في المجالات مثل الأشخاص الافتراضيين والروبوتات الاجتماعية
  3. قابلية إعادة الإنتاج: توفير تفاصيل تنفيذ مفصلة وموقع عرض توضيحي

السيناريوهات المعمول بها

  1. وكلاء الحوار الافتراضيين: تطبيقات تتطلب تفاعل كلام وإيماءات طبيعي
  2. صنع الشخصيات الرقمية: الرسوم المتحركة للشخصيات في الأفلام والألعاب وغيرها
  3. التكنولوجيا المساعدة: توفير دعم توليف لغة الإشارة للأشخاص الصم
  4. التعليم والتدريب: ردود فعل متعددة الأنماط في تعلم اللغات

المراجع

تستشهد الورقة بـ 67 مرجعاً ذا صلة، تغطي مجالات متعددة مثل توليف الإيماءات وتوليف الكلام والتعلم متعدد الأنماط، مما يوفر أساساً نظرياً متيناً للبحث.


التقييم الشامل: هذه ورقة ذات أهمية ابتكارية مهمة في مجال التوليف متعدد الأنماط. تحقق جيلينا توليفاً موحداً حقيقياً للكلام والإيماءات من خلال التنبؤ بالرموز المتداخلة، مع مسار تقني جديد وتقييم تجريبي شامل، وتتمتع بقيمة أكاديمية وآفاق تطبيقية مهمة. على الرغم من وجود بعض القيود، فإنها توفر أفكاراً قيمة جديدة لتطور هذا المجال.