Gelina: Unified Speech and Gesture Synthesis via Interleaved Token Prediction
Guichoux, Lemerle, Mehta et al.
Human communication is multimodal, with speech and gestures tightly coupled, yet most computational methods for generating speech and gestures synthesize them sequentially, weakening synchrony and prosody alignment. We introduce Gelina, a unified framework that jointly synthesizes speech and co-speech gestures from text using interleaved token sequences in a discrete autoregressive backbone, with modality-specific decoders. Gelina supports multi-speaker and multi-style cloning and enables gesture-only synthesis from speech inputs. Subjective and objective evaluations demonstrate competitive speech quality and improved gesture generation over unimodal baselines.
academic
جيلينا: توليف موحد للكلام والإيماءات عبر التنبؤ بالرموز المتداخلة
التواصل البشري متعدد الأنماط بطبيعته، حيث يكون الكلام والإيماءات مرتبطين ارتباطاً وثيقاً، لكن معظم الطرق الحسابية لتوليد الكلام والإيماءات تستخدم التوليف المتسلسل، مما يضعف التزامن والمحاذاة الإيقاعية. تقدم هذه الورقة جيلينا، وهي إطار عمل موحد يجمع بين الكلام والإيماءات المصاحبة للكلام من النص من خلال استخدام تسلسلات رموز متداخلة في عمود فقري ذاتي الانحدار منفصل، مع فك تشفير خاص بكل نمط. تدعم جيلينا استنساخ متعدد المتحدثين ومتعدد الأنماط، وتتمكن من توليف الإيماءات فقط من مدخلات الكلام. تشير التقييمات الذاتية والموضوعية إلى أن جيلينا تتمتع بجودة كلام تنافسية وقدرات محسّنة لتوليد الإيماءات مقارنة بالخطوط الأساسية أحادية النمط.
معمارية الانحدار الذاتي بالرموز المتداخلة للمرة الأولى: تقديم أول معمارية انحدار ذاتي بالرموز المتداخلة لتوليف الكلام والإيماءات، مع محاذاة الأنماط داخل عمود فقري موحد
استراتيجية تدريب مبتكرة: اقتراح استراتيجية تدريب تستفيد من مجموعات بيانات النصوص والكلام الكبيرة أحادية النمط لتحسين القدرة على التعميم تحت ندرة البيانات المقترنة
أنماط إدخال مرنة: دعم توليد الكلام والإيماءات من النص فقط، أو توليف الإيماءات فقط من النص والكلام
استنساخ النمط ثنائي النمط: تحقيق الاستنساخ المشترك للكلام والإيماءات من خلال استمرار التسلسل، دون الحاجة إلى تضمينات صريحة للمتحدث
تستشهد الورقة بـ 67 مرجعاً ذا صلة، تغطي مجالات متعددة مثل توليف الإيماءات وتوليف الكلام والتعلم متعدد الأنماط، مما يوفر أساساً نظرياً متيناً للبحث.
التقييم الشامل: هذه ورقة ذات أهمية ابتكارية مهمة في مجال التوليف متعدد الأنماط. تحقق جيلينا توليفاً موحداً حقيقياً للكلام والإيماءات من خلال التنبؤ بالرموز المتداخلة، مع مسار تقني جديد وتقييم تجريبي شامل، وتتمتع بقيمة أكاديمية وآفاق تطبيقية مهمة. على الرغم من وجود بعض القيود، فإنها توفر أفكاراً قيمة جديدة لتطور هذا المجال.