Gelina: Unified Speech and Gesture Synthesis via Interleaved Token Prediction
Guichoux, Lemerle, Mehta et al.
Human communication is multimodal, with speech and gestures tightly coupled, yet most computational methods for generating speech and gestures synthesize them sequentially, weakening synchrony and prosody alignment. We introduce Gelina, a unified framework that jointly synthesizes speech and co-speech gestures from text using interleaved token sequences in a discrete autoregressive backbone, with modality-specific decoders. Gelina supports multi-speaker and multi-style cloning and enables gesture-only synthesis from speech inputs. Subjective and objective evaluations demonstrate competitive speech quality and improved gesture generation over unimodal baselines.
academic
Gelina: अंतरीकृत टोकन भविष्यवाणी के माध्यम से एकीकृत भाषण और इशारा संश्लेषण
मानव संचार본질रूप से बहुविध है, भाषण और इशारे घनिष्ठ रूप से युग्मित हैं, लेकिन अधिकांश कम्प्यूटेशनल विधियां भाषण और इशारे को क्रमिक रूप से संश्लेषित करती हैं, जो समकालिकता और लयात्मक संरेखण को कमजोर करती है। यह पेपर Gelina प्रस्तुत करता है, जो एक एकीकृत ढांचा है जो असतत स्वत:प्रतिगामी मेरुदंड में अंतरीकृत टोकन अनुक्रमों का उपयोग करके, विशेष रूप से मोडल डिकोडर के साथ, पाठ से संयुक्त रूप से भाषण और सह-भाषी इशारों को संश्लेषित करता है। Gelina बहु-वक्ता और बहु-शैली क्लोनिंग का समर्थन करता है, और भाषण इनपुट से केवल इशारा संश्लेषण करने में सक्षम है। व्यक्तिपरक और उद्देश्यपरक मूल्यांकन से पता चलता है कि एकल-मोडल आधार रेखाओं की तुलना में, Gelina में प्रतिस्पर्धी भाषण गुणवत्ता और सुधारे हुए इशारा पीढ़ी क्षमता है।
अंतरीकृत टोकन स्वत:प्रतिगामी आर्किटेक्चर: भाषण-इशारा संश्लेषण के लिए पहला अंतरीकृत टोकन स्वत:प्रतिगामी आर्किटेक्चर प्रस्तावित करता है, एकीकृत मेरुदंड के भीतर मोडल को संरेखित करता है
नवीन प्रशिक्षण रणनीति: दुर्लभ युग्मित डेटा के तहत सामान्यीकरण क्षमता में सुधार के लिए बड़े एकल-मोडल पाठ-भाषण डेटासेट का उपयोग करने की प्रशिक्षण रणनीति प्रस्तावित करता है
लचीले इनपुट मोड: केवल पाठ के भाषण + इशारा पीढ़ी, या पाठ + भाषण के केवल इशारा संश्लेषण का समर्थन करता है
द्विविध शैली क्लोनिंग: अनुक्रम निरंतरता के माध्यम से भाषण और इशारों की संयुक्त क्लोनिंग, स्पष्ट वक्ता एम्बेडिंग की आवश्यकता नहीं
इनपुट: पाठ अनुक्रम (वैकल्पिक: भाषण संदर्भ)
आउटपुट: समकालिक भाषण तरंग और 3D मानव इशारा अनुक्रम (SMPL-X प्रारूप)
बाधा: बहु-वक्ता, बहु-शैली का समर्थन, भाषण-इशारा समय समकालिकता बनाए रखना
भाषण टोकनीकरण: WavTokenizer का उपयोग करके 24kHz भाषण को 75Hz के असतत टोकन में परिवर्तित करता है
इशारा टोकनीकरण: अवशिष्ट वेक्टर क्वांटाइजेशन वैरिएशनल ऑटोएनकोडर (RVQ-VAE) का उपयोग करके, निरंतर गति अनुक्रमों को 5Hz के स्तरीय असतत टोकन में परिवर्तित करता है
अंतरीकृत टोकन डिज़ाइन: भाषण और इशारा टोकन को समय आयाम पर अंतरीकृत रूप से व्यवस्थित करके, मोडल के बीच समय संरेखण सुनिश्चित करता है
दो-चरण प्रशिक्षण रणनीति: पहले बड़े पैमाने पर एकल-मोडल डेटा पर पाठ-भाषण संरेखण स्थापित करता है, फिर युग्मित डेटा पर बहुविध समकालिकता सीखता है
प्रवाह मिलान डिकोडिंग: स्वत:प्रतिगामी मेरुदंड के शब्दार्थ समृद्ध एम्बेडिंग स्पेस का उपयोग करके, सशर्त प्रवाह मिलान के माध्यम से इशारा गुणवत्ता में सुधार करता है
एकीकृत ढांचे की प्रभावशीलता: Gelina साबित करता है कि संयुक्त भाषण-इशारा पीढ़ी प्रतिस्पर्धी बनी रह सकती है, यहां तक कि एकल-मोडल आधार रेखाओं को भी पार कर सकती है
अंतरीकृत टोकन के लाभ: एकल स्वत:प्रतिगामी प्रवाह में भाषण और इशारा टोकन को संयुक्त रूप से उत्पन्न करके, समकालिक बहुविध आउटपुट सुनिश्चित करता है
प्रशिक्षण रणनीति की सफलता: दो-चरण प्रशिक्षण मौजूदा एकल-मोडल और द्विविध डेटा संसाधनों का प्रभावी ढंग से उपयोग करता है
पेपर ने 67 संबंधित संदर्भों का हवाला दिया है, जिसमें इशारा संश्लेषण, भाषण संश्लेषण, बहुविध सीखने आदि कई क्षेत्रों के महत्वपूर्ण कार्य शामिल हैं, जो अनुसंधान के लिए एक ठोस सैद्धांतिक आधार प्रदान करते हैं।
समग्र मूल्यांकन: यह बहुविध संश्लेषण क्षेत्र में महत्वपूर्ण नवाचार महत्व वाला एक पेपर है। Gelina अंतरीकृत टोकन भविष्यवाणी के माध्यम से वास्तविक अर्थ में एकीकृत भाषण-इशारा संश्लेषण प्राप्त करता है, तकनीकी मार्ग नवीन है, प्रयोगात्मक मूल्यांकन व्यापक है, महत्वपूर्ण शैक्षणिक मूल्य और अनुप्रयोग संभावनाएं हैं। कुछ सीमाओं के बावजूद, यह क्षेत्र के विकास के लिए मूल्यवान नई सोच प्रदान करता है।