2025-11-12T15:34:10.495668

Gelina: Unified Speech and Gesture Synthesis via Interleaved Token Prediction

Guichoux, Lemerle, Mehta et al.

Human communication is multimodal, with speech and gestures tightly coupled, yet most computational methods for generating speech and gestures synthesize them sequentially, weakening synchrony and prosody alignment. We introduce Gelina, a unified framework that jointly synthesizes speech and co-speech gestures from text using interleaved token sequences in a discrete autoregressive backbone, with modality-specific decoders. Gelina supports multi-speaker and multi-style cloning and enables gesture-only synthesis from speech inputs. Subjective and objective evaluations demonstrate competitive speech quality and improved gesture generation over unimodal baselines.

academic

Gelina: अंतरीकृत टोकन भविष्यवाणी के माध्यम से एकीकृत भाषण और इशारा संश्लेषण

मूल जानकारी

पेपर ID: 2510.12834
शीर्षक: Gelina: Unified Speech and Gesture Synthesis via Interleaved Token Prediction
लेखक: Téo Guichoux, Théodor Lemerle, Shivam Mehta, Jonas Beskow, Gustav Eje Henter, Laure Soulier, Catherine Pelachaud, Nicolas Obin
वर्गीकरण: cs.SD cs.AI eess.AS
प्रकाशन तिथि: 13 अक्टूबर 2025 को arXiv पर प्रस्तुत
पेपर लिंक: https://arxiv.org/abs/2510.12834v1

सारांश

मानव संचार본질रूप से बहुविध है, भाषण और इशारे घनिष्ठ रूप से युग्मित हैं, लेकिन अधिकांश कम्प्यूटेशनल विधियां भाषण और इशारे को क्रमिक रूप से संश्लेषित करती हैं, जो समकालिकता और लयात्मक संरेखण को कमजोर करती है। यह पेपर Gelina प्रस्तुत करता है, जो एक एकीकृत ढांचा है जो असतत स्वत:प्रतिगामी मेरुदंड में अंतरीकृत टोकन अनुक्रमों का उपयोग करके, विशेष रूप से मोडल डिकोडर के साथ, पाठ से संयुक्त रूप से भाषण और सह-भाषी इशारों को संश्लेषित करता है। Gelina बहु-वक्ता और बहु-शैली क्लोनिंग का समर्थन करता है, और भाषण इनपुट से केवल इशारा संश्लेषण करने में सक्षम है। व्यक्तिपरक और उद्देश्यपरक मूल्यांकन से पता चलता है कि एकल-मोडल आधार रेखाओं की तुलना में, Gelina में प्रतिस्पर्धी भाषण गुणवत्ता और सुधारे हुए इशारा पीढ़ी क्षमता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

मूल समस्या

अधिकांश बहुविध प्रणालियां कैस्केड डिज़ाइन अपनाती हैं, पहले भाषण उत्पन्न करती हैं, फिर इशारे जोड़ती हैं, इस विधि में निम्नलिखित समस्याएं हैं:

समकालिकता में कमजोरी: भाषण पीढ़ी प्रक्रिया इशारे के प्रकार और समय के बारे में अनजान है
सीमित लयात्मक संरेखण: भाषण और इशारों के बीच समन्वय की कमी
अभिव्यक्ति में कमी: मनोभाषाविज्ञान साक्ष्य द्वारा दिखाए गए भाषण और इशारों की संयुक्त योजना सिद्धांत का उल्लंघन

अनुसंधान का महत्व

सैद्धांतिक महत्व: मनोभाषाविज्ञान सिद्धांतों जैसे विकास बिंदु परिकल्पना के साथ संरेखण
व्यावहारिक मूल्य: आभासी संवाद एजेंटों और सामाजिक रोबोटों के लिए अधिक प्राकृतिक बहुविध व्यवहार एकीकरण
तकनीकी सफलता: एकीकृत ढांचे के माध्यम से दक्षता में सुधार, इशारा मॉडल को भाषा-लयात्मक विशेषताओं तक सीधी पहुंच देना

मौजूदा विधियों की सीमाएं

डेटा की कमी: बड़े पैमाने पर युग्मित कॉर्पस की कमी
एकल-मोडल डेटासेट बाधा: केवल भाषण या इशारे एकल-मोडल डेटासेट पर निर्मित
कैस्केड डिज़ाइन दोष: भाषण पीढ़ी प्रक्रिया इशारा जानकारी के प्रति असंवेदनशील

मुख्य योगदान

अंतरीकृत टोकन स्वत:प्रतिगामी आर्किटेक्चर: भाषण-इशारा संश्लेषण के लिए पहला अंतरीकृत टोकन स्वत:प्रतिगामी आर्किटेक्चर प्रस्तावित करता है, एकीकृत मेरुदंड के भीतर मोडल को संरेखित करता है
नवीन प्रशिक्षण रणनीति: दुर्लभ युग्मित डेटा के तहत सामान्यीकरण क्षमता में सुधार के लिए बड़े एकल-मोडल पाठ-भाषण डेटासेट का उपयोग करने की प्रशिक्षण रणनीति प्रस्तावित करता है
लचीले इनपुट मोड: केवल पाठ के भाषण + इशारा पीढ़ी, या पाठ + भाषण के केवल इशारा संश्लेषण का समर्थन करता है
द्विविध शैली क्लोनिंग: अनुक्रम निरंतरता के माध्यम से भाषण और इशारों की संयुक्त क्लोनिंग, स्पष्ट वक्ता एम्बेडिंग की आवश्यकता नहीं

विधि विवरण

कार्य परिभाषा

इनपुट: पाठ अनुक्रम (वैकल्पिक: भाषण संदर्भ) आउटपुट: समकालिक भाषण तरंग और 3D मानव इशारा अनुक्रम (SMPL-X प्रारूप) बाधा: बहु-वक्ता, बहु-शैली का समर्थन, भाषण-इशारा समय समकालिकता बनाए रखना

मॉडल आर्किटेक्चर

Gelina तीन मुख्य घटकों से बना है:

1. टोकनीकरण मॉड्यूल

भाषण टोकनीकरण: WavTokenizer का उपयोग करके 24kHz भाषण को 75Hz के असतत टोकन में परिवर्तित करता है
इशारा टोकनीकरण: अवशिष्ट वेक्टर क्वांटाइजेशन वैरिएशनल ऑटोएनकोडर (RVQ-VAE) का उपयोग करके, निरंतर गति अनुक्रमों को 5Hz के स्तरीय असतत टोकन में परिवर्तित करता है
पाठ टोकनीकरण: मानक बाइट पेयर एन्कोडिंग (BPE) एल्गोरिथ्म

2. स्वत:प्रतिगामी मेरुदंड

Lina-Speech आर्किटेक्चर पर आधारित विस्तार:

मोडल अंतरीकरण योजना: प्रत्येक 15 भाषण टोकन में 1 इशारा टोकन डाला जाता है (75Hz और 5Hz एन्कोडिंग दर को प्रतिबिंबित करता है)
स्वतंत्र एम्बेडिंग: प्रत्येक मोडल के लिए स्वतंत्र इनपुट एम्बेडिंग और आउटपुट प्रक्षेपण बनाए रखता है
दो-चरण प्रशिक्षण:
- पूर्व-प्रशिक्षण: बड़े पैमाने पर पाठ-भाषण डेटासेट पर प्रशिक्षण, इशारा टोकन को यादृच्छिक टोकन से प्रतिस्थापित किया जाता है
- सूक्ष्म-ट्यूनिंग: युग्मित पाठ-भाषण-इशारा डेटा पर सूक्ष्म-ट्यूनिंग

3. सशर्त प्रवाह मिलान डिकोडर

इशारा गुणवत्ता अनुकूलन के लिए:

प्रेरणा: सीधा RVQ-VAE डिकोडिंग शोर इशारा टोकन अनुक्रमों के प्रति संवेदनशील है
आर्किटेक्चर: Matcha-TTS पर आधारित 1D कनवल्शन-ट्रांसफॉर्मर UNet
प्रशिक्षण उद्देश्य:
```
L = LFM + λvel*Lvel + λgeo*Lgeo
```
जिसमें प्रवाह मिलान हानि, वेग सुसंगतता पद और संयुक्त घूर्णन के लिए जियोडेसिक हानि शामिल है

तकनीकी नवाचार बिंदु

अंतरीकृत टोकन डिज़ाइन: भाषण और इशारा टोकन को समय आयाम पर अंतरीकृत रूप से व्यवस्थित करके, मोडल के बीच समय संरेखण सुनिश्चित करता है
दो-चरण प्रशिक्षण रणनीति: पहले बड़े पैमाने पर एकल-मोडल डेटा पर पाठ-भाषण संरेखण स्थापित करता है, फिर युग्मित डेटा पर बहुविध समकालिकता सीखता है
प्रवाह मिलान डिकोडिंग: स्वत:प्रतिगामी मेरुदंड के शब्दार्थ समृद्ध एम्बेडिंग स्पेस का उपयोग करके, सशर्त प्रवाह मिलान के माध्यम से इशारा गुणवत्ता में सुधार करता है

प्रयोगात्मक सेटअप

डेटासेट

पूर्व-प्रशिक्षण: GigaSpeech, LibriTTS, MLS-10k, कुल 18,190 घंटे
सूक्ष्म-ट्यूनिंग: BEAT2 डेटासेट (सबसे बड़ा बहु-वक्ता भाषण-इशारा डेटासेट)
डेटा प्रसंस्करण:
- Whisper-large-v3 का उपयोग करके ऑडियो को पुनः लिप्यंतरित करता है
- इशारा को SMPL-X गति अनुक्रम के रूप में प्रतिनिधित्व किया जाता है (25 संयुक्त, उंगली संयुक्त हटाए गए)
- Rot6D प्रतिनिधित्व में परिवर्तित, अनुवाद और पैर संपर्क जानकारी शामिल

मूल्यांकन मेट्रिक्स

इशारा गुणवत्ता:
- FGD-B (Fréchet Gesture Distance-Body): उत्पन्न इशारों और मानव इशारों वितरण दूरी
- BC (Beat Consistency): इशारा बीट और ऑडियो बीट का समय संरेखण
- L1-Diversity: उत्पन्न इशारा अनुक्रम की परिवर्तनशीलता
भाषण गुणवत्ता:
- WER (Word Error Rate): समझदारी
- NMOS (Natural MOS): प्राकृतिकता भविष्यवाणी
- SS (Speaker Similarity): वक्ता समानता

तुलना विधियां

इशारा आधार रेखा: CAMN, EMAGE, RAG-Gesture
भाषण आधार रेखा: Lina-Speech, CosyVoice-2
विलोपन अध्ययन: Gelina - Flow (प्रवाह मिलान डिकोडिंग के बिना), Tokenizers (सीधे एनकोडर-डिकोडर पुनर्निर्माण)

कार्यान्वयन विवरण

RVQ-VAE: 6 अवशिष्ट परतें, 512 प्रविष्टि कोडबुक, 512 आयामी अव्यक्त स्पेस
AR मेरुदंड: 168M पैरामीटर, 6-परत पाठ एनकोडर, 12-परत कारण डिकोडर
इशारा डिकोडर: 11.5M पैरामीटर U-Net, λvel=0.05, λgeo=0.8
प्रशिक्षण: 100k चरण पूर्व-प्रशिक्षण, 5k चरण सूक्ष्म-ट्यूनिंग, 300k चरण प्रवाह मिलान प्रशिक्षण

प्रयोगात्मक परिणाम

मुख्य परिणाम

मॉडल	FGD-B↓	BC∼	Div.∼	WER↓	NMOS↑	SS
मानव	0.0	0.684	4.14	6.5±0.54	3.72±0.04	69.1
Gelina Clon.	0.0839	0.738	3.15	9.2±0.84	3.21±0.04	61.3
RAG	0.1781	0.700	5.13	-	-	-
EMAGE	0.1679	0.766	3.92	-	-	-
Lina-Speech	-	-	-	10.9±0.9	2.98±0.05	60.1
CosyVoice-2	-	-	-	3.5±0.5	3.70±0.04	63.9

मुख्य निष्कर्ष

इशारा गुणवत्ता: Gelina Cloning FGD-B पर सर्वश्रेष्ठ प्रदर्शन करता है (0.0839), अन्य इशारा पीढ़ी आधार रेखाओं से महत्वपूर्ण रूप से बेहतर
भाषण गुणवत्ता: Lina-Speech की तुलना में, WER 10.9% से 9.2% तक गिरता है, NMOS 2.98 से 3.21 तक बढ़ता है
चलाने की दक्षता: A5000 GPU पर RTF 1.47 है, लगभग वास्तविक समय, दोनों मोडल को एक साथ संश्लेषित करता है

उपयोगकर्ता अनुसंधान

96 प्रतिभागियों के बड़े पैमाने पर उपयोगकर्ता अनुसंधान परिणाम:

भाषण मानव समानता: Gelina Lina-Speech से महत्वपूर्ण रूप से बेहतर है
इशारा मानव समानता: Gelina RAG के साथ समान प्रदर्शन करता है, EMAGE और CAMN से महत्वपूर्ण रूप से बेहतर है
समकालिकता: Gelina RAG के साथ कोई महत्वपूर्ण अंतर नहीं, अन्य आधार रेखाओं से महत्वपूर्ण रूप से बेहतर है

विलोपन प्रयोग

प्रवाह मिलान डिकोडिंग का महत्व: प्रवाह मिलान हटाने के बाद FGD-B 0.0839 से 0.6107 तक बिगड़ता है
टोकनाइजर गुणवत्ता: सीधे टोकनाइजर पुनर्निर्माण एनकोडर-डिकोडर के प्रदर्शन की ऊपरी सीमा प्रदर्शित करता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

एकीकृत ढांचे की प्रभावशीलता: Gelina साबित करता है कि संयुक्त भाषण-इशारा पीढ़ी प्रतिस्पर्धी बनी रह सकती है, यहां तक कि एकल-मोडल आधार रेखाओं को भी पार कर सकती है
अंतरीकृत टोकन के लाभ: एकल स्वत:प्रतिगामी प्रवाह में भाषण और इशारा टोकन को संयुक्त रूप से उत्पन्न करके, समकालिक बहुविध आउटपुट सुनिश्चित करता है
प्रशिक्षण रणनीति की सफलता: दो-चरण प्रशिक्षण मौजूदा एकल-मोडल और द्विविध डेटा संसाधनों का प्रभावी ढंग से उपयोग करता है

सीमाएं

इशारा कवरेज: वर्तमान में केवल शरीर इशारे मॉडल करता है, उंगली और चेहरे की अभिव्यक्ति शामिल नहीं
भाषण गुणवत्ता बाधा: टोकनाइजर की गुणवत्ता से सीमित
अनुक्रम लंबाई: वर्तमान संस्करण लंबे अनुक्रम पीढ़ी के लिए सीमित समर्थन

भविष्य की दिशा

टोकनाइजर में सुधार: भाषण एन्कोडिंग-डिकोडिंग गुणवत्ता में सुधार
इशारा कवरेज का विस्तार: उंगली और चेहरे की अभिव्यक्ति शामिल करना
लंबे अनुक्रम समर्थन: लंबे अनुक्रम पीढ़ी का समर्थन
बहुभाषी विस्तार: बहुभाषी परिदृश्यों में विस्तार

गहन मूल्यांकन

शक्तियां

मजबूत नवाचार: पहली बार अंतरीकृत टोकन स्वत:प्रतिगामी आर्किटेक्चर प्रस्तावित, तकनीकी मार्ग नवीन
व्यापक प्रयोग: उद्देश्यपरक मेट्रिक्स और बड़े पैमाने पर उपयोगकर्ता अनुसंधान शामिल, मूल्यांकन व्यापक
उच्च व्यावहारिक मूल्य: बहु-वक्ता, बहु-शैली का समर्थन, अच्छी अनुप्रयोग संभावनाएं
ठोस सैद्धांतिक आधार: मनोभाषाविज्ञान सिद्धांत के साथ संरेखण

कमियां

तुलना आधार रेखा सीमा: डेटासेट अंतर के कारण, सभी संबंधित कार्यों के साथ सीधी तुलना नहीं कर सकता
कम्प्यूटेशनल दक्षता: विशेष भाषण संश्लेषण मॉडल की तुलना में, अधिक कम्प्यूटेशनल ओवरहेड
इशारा प्रतिनिधित्व सरलीकरण: उंगली संयुक्त हटाना अभिव्यक्ति की पूर्णता को प्रभावित कर सकता है

प्रभाव

शैक्षणिक योगदान: बहुविध संश्लेषण के लिए नई तकनीकी प्रतिमान प्रदान करता है
व्यावहारिक मूल्य: आभासी व्यक्ति, सामाजिक रोबोट आदि क्षेत्रों में महत्वपूर्ण अनुप्रयोग मूल्य
पुनरुत्पादनीयता: विस्तृत कार्यान्वयन विवरण और प्रदर्शन वेबसाइट प्रदान करता है

लागू परिदृश्य

आभासी संवाद एजेंट: प्राकृतिक भाषण और इशारा इंटरैक्शन की आवश्यकता वाले अनुप्रयोग
डिजिटल व्यक्ति निर्माण: फिल्म, गेम आदि क्षेत्रों में चरित्र एनिमेशन
सहायक प्रौद्योगिकी: बहरे व्यक्तियों के लिए हस्ताक्षर पीढ़ी समर्थन
शिक्षा प्रशिक्षण: भाषा सीखने में बहुविध प्रतिक्रिया

संदर्भ

पेपर ने 67 संबंधित संदर्भों का हवाला दिया है, जिसमें इशारा संश्लेषण, भाषण संश्लेषण, बहुविध सीखने आदि कई क्षेत्रों के महत्वपूर्ण कार्य शामिल हैं, जो अनुसंधान के लिए एक ठोस सैद्धांतिक आधार प्रदान करते हैं।

समग्र मूल्यांकन: यह बहुविध संश्लेषण क्षेत्र में महत्वपूर्ण नवाचार महत्व वाला एक पेपर है। Gelina अंतरीकृत टोकन भविष्यवाणी के माध्यम से वास्तविक अर्थ में एकीकृत भाषण-इशारा संश्लेषण प्राप्त करता है, तकनीकी मार्ग नवीन है, प्रयोगात्मक मूल्यांकन व्यापक है, महत्वपूर्ण शैक्षणिक मूल्य और अनुप्रयोग संभावनाएं हैं। कुछ सीमाओं के बावजूद, यह क्षेत्र के विकास के लिए मूल्यवान नई सोच प्रदान करता है।

Gelina: Unified Speech and Gesture Synthesis via Interleaved Token Prediction

Gelina: अंतरीकृत टोकन भविष्यवाणी के माध्यम से एकीकृत भाषण और इशारा संश्लेषण

मूल जानकारी

सारांश

अनुसंधान पृष्ठभूमि और प्रेरणा

मूल समस्या

अनुसंधान का महत्व

मौजूदा विधियों की सीमाएं

मुख्य योगदान

विधि विवरण

कार्य परिभाषा

मॉडल आर्किटेक्चर

1. टोकनीकरण मॉड्यूल

2. स्वत:प्रतिगामी मेरुदंड

3. सशर्त प्रवाह मिलान डिकोडर

तकनीकी नवाचार बिंदु

प्रयोगात्मक सेटअप

डेटासेट

मूल्यांकन मेट्रिक्स

तुलना विधियां

कार्यान्वयन विवरण

प्रयोगात्मक परिणाम

मुख्य परिणाम

मुख्य निष्कर्ष

उपयोगकर्ता अनुसंधान

विलोपन प्रयोग

संबंधित कार्य

सह-भाषी इशारा संश्लेषण

पाठ से भाषण

एकीकृत भाषण इशारा संश्लेषण

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

सीमाएं

भविष्य की दिशा

गहन मूल्यांकन

शक्तियां

कमियां

प्रभाव

लागू परिदृश्य

संदर्भ