2025-11-12T15:34:10.495668

Gelina: Unified Speech and Gesture Synthesis via Interleaved Token Prediction

Guichoux, Lemerle, Mehta et al.

Human communication is multimodal, with speech and gestures tightly coupled, yet most computational methods for generating speech and gestures synthesize them sequentially, weakening synchrony and prosody alignment. We introduce Gelina, a unified framework that jointly synthesizes speech and co-speech gestures from text using interleaved token sequences in a discrete autoregressive backbone, with modality-specific decoders. Gelina supports multi-speaker and multi-style cloning and enables gesture-only synthesis from speech inputs. Subjective and objective evaluations demonstrate competitive speech quality and improved gesture generation over unimodal baselines.

academic

Gelina: ইন্টারলিভড টোকেন প্রেডিকশনের মাধ্যমে একীভূত বক্তৃতা এবং অঙ্গভঙ্গি সংশ্লেষণ

মৌলিক তথ্য

পেপার আইডি: 2510.12834
শিরোনাম: Gelina: Unified Speech and Gesture Synthesis via Interleaved Token Prediction
লেখক: Téo Guichoux, Théodor Lemerle, Shivam Mehta, Jonas Beskow, Gustav Eje Henter, Laure Soulier, Catherine Pelachaud, Nicolas Obin
শ্রেণীবিভাগ: cs.SD cs.AI eess.AS
প্রকাশনার সময়: ২০২৫ সালের ১৩ অক্টোবর arXiv-এ জমা দেওয়া হয়েছে
পেপার লিঙ্ক: https://arxiv.org/abs/2510.12834v1

সারসংক্ষেপ

মানুষের যোগাযোগ প্রকৃতিগতভাবে বহুমাত্রিক, যেখানে বক্তৃতা এবং অঙ্গভঙ্গি ঘনিষ্ঠভাবে সংযুক্ত থাকে। তবে বেশিরভাগ বক্তৃতা এবং অঙ্গভঙ্গি উৎপাদনকারী গণনামূলক পদ্ধতি ক্রমিক সংশ্লেষণ ব্যবহার করে, যা সমন্বয়তা এবং ছন্দ সারিবদ্ধতা হ্রাস করে। এই পেপারটি Gelina উপস্থাপন করে, যা একটি একীভূত কাঠামো যা বিচ্ছিন্ন স্বয়ংক্রিয় রিগ্রেসিভ ব্যাকবোনে ইন্টারলিভড টোকেন সিকোয়েন্স ব্যবহার করে এবং নির্দিষ্ট মোডালিটি ডিকোডার সহ, পাঠ্য থেকে যৌথভাবে বক্তৃতা এবং সহ-বক্তৃতা অঙ্গভঙ্গি সংশ্লেষণ করে। Gelina বহু-বক্তা এবং বহু-শৈলী ক্লোনিং সমর্থন করে এবং বক্তৃতা ইনপুট থেকে শুধুমাত্র অঙ্গভঙ্গি সংশ্লেষণ সক্ষম করে। বিষয়গত এবং উদ্দেশ্যমূলক মূল্যায়ন নির্দেশ করে যে একক-মোডালিটি ভিত্তিরেখার তুলনায়, Gelina প্রতিযোগিতামূলক বক্তৃতা গুণমান এবং উন্নত অঙ্গভঙ্গি উৎপাদন ক্ষমতা রয়েছে।

গবেষণা পটভূমি এবং প্রেরণা

মূল সমস্যা

বিদ্যমান বহুমাত্রিক সিস্টেমগুলি বেশিরভাগ ক্যাসকেড ডিজাইন গ্রহণ করে, প্রথমে বক্তৃতা উৎপাদন করে, তারপর অঙ্গভঙ্গি যোগ করে। এই পদ্ধতিতে নিম্নলিখিত সমস্যা রয়েছে:

সমন্বয়তা হ্রাস: বক্তৃতা উৎপাদন প্রক্রিয়া অঙ্গভঙ্গির ধরন এবং সময় সম্পর্কে অবগত নয়
সীমিত ছন্দ সারিবদ্ধতা: বক্তৃতা এবং অঙ্গভঙ্গির মধ্যে সমন্বয়ের অভাব
হ্রাসপ্রাপ্ত প্রকাশশীলতা: মনোভাষাতাত্ত্বিক প্রমাণ দ্বারা প্রদর্শিত বক্তৃতা এবং অঙ্গভঙ্গি যৌথ পরিকল্পনার নীতির বিরুদ্ধে

গবেষণার তাৎপর্য

তাত্ত্বিক তাৎপর্য: বৃদ্ধির বিন্দু অনুমান সহ মনোভাষাতাত্ত্বিক তত্ত্বের সাথে সামঞ্জস্যপূর্ণ
ব্যবহারিক মূল্য: ভার্চুয়াল কথোপকথন এজেন্ট এবং সামাজিক রোবটগুলির জন্য আরও প্রাকৃতিক বহুমাত্রিক আচরণ একীকরণ প্রদান করে
প্রযুক্তিগত অগ্রগতি: একীভূত কাঠামোর মাধ্যমে দক্ষতা উন্নত করে, অঙ্গভঙ্গি মডেলকে ভাষা-ছন্দ বৈশিষ্ট্যগুলিতে সরাসরি অ্যাক্সেস দেয়

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

ডেটা স্বল্পতা: বৃহৎ-স্কেল যুক্ত কর্পাসের অভাব
একক-মোডালিটি ডেটাসেট সীমাবদ্ধতা: শুধুমাত্র বক্তৃতা বা অঙ্গভঙ্গি একক মোডালিটি ডেটাসেটে নির্মিত
ক্যাসকেড ডিজাইন ত্রুটি: বক্তৃতা উৎপাদন প্রক্রিয়া অঙ্গভঙ্গি তথ্যের প্রতি সংবেদনশীল নয়

মূল অবদান

প্রথম ইন্টারলিভড টোকেন স্বয়ংক্রিয় রিগ্রেসিভ আর্কিটেকচার: বক্তৃতা-অঙ্গভঙ্গি সংশ্লেষণের জন্য প্রথম ইন্টারলিভড টোকেন স্বয়ংক্রিয় রিগ্রেসিভ আর্কিটেকচার প্রস্তাব করে, একীভূত ব্যাকবোনের মধ্যে মোডালিটি সারিবদ্ধ করে
উদ্ভাবনী প্রশিক্ষণ কৌশল: বৃহৎ একক-মোডালিটি পাঠ্য-বক্তৃতা ডেটাসেট ব্যবহার করে বিরল যুক্ত ডেটার অধীনে সাধারণীকরণ ক্ষমতা উন্নত করার প্রশিক্ষণ কৌশল প্রস্তাব করে
নমনীয় ইনপুট মোড: শুধুমাত্র পাঠ্য বক্তৃতা + অঙ্গভঙ্গি উৎপাদন, বা পাঠ্য + বক্তৃতা শুধুমাত্র অঙ্গভঙ্গি সংশ্লেষণ সমর্থন করে
দ্বি-মোডালিটি শৈলী ক্লোনিং: ক্রম ধারাবাহিকতার মাধ্যমে বক্তৃতা এবং অঙ্গভঙ্গির যৌথ ক্লোনিং সক্ষম করে, স্পষ্ট বক্তা এম্বেডিং প্রয়োজন নেই

পদ্ধতির বিস্তারিত ব্যাখ্যা

কাজের সংজ্ঞা

ইনপুট: পাঠ্য সিকোয়েন্স (ঐচ্ছিক: বক্তৃতা রেফারেন্স) আউটপুট: সমন্বিত বক্তৃতা তরঙ্গফর্ম এবং 3D মানব অঙ্গভঙ্গি সিকোয়েন্স (SMPL-X ফর্ম্যাট) সীমাবদ্ধতা: বহু-বক্তা, বহু-শৈলী সমর্থন করে, বক্তৃতা-অঙ্গভঙ্গি সময় সমন্বয় বজায় রাখে

মডেল আর্কিটেকচার

Gelina তিনটি মূল উপাদান নিয়ে গঠিত:

1. টোকেনাইজেশন মডিউল

বক্তৃতা টোকেনাইজেশন: WavTokenizer ব্যবহার করে 24kHz বক্তৃতাকে 75Hz এর বিচ্ছিন্ন টোকেনে রূপান্তরিত করে
অঙ্গভঙ্গি টোকেনাইজেশন: অবশিষ্ট ভেক্টর কোয়ান্টাইজেশন ভেরিয়েশনাল অটোএনকোডার (RVQ-VAE) ব্যবহার করে, ক্রমাগত গতি সিকোয়েন্সকে 5Hz এর স্তরযুক্ত বিচ্ছিন্ন টোকেনে রূপান্তরিত করে
পাঠ্য টোকেনাইজেশন: মান বাইট পেয়ার এনকোডিং (BPE) অ্যালগরিদম

2. স্বয়ংক্রিয় রিগ্রেসিভ ব্যাকবোন নেটওয়ার্ক

Lina-Speech আর্কিটেকচার সম্প্রসারণের উপর ভিত্তি করে:

মোডালিটি ইন্টারলিভিং স্কিম: প্রতি 15টি বক্তৃতা টোকেনে 1টি অঙ্গভঙ্গি টোকেন সন্নিবেশ করায় (75Hz এবং 5Hz এনকোডিং হার প্রতিফলিত করে)
স্বাধীন এম্বেডিং: প্রতিটি মোডালিটির জন্য স্বাধীন ইনপুট এম্বেডিং এবং আউটপুট প্রজেকশন বজায় রাখে
দুই-পর্যায়ের প্রশিক্ষণ:
- প্রাক-প্রশিক্ষণ: বৃহৎ-স্কেল পাঠ্য-বক্তৃতা ডেটাসেটে প্রশিক্ষণ, অঙ্গভঙ্গি টোকেন র্যান্ডম টোকেন দ্বারা প্রতিস্থাপিত
- সূক্ষ্ম-সুর: যুক্ত পাঠ্য-বক্তৃতা-অঙ্গভঙ্গি ডেটায় সূক্ষ্ম-সুর করা

3. শর্তসাপেক্ষ প্রবাহ ম্যাচিং ডিকোডার

অঙ্গভঙ্গি গুণমান অপ্টিমাইজেশনের জন্য:

প্রেরণা: সরাসরি RVQ-VAE ডিকোডিং শব্দযুক্ত অঙ্গভঙ্গি টোকেন সিকোয়েন্সের প্রতি সংবেদনশীল
আর্কিটেকচার: Matcha-TTS এর উপর ভিত্তি করে 1D কনভোলিউশন-ট্রান্সফর্মার UNet
প্রশিক্ষণ উদ্দেশ্য:
```
L = LFM + λvel*Lvel + λgeo*Lgeo
```
যেখানে প্রবাহ ম্যাচিং ক্ষতি, বেগ সামঞ্জস্য পদ এবং যৌথ ঘূর্ণনের জিওডেসিক ক্ষতি অন্তর্ভুক্ত

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

ইন্টারলিভড টোকেন ডিজাইন: সৃজনশীলভাবে বক্তৃতা এবং অঙ্গভঙ্গি টোকেনকে সময় মাত্রায় ইন্টারলিভ করে, মোডালিটির মধ্যে সময় সারিবদ্ধতা নিশ্চিত করে
দুই-পর্যায়ের প্রশিক্ষণ কৌশল: প্রথমে বৃহৎ-স্কেল একক-মোডালিটি ডেটায় পাঠ্য-বক্তৃতা সারিবদ্ধতা প্রতিষ্ঠা করে, তারপর যুক্ত ডেটায় বহুমাত্রিক সমন্বয় শিখে
প্রবাহ ম্যাচিং ডিকোডিং: স্বয়ংক্রিয় রিগ্রেসিভ ব্যাকবোনের শব্দার্থিক সমৃদ্ধ এম্বেডিং স্থান ব্যবহার করে, শর্তসাপেক্ষ প্রবাহ ম্যাচিংয়ের মাধ্যমে অঙ্গভঙ্গি গুণমান উন্নত করে

পরীক্ষামূলক সেটআপ

ডেটাসেট

প্রাক-প্রশিক্ষণ: GigaSpeech, LibriTTS, MLS-10k, মোট 18,190 ঘন্টা
সূক্ষ্ম-সুর: BEAT2 ডেটাসেট (বৃহত্তম বহু-বক্তা বক্তৃতা-অঙ্গভঙ্গি ডেটাসেট)
ডেটা প্রক্রিয়াকরণ:
- Whisper-large-v3 ব্যবহার করে অডিও পুনরায় ট্রান্সক্রাইব করা
- অঙ্গভঙ্গি SMPL-X গতি সিকোয়েন্স হিসাবে প্রতিনিধিত্ব করা (25টি যৌথ, আঙুলের যৌথ সরানো)
- Rot6D প্রতিনিধিত্বে রূপান্তরিত, অনুবাদ এবং পায়ের যোগাযোগ তথ্য অন্তর্ভুক্ত

মূল্যায়ন মেট্রিক্স

অঙ্গভঙ্গি গুণমান:
- FGD-B (Fréchet Gesture Distance-Body): উৎপন্ন অঙ্গভঙ্গি এবং মানব অঙ্গভঙ্গি বিতরণের মধ্যে দূরত্ব
- BC (Beat Consistency): অঙ্গভঙ্গি বিট এবং অডিও বিটের সময় সারিবদ্ধতা
- L1-Diversity: উৎপন্ন অঙ্গভঙ্গি সিকোয়েন্সের পরিবর্তনশীলতা
বক্তৃতা গুণমান:
- WER (Word Error Rate): বোধগম্যতা
- NMOS (Natural MOS): প্রাকৃতিকতা পূর্বাভাস
- SS (Speaker Similarity): বক্তা সাদৃশ্য

তুলনামূলক পদ্ধতি

অঙ্গভঙ্গি ভিত্তিরেখা: CAMN, EMAGE, RAG-Gesture
বক্তৃতা ভিত্তিরেখা: Lina-Speech, CosyVoice-2
বিলোপন অধ্যয়ন: Gelina - Flow (প্রবাহ ম্যাচিং ডিকোডার ছাড়া), Tokenizers (সরাসরি এনকোডার-ডিকোডার পুনর্নির্মাণ)

বাস্তবায়ন বিবরণ

RVQ-VAE: 6টি অবশিষ্ট স্তর, 512 এন্ট্রি কোডবুক, 512 মাত্রা সুপ্ত স্থান
AR ব্যাকবোন: 168M প্যারামিটার, 6 স্তর পাঠ্য এনকোডার, 12 স্তর কারণ ডিকোডার
অঙ্গভঙ্গি ডিকোডার: 11.5M প্যারামিটার U-Net, λvel=0.05, λgeo=0.8
প্রশিক্ষণ: প্রাক-প্রশিক্ষণ 100k ধাপ, সূক্ষ্ম-সুর 5k ধাপ, প্রবাহ ম্যাচিং প্রশিক্ষণ 300k ধাপ

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

মডেল	FGD-B↓	BC∼	Div.∼	WER↓	NMOS↑	SS
মানব	0.0	0.684	4.14	6.5±0.54	3.72±0.04	69.1
Gelina ক্লোন.	0.0839	0.738	3.15	9.2±0.84	3.21±0.04	61.3
RAG	0.1781	0.700	5.13	-	-	-
EMAGE	0.1679	0.766	3.92	-	-	-
Lina-Speech	-	-	-	10.9±0.9	2.98±0.05	60.1
CosyVoice-2	-	-	-	3.5±0.5	3.70±0.04	63.9

মূল অনুসন্ধান

অঙ্গভঙ্গি গুণমান: Gelina ক্লোনিং FGD-B-তে সর্বোত্তম পারফরম্যান্স প্রদর্শন করে (0.0839), অন্যান্য অঙ্গভঙ্গি উৎপাদন ভিত্তিরেখার চেয়ে উল্লেখযোগ্যভাবে উন্নত
বক্তৃতা গুণমান: Lina-Speech এর তুলনায়, WER 10.9% থেকে 9.2% এ হ্রাস পায়, NMOS 2.98 থেকে 3.21 এ বৃদ্ধি পায়
চালনা দক্ষতা: A5000 GPU-তে RTF 1.47, প্রায় রিয়েল-টাইমের কাছাকাছি, একই সাথে দুটি মোডালিটি সংশ্লেষণ করে

ব্যবহারকারী গবেষণা

96 জন অংশগ্রহণকারীর বৃহৎ-স্কেল ব্যবহারকারী গবেষণার ফলাফল:

বক্তৃতা মানব সাদৃশ্য: Gelina Lina-Speech এর চেয়ে উল্লেখযোগ্যভাবে উন্নত
অঙ্গভঙ্গি মানব সাদৃশ্য: Gelina RAG এর সাথে সমান পারফরম্যান্স, EMAGE এবং CAMN এর চেয়ে উল্লেখযোগ্যভাবে উন্নত
সমন্বয়তা: Gelina এবং RAG এর মধ্যে কোন উল্লেখযোগ্য পার্থক্য নেই, উভয়ই অন্যান্য ভিত্তিরেখার চেয়ে উল্লেখযোগ্যভাবে উন্নত

বিলোপন পরীক্ষা

প্রবাহ ম্যাচিং ডিকোডারের গুরুত্ব: প্রবাহ ম্যাচিং সরানোর পরে FGD-B 0.0839 থেকে 0.6107 এ অবনতি হয়
টোকেনাইজার গুণমান: সরাসরি টোকেনাইজার পুনর্নির্মাণ এনকোডার-ডিকোডারের পারফরম্যান্স সীমা প্রদর্শন করে

সিদ্ধান্ত এবং আলোচনা

প্রধান সিদ্ধান্ত

একীভূত কাঠামোর কার্যকারিতা: Gelina প্রমাণ করে যে যৌথ বক্তৃতা-অঙ্গভঙ্গি উৎপাদন প্রতিযোগিতামূলক বজায় রাখতে পারে, এমনকি একক-মোডালিটি ভিত্তিরেখা অতিক্রম করতে পারে
ইন্টারলিভড টোকেনের সুবিধা: একক স্বয়ংক্রিয় রিগ্রেসিভ প্রবাহে বক্তৃতা এবং অঙ্গভঙ্গি টোকেন যৌথভাবে উৎপাদন করে, সমন্বিত বহুমাত্রিক আউটপুট নিশ্চিত করে
প্রশিক্ষণ কৌশলের সাফল্য: দুই-পর্যায়ের প্রশিক্ষণ বিদ্যমান একক-মোডালিটি এবং দ্বি-মোডালিটি ডেটা সম্পদ কার্যকরভাবে ব্যবহার করে

সীমাবদ্ধতা

অঙ্গভঙ্গি কভারেজ পরিসীমা: বর্তমানে শুধুমাত্র শরীর অঙ্গভঙ্গি মডেল করে, আঙুল এবং মুখের অভিব্যক্তি অন্তর্ভুক্ত করে না
বক্তৃতা গুণমান সীমাবদ্ধতা: টোকেনাইজারের গুণমান দ্বারা সীমাবদ্ধ
সিকোয়েন্স দৈর্ঘ্য: বর্তমান সংস্করণ দীর্ঘ সিকোয়েন্স উৎপাদনের জন্য সীমিত সমর্থন রয়েছে

ভবিষ্যত দিকনির্দেশনা

উন্নত টোকেনাইজার: বক্তৃতা এনকোডার-ডিকোডার গুণমান উন্নত করা
প্রসারিত অঙ্গভঙ্গি কভারেজ: আঙুল এবং মুখের অভিব্যক্তি অন্তর্ভুক্ত করা
দীর্ঘ সিকোয়েন্স সমর্থন: দীর্ঘতর সিকোয়েন্স উৎপাদন সমর্থন করা
বহুভাষিক সম্প্রসারণ: বহুভাষিক পরিস্থিতিতে সম্প্রসারণ করা

গভীর মূল্যায়ন

সুবিধা

শক্তিশালী উদ্ভাবনী: প্রথম ইন্টারলিভড টোকেন স্বয়ংক্রিয় রিগ্রেসিভ আর্কিটেকচার প্রস্তাব করে, প্রযুক্তিগত পথ উদ্ভাবনী
পর্যাপ্ত পরীক্ষা: উদ্দেশ্যমূলক মেট্রিক্স এবং বৃহৎ-স্কেল ব্যবহারকারী গবেষণা অন্তর্ভুক্ত, মূল্যায়ন ব্যাপক
উচ্চ ব্যবহারিক মূল্য: বহু-বক্তা, বহু-শৈলী সমর্থন করে, ভাল প্রয়োগ সম্ভাবনা রয়েছে
দৃঢ় তাত্ত্বিক ভিত্তি: মনোভাষাতাত্ত্বিক তত্ত্বের সাথে সামঞ্জস্যপূর্ণ

অপূর্ণতা

তুলনামূলক ভিত্তিরেখা সীমাবদ্ধতা: ডেটাসেট পার্থক্যের কারণে, সমস্ত সম্পর্কিত কাজের সাথে সরাসরি তুলনা করা যায় না
গণনামূলক দক্ষতা: বিশেষায়িত বক্তৃতা সংশ্লেষণ মডেলের তুলনায়, গণনামূলক ওভারহেড বৃহত্তর
অঙ্গভঙ্গি প্রতিনিধিত্ব সরলীকরণ: আঙুলের যৌথ সরানো সম্পূর্ণ প্রকাশ প্রভাবিত করতে পারে

প্রভাব

একাডেমিক অবদান: বহুমাত্রিক সংশ্লেষণের জন্য নতুন প্রযুক্তিগত প্যারাডাইম প্রদান করে
ব্যবহারিক মূল্য: ভার্চুয়াল মানুষ, সামাজিক রোবট ইত্যাদি ক্ষেত্রে গুরুত্বপূর্ণ প্রয়োগ মূল্য রয়েছে
পুনরুৎপাদনযোগ্যতা: বিস্তারিত বাস্তবায়ন বিবরণ এবং প্রদর্শন ওয়েবসাইট প্রদান করে

প্রযোজ্য পরিস্থিতি

ভার্চুয়াল কথোপকথন এজেন্ট: প্রাকৃতিক বক্তৃতা এবং অঙ্গভঙ্গি মিথস্ক্রিয়া প্রয়োজন এমন প্রয়োগ
ডিজিটাল মানুষ উৎপাদন: চলচ্চিত্র, গেম ইত্যাদি ক্ষেত্রে চরিত্র অ্যানিমেশন
সহায়ক প্রযুক্তি: বধির ব্যক্তিদের জন্য সাংকেতিক ভাষা উৎপাদন সমর্থন প্রদান করা
শিক্ষা প্রশিক্ষণ: ভাষা শেখায় বহুমাত্রিক প্রতিক্রিয়া

রেফারেন্স

পেপারটি 67টি সম্পর্কিত রেফারেন্স উদ্ধৃত করে, যা অঙ্গভঙ্গি সংশ্লেষণ, বক্তৃতা সংশ্লেষণ, বহুমাত্রিক শেখার একাধিক ক্ষেত্রের গুরুত্বপূর্ণ কাজ অন্তর্ভুক্ত করে, গবেষণার জন্য দৃঢ় তাত্ত্বিক ভিত্তি প্রদান করে।

সামগ্রিক মূল্যায়ন: এটি বহুমাত্রিক সংশ্লেষণ ক্ষেত্রে গুরুত্বপূর্ণ উদ্ভাবন তাৎপর্য সহ একটি পেপার। Gelina ইন্টারলিভড টোকেন পূর্বাভাসের মাধ্যমে সত্যিকারের অর্থে একীভূত বক্তৃতা-অঙ্গভঙ্গি সংশ্লেষণ অর্জন করে, প্রযুক্তিগত পথ উদ্ভাবনী, পরীক্ষামূলক মূল্যায়ন ব্যাপক, গুরুত্বপূর্ণ একাডেমিক মূল্য এবং প্রয়োগ সম্ভাবনা রয়েছে। যদিও কিছু সীমাবদ্ধতা রয়েছে, তবে এটি এই ক্ষেত্রের উন্নয়নের জন্য মূল্যবান নতুন চিন্তাভাবনা প্রদান করে।